热点科技

标题: 应验：Core再创疯狂奇迹，浮点性能Specfp2000暴3000点大关，诛灭Power5 [打印本页]

作者: ronglaoda 时间: 2006-6-29 11:00
标题: 应验：Core再创疯狂奇迹，浮点性能Specfp2000暴3000点大关，诛灭Power5
应验：Core再创疯狂奇迹，浮点性能Specfp2000暴3000点大关，诛灭Power5
上次我说在EM64T下， Core的浮点性能还有很大空间，预计浮点性能Specfp2000达到2900以上没有问题。
Core不仅实现了单周期吞吐的128位SIMD浮点指令，同时实现了目前x86处理器最高的浮点吞吐能力和最高的浮点执行效率。而且连这种未修改源代码做手工优化的实际测试中，浮点性能Specfp2000达到 3049 2797 ，甚至超过了以浮点性能强大而著称的IBM POWER5。幸亏IBM又有了Power5+，不然...
Core的浮点－－3049 2797
http://www.spec.org/cpu2000/resu ... 20060612-06166.html
Power5的浮点－－3048 2850
http://www.spec.org/osg/cpu2000/ ... 20060213-05585.html

整数性能达到破纪录的3022 3039，最后连Power5+都大幅灭掉了
http://www.spec.org/cpu2000/resu ... 20060525-06043.html

这是人类，目前唯一一个双破3000点的处理器，包括所有的RISC等等各类CPU。 Core的完美表现拉开了一个辉煌时代的开端
Core不仅仅是x86中的王者，也是世界上最为先进的CPU之一。

作者: starck 时间: 2006-6-29 11:04
堪称x86的奇迹啊

作者: zyhsjz 时间: 2006-6-29 11:08
看的很多A记爱好者都心痒了吧

作者: smdx 时间: 2006-6-29 11:16
A记爱好者s恐怕对这些根本就不屑一顾，这些根本就用不到的U的性能对比再怎么样也无关痛痒。
因为他们fan的好产品，自己能买到用到的东西，而不是幼稚的单纯fan品牌，fan这个品牌下的自己用不到的东西且拼命拿这些东西YY。

作者: 9988sf 时间: 2006-6-29 11:21
Xeon processor 5160 貌似还没"FXxx"贵。

FXxx的价钱确实很Fxxx.

作者: q1234 时间: 2006-6-29 11:34

原帖由 jhj9 于 2006-6-29 11:16 发表
A记爱好者s恐怕对这些根本就不屑一顾，这些根本就用不到的U的性能对比再怎么样也无关痛痒。
因为他们fan的好产品，自己能买到用到的东西，而不是幼稚的单纯fan品牌，fan这个品牌下的自己用不到的东西且拼命拿这些 ...

A记爱好者里头有一多半好像都喜欢引fx的成绩吧

作者: grievedsnail 时间: 2006-6-29 11:37

原帖由 xywarii 于 2006-6-29 11:34 发表

A记爱好者里头有一多半好像都喜欢引fx的成绩吧

那是因为很多测试都喜欢用默认频率来对比。
而很多用A U的都是超到2.7G以上的，他们想要知道手里的U超频后能和什么对手作对比，当然只能以FX的默认成绩来参考。比如那些用着2.7G OP165，甚至3G OP165的，不用FX60、FX62的默认性能来参考，还能用什么呢？

作者: jenniferybq 时间: 2006-6-29 11:37

ia-64那是不是要停产了？

作者: sim2k 时间: 2006-6-29 11:50

原帖由 jhj9 于 2006-6-29 11:37 发表

那是因为很多测试都喜欢用默认频率来对比。
而很多用A U的都是超到2.7G以上的，他们想要知道手里的U超频后能和什么对手作对比，当然只能以FX的默认成绩来参考。比如那些用着2.7G OP165，甚至3G OP165的，不用 ...

用op的人占到a记爱好者的一多半么？似乎更多的都是用单核a64乃至sp的

作者: sunguoquancool 时间: 2006-6-29 11:50
Intel的人向PathScale EKOPath投降了

作者: ouyang56 时间: 2006-6-29 11:52

原帖由 jhj9 于 2006-6-29 11:16 发表
A记爱好者s恐怕对这些根本就不屑一顾，这些根本就用不到的U的性能对比再怎么样也无关痛痒。
因为他们fan的好产品，自己能买到用到的东西，而不是幼稚的单纯fan品牌，fan这个品牌下的自己用不到的东西且拼命拿这些 ...

No，No，No

A记爱好者s以前是高度重视的，而是自从你来了以后对这些根本就不屑一顾

应该这么说，自从I大幅领先，很多重要测试就是无关痛痒了

作者: xpjda123 时间: 2006-6-29 11:52
X86的历史

作者: xhui520 时间: 2006-6-29 11:52

原帖由 Edison 于 2006-6-29 11:50 发表
Intel的人向PathScale EKOPath投降了

ICC9.1还不知道Core的存在

作者: av6421165 时间: 2006-6-29 11:53
ICC 9.1里提供了QxT，怎么说不知道Core2的存在呢？

作者: ly6721860 时间: 2006-6-29 11:54
http://www.anandtech.com/IT/showdoc.aspx?i=2772&p=1

作者: shmily882004 时间: 2006-6-29 12:09

原帖由 Edison 于 2006-6-29 11:53 发表
ICC 9.1里提供了QxT，怎么说不知道Core2的存在呢？

这里没有用QxT
http://www.spec.org/osg/cpu2000/ ... 20060612-06166.html

QxT可能是最新的v9.1开始. 原来的9.1好像还没有

作者: 0323hxx 时间: 2006-6-29 12:11
Base tuning for C programs: icc -fast -auto_ilp32 +FDO
Base tuning for FORTRAN programs: ifort -fast +FDO

作者: a37653340 时间: 2006-6-29 12:13
不是说扣肉在64位下的性能提升相当有限吗？

作者: huangli 时间: 2006-6-29 12:22
强啊是时候换平台了.

作者: xyzdsl 时间: 2006-6-29 12:31

原帖由 hopetoknow2 于 2006-6-29 12:09 发表

这里没有用QxT
http://www.spec.org/osg/cpu2000/ ... 20060612-06166.html

QxT可能是最新的v9.1开始. 原来的9.1好像还没有

我从7.x的就开始不断收集intel compiler，9.1的最大改进就是Core2的支持，第一个公开的bulid旧有QxT，之前我在讨论区就发表过这个信息了。

9.1的-fast优化选项集的-qx是-QxP，-QxT不是默认选项，用户可以自己添加-QxT，我的64bit 测试都是-QxT跑的。

作者: gdmms 时间: 2006-6-29 12:41

原帖由 还在读童话 于 2006-6-29 12:13 发表
不是说扣肉在64位下的性能提升相当有限吗？

这年头居然还有人信pcpop里的文章~~

=========================================

P.S.

http://www.hardware.fr/articles/ ... -2-duo-dossier.html

作者: waynesong1083 时间: 2006-6-29 12:53
http://www.spec.org/cpu2000/resu ... 20060613-06201.html

到最后还是Intel的编译器最爽，哈哈。

Montecito 1.6GHz。

SPECfp2000 =  3017
SPECfp_base2000 =  3017

Operating System: Bull Advanced Server 4 (linux kernel 2.6.12 (64k pages), glibc 2.3.4)
Compiler: Intel(R) Fortran Compiler for Linux 9.1 (Build 20060523)
Intel(R) C++ Compiler for Linux 9.1 (Build 20060523)

+FDO: PASS1=-prof_gen  PASS2=-prof_use

Baseline optimization flags:
C programs:    -fast -ansi_alias -IPF_fp_relaxed +FDO
Fortran programs: -fast -IPF_fp_relaxed + FDO

Portability Flags:
178.galgel:  -FI

Peak optimization flags: basepeak=true

The option "maxcpus=0 (ie=UP kernel)" was added to the "elilo.conf"
configuration file in order to invoke a uniprocessor environment.
4 memory boxes, with 8 DIMMs in each

Hardware Vendor: Bull
Model Name: NovaScale 3045 (1600MHz)
CPU: Itanium 2 Processor 9050 1600 MHz FSB 533MHz
CPU MHz: 1600
FPU: Integrated
CPU(s) enabled: 8 cores, 4 chips, 2 cores/chip (Hyper-Threading Technology disabled)
CPU(s) orderable: 1, 2, 3 or 4 (chips)
Parallel: No
Primary Cache: 16KBI + 16KBD on chip per core
Secondary Cache: 1MBI + 256KBD on chip per core
L3 Cache: 12MB (I+D) on chip per core
Other Cache: N/A
Memory: 32 GB (32* 1GB ECC DIMMs DDR2-533 PC4200 533MHZ CL4)
Disk Subsystem: 2*10krpm 73GB SAS disks

作者: mycrh 时间: 2006-6-29 12:59
Montecito的整数性能也不赖，同频性能比较接近Conroe了（输16%）：

CPU: Itanium 2 Processor 9050 1600 MHz FSB 533MHz

SPECint2000 =  1474
SPECint_base2000 =  1474
http://www.spec.org/cpu2000/resu ... 20060613-06198.html

Intel Xeon processor 5110 (1066 MHz system bus)

SPECint2000 =  1717
SPECint_base2000 =  1712
http://www.spec.org/cpu2000/resu ... 20060612-06176.html

作者: cdef235689 时间: 2006-6-29 13:07
支持Intel Conroe。
有竞争才有发展
希望AMD再接再厉　！＃

作者: wj22 时间: 2006-6-29 15:06

原帖由 Edison 于 2006-6-29 12:31 发表

我从7.x的就开始不断收集intel compiler，9.1的最大改进就是Core2的支持，第一个公开的bulid旧有QxT，之前我在讨论区就发表过这个信息了。

9.1的-fast优化选项集的-qx是-QxP，-QxT不是默认选项，用户可以自 ...

确实奇怪了，v9.1这些测试, 居然都不用-QxT？
也许测试的人也没有注意吧？或者反而变慢了？不过变慢应该是没道理。

作者: jiancheng137 时间: 2006-6-29 15:12
你是QxT用20060323吗? Version 9.1 Build 20060323

作者: aazxbb 时间: 2006-6-29 15:15
ICC也有比MSC慢不少的时候。

作者: xutao602604 时间: 2006-6-29 15:16

原帖由 RacingPHT 于 2006-6-29 15:15 发表
ICC也有比MSC慢不少的时候。

正确使用,一般不会吧？

作者: 52aa 时间: 2006-6-29 15:20

原帖由 RacingPHT 于 2006-6-29 11:21 发表
Xeon processor 5160 貌似还没"FXxx"贵。

FXxx的价钱确实很Fxxx.

我系穷人只能用 AMD 的OP 2XX 系列

作者: qqshuma 时间: 2006-6-29 15:20
感情鹰跳儿的犯死都是大米

作者: svwlxmir 时间: 2006-6-29 15:22

原帖由 hopetoknow2 于 2006-6-29 15:16 发表

正确使用,一般不会吧？

最慢的是以前测过一个程序，CPU是P4 3.0C，ICC9.0比MSC慢2x%。当然那个程序优化得比较烂(主要是跳转)，只能说ICC对质量不高的代码的适应力不一定如MSC强。

Quake3差别不是特别大。印象中ICC稍快一点。

作者: woshigxr 时间: 2006-6-29 15:27

原帖由 RacingPHT 于 2006-6-29 15:22 发表

最慢的是以前测过一个程序，CPU是P4 3.0C，ICC9.0比MSC慢2x%。当然那个程序优化得比较烂(主要是跳转)，只能说ICC对质量不高的代码的适应力不一定如MSC强。

Quake3差别不是特别大。印象中ICC稍快一点。

上编译参数

作者: gyyb67 时间: 2006-6-29 15:30

原帖由 hopetoknow2 于 2006-6-29 15:27 发表

上编译参数

重做了系统，现在机器没有ICC了，没办法马上给你。
ICC编译参数是在ICC9.0 for VC 7.1 IDE环境下设置的。

作者: xiaoyf21 时间: 2006-6-29 15:36

原帖由 RacingPHT 于 2006-6-29 15:30 发表

重做了系统，现在机器没有ICC了，没办法马上给你。
ICC编译参数是在ICC9.0 for VC 7.1 IDE环境下设置的。

建议考虑一下用用FDO方式

作者: ywl254 时间: 2006-6-29 15:42
不会是拿了ICC的debug和MSC的release来比较吧。

作者: buzailiu 时间: 2006-6-29 15:46

原帖由 Edison 于 2006-6-29 12:59 发表
Montecito的整数性能也不赖，同频性能比较接近Conroe了（输16%）：

CPU: Itanium 2 Processor 9050 1600 MHz FSB 533MHz

SPECint2000 = 1474
SPECint_base2000 = 1474
http://www.spec.org/ ...

整数就都不和Core2比了

SPECint_base2000中Power5+到了2.2G也就1705, 居然输给才1.6G的core2了。
http://www.spec.org/osg/cpu2000/ ... 20060213-05583.html
Power5+可是有36MB的L3, 2MB的L2，还集成了内存控制器MC啊。

core2具有极惊人的整数效率，主频又高，不管谁和它比整数，都是等于自杀

作者: 12456 时间: 2006-6-29 15:48

原帖由 hopetoknow2 于 2006-6-29 15:36 发表

建议考虑一下用用FDO方式

确实当时只是一个简单编译测试，没有尝试FDO这样的优化，对ICC的观点当然很不全面

顺便说的我自己也遇到过ICC比MSC快几十倍的情况，不过应该是P4的特殊情况。

但是编译器开启一些高级优化选项反而速度下降是很常见的..

作者: a11001100 时间: 2006-6-29 15:50

原帖由 Edison 于 2006-6-29 15:42 发表
不会是拿了ICC的debug和MSC的release来比较吧。

您太会开玩笑了

再说debug比release只慢20%几乎是不可能的。

作者: nihao123 时间: 2006-6-29 15:55

原帖由 RacingPHT 于 2006-6-29 15:48 发表

确实当时只是一个简单编译测试，没有尝试FDO这样的优化，对ICC的观点当然很不全面
顺便说的我自己也遇到过ICC比MSC快几十倍的情况，不过应该是P4的特殊情况。

但是编译器开启一些高级优化选项反而速度 ...

如果你觉得有点烦，最简单，不考虑太多，P4C可以先用用最简单的方式-QxN -Qipo -O3，加上FDO或者不加FDO，来试一试。

作者: wzcxdn 时间: 2006-6-29 16:35

原帖由 hopetoknow2 于 2006-6-29 15:55 发表

如果你觉得有点烦，最简单，不考虑太多，P4C可以先用用最简单的方式-QxN -Qipo -O3，加上FDO或者不加FDO，来试一试。

好吧, 装上ICC9.0简单测试一下．测试机器是2500+
MSC:　221.1 secs
ICC: 221.3 secs
ICC + /QxK /Qipo /O3 : 237.8 secs

作者: pengjia2010 时间: 2006-6-29 17:13

原帖由 ArkShElL 于 2006-6-29 11:04 发表
堪称x86的奇迹啊

是Conroe的奇迹，也是X86的奇迹

作者: tzr000 时间: 2006-6-29 17:20
RacingPHT，能发来让我跑跑吗？^^

作者: TENGYUNMA 时间: 2006-6-29 17:42

原帖由 Edison 于 2006-6-29 17:20 发表
RacingPHT，能发来让我跑跑吗？^^

代码还是二进制文件呢？
PM mail吧，我也想知道NB的处理器有多快。

作者: 83884258 时间: 2006-6-29 19:56
P4 3.2E HT disabled

qxp: Time = 124.0

qxk: Time = 127.4

作者: hopemen8 时间: 2006-6-29 19:59
MSC的结果如何? 以前我记得P4是MSC比较快.

作者: lulutuv 时间: 2006-6-29 20:30

原帖由 hopetoknow2 于 2006-6-29 11:00 AM 发表
上次我说在EM64T下， Core的浮点性能还有很大空间，预计浮点性能Specfp2000达到2900以上没有问题。
Core不仅实现了单周期吞吐的128位SIMD浮点指令，同时实现了目前x86处理器最高的浮点吞吐能力和最高的浮点执行效 ...

其实在很多方面X86要比RISC好的多

我当然不是指某些用不到的测试工具

作者: hybsxl 时间: 2006-6-29 22:23

原帖由 complexmind 于 2006-6-29 20:30 发表

其实在很多方面X86要比RISC好的多
我当然不是指某些用不到的测试工具

兼容性x86好一些。而x86中的Core能强到如此地步，还是极有成就的。

你说这些话是建立在什么基础上的，你发现什么即可以在x86上执行又可以在RISC上执行的测试工具？而且是更有用和公平的测试手段？

作者: yuanjt 时间: 2006-6-29 22:30

原帖由 RacingPHT 于 2006-6-29 15:22 发表

最慢的是以前测过一个程序当然那个程序优化得比较烂(主要是跳转)

既然主要是跳转，分支很多的程序，应该是对P4很不利的测试
为什么P4E还很强？ K8 2500+ 1.4G耗时221.1秒
而P4E 3200M才124秒？看样子K8 3200＋都跑不过P4E了。
在对K8有利而P4最不利的测试中，K8连同PR的都拿不下？

作者: roaman 时间: 2006-6-29 23:03
MSC: Time = 126.6s 。

作者: ttlew 时间: 2006-6-29 23:05
K8的分支预测器的确很烂，连PIII都不如，使用分支偏重的测试出现1/2的性能不是什么奇怪的事情。

作者: naixinaini 时间: 2006-6-29 23:34

原帖由 Edison 于 2006-6-29 23:05 发表
K8的分支预测器的确很烂，连PIII都不如，使用分支偏重的测试出现1/2的性能不是什么奇怪的事情。

这句话要顶一下

作者: fanxin133 时间: 2006-6-30 09:50

原帖由 hopetoknow2 于 2006-6-29 22:30 发表

既然主要是跳转，分支很多的程序，应该是对P4很不利的测试
为什么P4E还很强？ K8 2500+ 1.4G耗时221.1秒
而P4E 3200M才124秒？看样子K8 3200＋都跑不过P4E了。
在对K8有利而P4最不利的测试中，K8连同PR的 ...

分支比较多，那个程序是一个视频codec，按照Intel的P4优化建议，Block matching应该使用SSE2暴力算法，避免中途退出这样的取巧。我那个程序并没有刻意这样优化。

另外codec的特点是小整数运算比较多, ICC可以做Auto vectorization，这样P4跑得比较快应该也没有问题。P4几乎能和同频K7跑得一样快。

作者: fabb2000 时间: 2006-6-30 09:54

原帖由 RacingPHT 于 2006-6-30 09:50 发表

分支比较多，那个程序是一个视频codec，按照Intel的P4优化建议，Block matching应该使用SSE2暴力算法，避免中途退出这样的取巧。我那个程序并没有刻意这样优化。

另外codec的特点是小整数运算比较多, ICC ...

什么叫做SSE2暴力算法?

作者: formag 时间: 2006-6-30 10:07

原帖由 hopetoknow2 于 2006-6-30 09:54 发表

什么叫做SSE2暴力算法?

www.intel.com/cd/ids/developer/asmo-na/eng/66773.htm
参看2.2.1:

As processing speeds increase, branch misprediction recovery times have typically become relatively longer. As a result, the value of 'early return' has been steadily declining and on future processors may prove to be a significant detriment to motion estimation performance.

作者: lansi888 时间: 2006-6-30 10:54
Some algorithms use an “early return” threshold.
没啥暴力的啊？不就是，最好使用非跳转的指令，而少用分支来解决问题吗？对所有A或I都一样很有用啊。

这就叫做聪明反被聪明误，一些采用“early return”的算法依靠分支，主观直觉上快，实际慢。机器执行和人脑思维是两回事。有时需要多考虑一点, 不用“early return”这种看似加速实际减速的技巧.

作者: xyjsymxl 时间: 2006-6-30 11:21

原帖由 hopetoknow2 于 2006-6-30 10:54 发表
Some algorithms use an “early return” threshold.
没啥暴力的啊？不就是，最好使用非跳转的指令，而少用分支来解决问题吗？对所有A或I都一样很有用啊。

这就叫做聪明反被聪明误，一些采用“early ret ...

?
比如查找一个电话号码, 明明已经找到了, 却要坚持把号码本翻完吗?
明知道不需要计算的东西, 却还要坚持计算完, 不有些暴力的感觉么.

事实上, 在P4之前, 这一直是一个优化手段, 往往可以提高100%的速度.

作者: wvw 时间: 2006-6-30 11:51

原帖由 RacingPHT 于 2006-6-30 11:21 发表

?
比如查找一个电话号码, 明明已经找到了, 却要坚持把号码本翻完吗?
明知道不需要计算的东西, 却还要坚持计算完, 不有些暴力的感觉么.

事实上, 在P4之前, 这一直是一个优化手段, 往往可以提高100%的速度.

电脑又不是人。你知道，但是电脑不知道。再说电话号码本的比方不合适吧？你见过哪个电话号码本只有几个号码吗？既然有多个眼睛同时扫一下几个号码，也没什么。

事实上并不知道是不是多计算了，而是在计算中，加入了分支，判断一下，是不是还要算。直观而言是一种加速技巧，但是这是有代价的，因为分支本身也是一种计算。这就需要权衡了。任何使用技巧在处理器上应用，还是需要全面考虑一下。

作者: qwertyuiop1972 时间: 2006-6-30 11:56
这是P3就... (对I和A都通用的，一种原则, 谁说是专门为P4呢?)
The second step in speedup of the ME algorithm came with the introduction of the Pentium® III
processor with SSE and specifically with the psadbw instruction. This instruction compares eight bytes
from each of the two blocks at once, returning a single SAD value. Not only does a single instruction
replace the eight subtractions and accumulations, but it also handles the absolute value determination
without the use of branches. This produces a speedup of about 1.7X over an MMX™ technology
implementation on the Pentium III processor.

作者: radisher 时间: 2006-6-30 12:12

原帖由 hopetoknow2 于 2006-6-30 11:56 发表
这是P3就... (对I和A都通用的，一种原则, 谁说是专门为P4呢?)
The second step in speedup of the ME algorithm came with the introduction of the Pentium® III
processor with SSE and specifically w ...

他的意思是省略了一个abs(int)函数, 而这个函数在x86需要一个branch. 和我说的那个early out不是一回事.

作者: soccerliving 时间: 2006-7-1 22:54

原帖由 hopetoknow2 于 2006-6-29 10:23 PM 发表

兼容性x86好一些。而x86中的Core能强到如此地步，还是极有成就的。

你说这些话是建立在什么基础上的，你发现什么即可以在x86上执行又可以在RISC上执行的测试工具？而且是更有用和公平的测试手段？

大虾该知道用Power5压MP3要30多分钟来干Core1五分钟就干完的活吧。。就在《PC个人电脑》
近几期上啊。~。

再来转个贴：
我转一个CG硬件的测试成绩给你观赏G5的“老牛破车”牌浮点速度。

小弟对苹果与都能用的一些制作软件，做了一些比较，现与大家分享，
１。PC DELL 650 双xeon 3.0 1M 1ＧＲＡＭ
APPLE G5 双G5 1.8
以下软件都有同一角本，在不同系统测试生成

CB
PC ５０
MAC 56
AE
PC 32
MAC 48

MAYA6
PC 1'02
mac 1'56

2，pc dell 670 双xeon 3.6 4G RAM
apple g5 双2.5 2.5G RAM

maya 5
pc 1'05
mac 4'12
如果是G5的白皮书，基本是作了手脚的，可以无视吧

小弟总觉得IBM就是吹得啊，要不Intel关门算了

作者: fdsafdsag 时间: 2006-7-1 22:56
Avid to Preview 64-bit SOFTIMAGE|XSI Software at Microsoft Conference

WinHEC 2005 - Seattle, WA – April 25, 2005 – Avid Technology, Inc. (NASDAQ: AVID)today announced that it will be demonstrating a technology preview of a native 64-bit version of SOFTIMAGE®|XSI® 3-D animation software during WinHEC – Microsoft’s annual Windows Hardware Engineering Conference – from April 25-27. The technology preview will provide attendees with a first-hand look at a prototype of SOFTIMAGE|XSI software that is designed to take advantage of 64-bit computing architectures in order to streamline time-consuming 3D animation tasks such as modeling, texturing, and rendering. The 64-bit architecture of SOFTIMAGE|XSI software will leverage the increased performance capabilities found in a range of technologies, including Microsoft Windows XP Professional x64 Edition, Dell Precision™ Workstations with 64-bit Intel® Xeon™ processors supporting up to 16GB of memory, and the new Dell Precision 380 with the Intel® Pentium® Processor Extreme Edition - Intel’s first dual-core processor-based platform which also features Intel® EM64T, supporting up to 8GB of high speed memory.

估计每卖出５０台workstation，４９台是intel的。

作者: fanye888 时间: 2006-7-2 11:03
回复 #59 RacingPHT 的帖子
哪里需要Branch了？
abs(eax)
mov ebx,eax
neg ebx
cmp eax,0
cmovl eax,ebx
不就可以拉

作者: wfl123 时间: 2006-7-2 12:30

原帖由 RacingPHT 于 2006-6-30 11:21 发表

?
比如查找一个电话号码, 明明已经找到了, 却要坚持把号码本翻完吗?
明知道不需要计算的东西, 却还要坚持计算完, 不有些暴力的感觉么.

事实上, 在P4之前, 这一直是一个优化手段, 往往可以提高100%的速度.

本来就只有16条指令就能完成的小loop，16个cycle，每个Cycle之后都要判断一下是不是已经过了阈值然后决定是不是break，还真不如算完算了。

作者: daives 时间: 2006-7-2 12:35

原帖由 Tanknet 于 2006-7-2 11:03 发表
哪里需要Branch了？
abs(eax)
mov ebx,eax
neg ebx
cmp eax,0
cmovl eax,ebx
不就可以拉

这其实还是挑砖。

作者: gxhz 时间: 2006-7-3 09:35

原帖由 Prescott 于 2006-7-2 12:30 发表

本来就只有16条指令就能完成的小loop，16个cycle，每个Cycle之后都要判断一下是不是已经过了阈值然后决定是不是break，还真不如算完算了。

只要16 cycle? 不可能吧.
SSE2 PSADBW本身就不是单周期的.

作者: wonderpeng 时间: 2006-7-8 13:36

原帖由 Edison 于 2006-6-29 11:05 PM 发表
K8的分支预测器的确很烂，连PIII都不如，使用分支偏重的测试出现1/2的性能不是什么奇怪的事情。

那为什么K8的游戏性能要比P3高？？
大虾不是说，在游戏性能上，分支比暴力计算要更有作用？？？？

作者: worddram2006 时间: 2006-7-9 18:42
还没有上市就和POWER5比，搞笑

作者: liziqi157 时间: 2006-7-9 19:25

原帖由 ambition38 于 2006-7-9 18:42 发表
还没有上市就和POWER5比，搞笑

谁说没上市？搞笑的是你。
这是什么？
http://configure.us.dell.com/del ... e1950-med&s=bsd

作者: gaoxinwei 时间: 2006-10-27 09:49
INTEL立功啦！

作者: zhangtb 时间: 2006-10-27 10:49
这话不要被IBM蓝大哥听到...... 不然稍稍放出一点点来自半人马座的科技.......

作者: YGDN 时间: 2006-12-7 00:45

原帖由 mxyou 于 2006-6-29 12:41 发表

这年头居然还有人信pcpop里的文章~~

=========================================

P.S.

http://www.hardware.fr/articles/ ... -2-duo-dossier.html

假设现在有I和A两个加热箱——
条件i：
i-1.I每次可以容纳两个容器，A每次可以容纳一个容器；
i-2.容器的容量都是2升的；
i-3.每次加热任务都是2升的整数倍。
结论i:
当加热任务超过了2升，I的执行效率会比A高。
条件x
x-1.I和A每次能容纳的容器个数不变
x-2.容器的容量不变
x-3.每次加热任务变成了3升的整数倍
结论x：
如果加热一个3升的任务，两个加热箱都需要2次加热才能完成一次任务

假设：
开发出1.5升的容器，结果会如何？

作者: sgminsy 时间: 2006-12-7 08:38

原帖由 Edison 于 2006-6-29 23:05 发表
K8的分支预测器的确很烂，连PIII都不如，使用分支偏重的测试出现1/2的性能不是什么奇怪的事情。

请问扣肉的分支预测器要比k8的先进在什么地方呢？

从这个帖子里面是不是可以得出这样一个结论，intel得itanium已经被自己的小弟残杀了呢？/

作者: wsdd2 时间: 2006-12-7 10:46

原帖由 Loongson 于 2006-12-7 08:38 发表

请问扣肉的分支预测器要比k8的先进在什么地方呢？

从这个帖子里面是不是可以得出这样一个结论，intel得itanium已经被自己的小弟残杀了呢？/

Intel酷睿系的分支预测器，是从Netburst的分支预测器，逐步衍生和扩展而来。是目前世界上x86处理器中最为先进的分支预测器。

酷睿整数性能不是杀IA64，而是杀遍全世界无敌手。

至于浮点性能，参照最新cpu2006，浮点现在就算酷睿到3GHz都还是赶不上IA64的1.6GHz。杀IA64还不够资格

作者: rainlysky 时间: 2006-12-7 11:00
提示: 作者被禁止或删除内容自动屏蔽

作者: meteorhzg 时间: 2006-12-7 11:03

原帖由 hopetoknow2 于 2006-12-7 10:46 发表

Intel酷睿系的分支预测器，是从Netburst的分支预测器，逐步衍生和扩展而来。是目前世界上x86处理器中最为先进的分支预测器。

酷睿整数性能不是杀IA64，而是杀遍全世界无敌手。

至于浮点性能，参照最 ...

扣肉的整数性能为什么这样强？

作者: bobo568 时间: 2006-12-7 11:11

原帖由 Tanknet 于 2006-7-2 11:03 发表
哪里需要Branch了？
abs(eax)
mov ebx,eax
neg ebx
cmp eax,0
cmovl eax,ebx
不就可以拉

PPC的fsel, GPU的cmp, 都是无跳转的选择指令.

作者: zsluochk 时间: 2006-12-7 11:17
不管什么快，只记住一句话，没有竞争就没有发展，没有各个品牌的竞争，估计现在U的技术也不会发展这么快的~！~同时还是喜欢A 和I 还有其他的品牌都能不断的更新，不断的开创新纪元~！~

作者: leonord 时间: 2006-12-7 12:30

原帖由 Rivan500 于 2006-12-7 11:17 发表
不管什么快，只记住一句话，没有竞争就没有发展，没有各个品牌的竞争，估计现在U的技术也不会发展这么快的~！~同时还是喜欢A 和I 还有其他的品牌都能不断的更新，不断的开创新纪元~！~

你记错了。

RAM厂商更多，竞争更激烈。攻守同盟控制价格也做的更好。
结果你得到实惠了么？

竞争只是厂商在赚取利润过程中表现出的一种形式。而不是根本目的。
根本目的只有一个，就是要客户购买。
为了达到客户购买的目的，有很多种手段。

作者: iang91 时间: 2006-12-7 12:44

原帖由 Loongson 于 2006-12-7 11:03 发表

扣肉的整数性能为什么这样强？

酷睿2 具有最强的整数效率，而IA64具有最强的浮点执行效率，是有点神秘哦。只有好好学习，力争天天能更接近真像一点
整数、浮点超级执行效能都是Intel的独门秘技， IBM都未必能掌握的了，要不然怎么会没办法，只好去死拉Power6上高频呢?

看Power5+的浮点效能specfp2000也不过是1.6point/MHz。 IA64是接近1.9point/MHz了，世界上还没找出第2款处理器达到此等效率。IBM差远了。

谈跟一个效率，Power5更只配提鞋。同样是3、4千颗

Power5效率才60%
http://www.top500.org/system/8359

而IA64是90%多

作者: zhou983 时间: 2006-12-7 12:49

原帖由 potomac 于 2006-12-7 12:30 发表

你记错了。

RAM厂商更多，竞争更激烈。攻守同盟控制价格也做的更好。
结果你得到实惠了么？

竞争只是厂商在赚取利润过程中表现出的一种形式。而不是根本目的。
根本目的只有一个，就是要 ...

这我可要说两句了。

U和内存颗粒期货市场有着本质的区别。你的理解很肤浅。

作者: zang2007 时间: 2006-12-7 12:58
疯狂啊............和丫的拼十进制运算，看谁狠～

感觉是Intel痛苦的挡住了台面上两个小鬼AMD和N，冲到幕后BOSS面前单挑～

作者: amogul 时间: 2006-12-7 13:03
8cores（4p）的Power5@1.9GHz峰值是60.8GLOPS，实际测试HPL是56.78GFLOPS，效率是93.X%，比8cores（4p）的Montecito@1.6GHz的87.2%高出大约5.8%。

1 core的时候，Power5+@2.2GHz的峰值是8.8GFLOPS，实际测试HPL是8.33GFLOPS，效率是94.659%。

作者: renshen75 时间: 2006-12-7 14:24

原帖由 hopetoknow2 于 2006-12-7 12:44 发表

酷睿2 具有最强的整数效率，而IA64具有最强的浮点执行效率，是有点神秘哦。只有好好学习，力争天天能更接近真像一点
整数、浮点超级执行效能都是Intel的独门秘技， IBM都未必能掌握的了，要不然怎么会没 ...

不要做梦了,POWER5+的浮点比Montecito要强太多

整数?Montecito的数字很好看么,照样被POWER5+踩

POWER6马上出来了,他的对手在哪里?Tukwila?先不说性能怎么样,但愿不要碰上POWER6+才好

作者: 226226226 时间: 2006-12-7 14:36
core是划时代的

作者: lenabay 时间: 2006-12-7 14:38

原帖由 ghrs2010 于 2006-12-7 14:24 发表

不要做梦了,POWER5+的浮点比Montecito要强太多

整数?Montecito的数字很好看么,照样被POWER5+踩

POWER6马上出来了,他的对手在哪里?Tukwila?先不说性能怎么样,但愿不要碰上POWER6+才好

你以为VLIW已经定型了？

Tukwila的变化恐怕和NetBurst有的一拼。

POWER 6要2007年，POWER 6+要2008。
到时候你再来看。

作者: zodiac49 时间: 2006-12-7 14:45
POWER5+ 2.2G
SPECfp2000=3513
http://www.spec.org/cpu/results/ ... 20060213-05581.html
SPECint2000=1765
http://www.spec.org/osg/cpu2000/ ... 20060213-05583.html

作者: lilyww 时间: 2006-12-7 14:46
哪位好银能告诉俺，测浮点性能用啥软件？给个链接？最好能PM一下。多谢多谢。

作者: SSVNNY 时间: 2006-12-7 14:48

原帖由 potomac 于 2006-12-7 14:38 发表

你以为VLIW已经定型了？

Tukwila的变化恐怕和NetBurst有的一拼。

POWER 6要2007年，POWER 6+要2008。
到时候你再来看。

那你以为POWER6是什么

作者: lb1001 时间: 2006-12-7 14:56

原帖由 ghrs2010 于 2006-12-7 14:48 发表

那你以为POWER6是什么

2008年，看巅峰对决。

但愿POWER 6+能够跑到5G+

作者: sqwangjun 时间: 2006-12-7 14:58

原帖由 potomac 于 2006-12-7 14:56 发表

2008年，看巅峰对决。

单元POWER 6+能够跑到5G+

5G+?除非IBM是弱智

巅峰对决阿,恐怕成色会有些不足

作者: genggeng 时间: 2006-12-7 14:58
似乎对游戏比较有用

作者: 32634 时间: 2006-12-7 15:03

原帖由 ghrs2010 于 2006-12-7 14:58 发表

5G+?除非IBM是弱智
巅峰对决阿,恐怕成色会有些不足

工艺第一的，曾经是TI，曾经是IBM。
不过现在是intel。

2008年POWER 6+真能跑个5G的频率。
就算不错了。
不过好像听说XXX家准备的是全套液冷。

作者: cxw006 时间: 2006-12-7 15:09

作者: feng99 时间: 2006-12-7 15:17

原帖由 potomac 于 2006-12-7 15:03 发表

工艺第一的，曾经是TI，曾经是IBM。
不过现在是intel。

2008年POWER 6+真能跑个5G的频率。
就算不错了。
不过好像听说XXX家准备的是全套液冷。

最好不要随便评价IBM的工艺,5G的频率对于POWER6来说都没有任何难度

并且POWER5@5G的TDP也不过160W上下,很惊人吗?

不过现在是INTEL?我倒想看看INTEL什么时候可以拿出实用化的第三代SOI+区域相变+伪二元共晶体+银互联+堆栈晶体管+Ultra Low-K的解决方案,POWER6已经近在咫尺了

作者: aijia505 时间: 2006-12-7 15:20
我现在想下个定论，Power6绝对上不了5G。不知道到时候有没有人来挖坟。

作者: bs306 时间: 2006-12-7 15:20
该上扣肉了～～～

作者: wangwuquan 时间: 2006-12-7 15:21

原帖由 ghrs2010 于 2006-12-7 15:17 发表

最好不要随便评价IBM的工艺,5G的频率对于POWER6来说都没有任何难度

并且POWER5@5G的TDP也不过160W上下,很惊人吗?

不过现在是INTEL?我倒想看看INTEL什么时候可以拿出实用化的第三代SOI+区域相变+伪二元 ...

不是很惊人，那是相..当..的惊人。

作者: cdzhui 时间: 2006-12-7 15:25

原帖由 ghrs2010 于 2006-12-7 14:45 发表
POWER5+ 2.2G
SPECfp2000=3513
http://www.spec.org/cpu/results/ ... 20060213-05581.html
SPECint2000=1765
http://www.spec.org/osg/cpu2000/ ... 20060213-05583.html

干吗不贴Power5的Spec 2006的成绩？莫非IBM的软件团队还没做好“优化”？

作者: szgame1234 时间: 2006-12-7 15:27

原帖由 ghrs2010 于 2006-12-7 15:17 发表

最好不要随便评价IBM的工艺,5G的频率对于POWER6来说都没有任何难度

并且POWER5@5G的TDP也不过160W上下,很惊人吗?

不过现在是INTEL?我倒想看看INTEL什么时候可以拿出实用化的第三代SOI+区域相变+伪二元 ...

65nm的NetBurst风冷上5G。（至少是接近5G）已经是不争的事实。

POWER 5+就不多说了，和构架有关。
但是IBM的最高频的CELL能跑多少呢？这个可是按照3.2G设计的哦。

功耗，俺们也不谈。
偶支持高级货高功耗。

至于工艺，intel一向是以成本为先。不是不采用，而是太抠门。

作者: alongshaoye 时间: 2006-12-7 15:34

原帖由 potomac 于 2006-12-7 15:27 发表

65nm的NetBurst风冷上5G。（至少是接近5G）已经是不争的事实。

POWER 5+就不多说了，和构架有关。
但是IBM的最高频的CELL能跑多少呢？这个可是按照3.2G设计的哦。

功耗，俺们也不谈。
偶支持高级货高 ...

1,POWER5+是90nm,并且它的比照对象是Montecito 2.3G VS 1.6G

2,CELL可以上4G,只不过当前没有相应的市场需求(Netburst也一样,出到3.8G就停了),如果拿预设频率说事的话,Netburst也强不到哪里去,并且还是65nm VS 90nm

欢迎光临热点科技 (http://www.itheat.com/activity/)