用户
 找回密码
 立即注册
搜索

应验:Core再创疯狂奇迹,浮点性能Specfp2000暴3000点大关,诛灭Power5

[复制链接]
发表于 2006-6-29 23:34:00
原帖由 Edison 于 2006-6-29 23:05 发表
K8的分支预测器的确很烂,连PIII都不如,使用分支偏重的测试出现1/2的性能不是什么奇怪的事情。
这句话要顶一下
使用道具 举报 回复 支持 反对
发表于 2006-6-30 09:50:00
原帖由 hopetoknow2 于 2006-6-29 22:30 发表

既然主要是跳转, 分支很多的程序,应该是对P4很不利的测试
为什么P4E还很强? K8 2500+ 1.4G耗时221.1秒
而P4E 3200M才124秒? 看样子K8 3200+都跑不过P4E了。
在对K8有利而P4最不利的测试中,K8连同PR的 ...
分支比较多,那个程序是一个视频codec,按照Intel的P4优化建议,Block matching应该使用SSE2暴力算法, 避免中途退出这样的取巧。我那个程序并没有刻意这样优化。

另外codec的特点是小整数运算比较多, ICC可以做Auto vectorization, 这样P4跑得比较快应该也没有问题。P4几乎能和同频K7跑得一样快。
使用道具 举报 回复 支持 反对
发表于 2006-6-30 09:54:00
原帖由 RacingPHT 于 2006-6-30 09:50 发表


分支比较多,那个程序是一个视频codec,按照Intel的P4优化建议,Block matching应该使用SSE2暴力算法, 避免中途退出这样的取巧。我那个程序并没有刻意这样优化。

另外codec的特点是小整数运算比较多, ICC ...
什么叫做SSE2暴力算法?
使用道具 举报 回复 支持 反对
发表于 2006-6-30 10:07:00
原帖由 hopetoknow2 于 2006-6-30 09:54 发表

什么叫做SSE2暴力算法?
www.intel.com/cd/ids/developer/asmo-na/eng/66773.htm
参看2.2.1:

As processing speeds increase, branch misprediction recovery times have typically become relatively longer. As a result, the value of 'early return' has been steadily declining and on future processors may prove to be a significant detriment to motion estimation performance.
使用道具 举报 回复 支持 反对
发表于 2006-6-30 10:54:00
Some algorithms use an “early return” threshold.
没啥暴力的啊? 不就是, 最好使用非跳转的指令,而少用分支来解决问题吗? 对所有A或I都一样很有用啊。

这就叫做聪明反被聪明误, 一些采用“early return”的算法依靠分支,主观直觉上快, 实际慢。 机器执行和人脑思维是两回事。 有时需要多考虑一点, 不用“early return”这种看似加速实际减速的技巧.
使用道具 举报 回复 支持 反对
发表于 2006-6-30 11:21:00
原帖由 hopetoknow2 于 2006-6-30 10:54 发表
Some algorithms use an “early return” threshold.
没啥暴力的啊? 不就是, 最好使用非跳转的指令,而少用分支来解决问题吗? 对所有A或I都一样很有用啊。

这就叫做聪明反被聪明误, 一些采用“early ret ...
?
比如查找一个电话号码, 明明已经找到了, 却要坚持把号码本翻完吗?
明知道不需要计算的东西, 却还要坚持计算完, 不有些暴力的感觉么.

事实上, 在P4之前, 这一直是一个优化手段, 往往可以提高100%的速度.
使用道具 举报 回复 支持 反对
发表于 2006-6-30 11:51:00
原帖由 RacingPHT 于 2006-6-30 11:21 发表


?
比如查找一个电话号码, 明明已经找到了, 却要坚持把号码本翻完吗?
明知道不需要计算的东西, 却还要坚持计算完, 不有些暴力的感觉么.

事实上, 在P4之前, 这一直是一个优化手段, 往往可以提高100%的速度.
电脑又不是人。你知道,但是电脑不知道。 再说电话号码本的比方不合适吧? 你见过哪个电话号码本只有几个号码吗? 既然有多个眼睛同时扫一下几个号码,也没什么。

事实上并不知道是不是多计算了, 而是在计算中,加入了分支,判断一下,是不是还要算。 直观而言是一种加速技巧, 但是这是有代价的,因为分支本身也是一种计算。 这就需要权衡了。任何使用技巧在处理器上应用,还是需要全面考虑一下。
使用道具 举报 回复 支持 反对
发表于 2006-6-30 11:56:00
这是P3就...  (对I和A都通用的,一种原则, 谁说是专门为P4呢?)
The second step in speedup of the ME algorithm came with the introduction of the Pentium® III
processor with SSE and specifically with the psadbw instruction. This instruction compares eight bytes
from each of the two blocks at once, returning a single SAD value. Not only does a single instruction
replace the eight subtractions and accumulations, but it also handles the absolute value determination
without the use of branches. This produces a speedup of about 1.7X over an MMX™ technology
implementation on the Pentium III processor.
使用道具 举报 回复 支持 反对
发表于 2006-6-30 12:12:00
原帖由 hopetoknow2 于 2006-6-30 11:56 发表
这是P3就...  (对I和A都通用的,一种原则, 谁说是专门为P4呢?)
The second step in speedup of the ME algorithm came with the introduction of the Pentium® III
processor with SSE and specifically w ...
他的意思是省略了一个abs(int)函数, 而这个函数在x86需要一个branch. 和我说的那个early out不是一回事.
使用道具 举报 回复 支持 反对
发表于 2006-7-1 22:54:00
原帖由 hopetoknow2 于 2006-6-29 10:23 PM 发表


兼容性x86好一些。 而x86中的Core能强到如此地步, 还是极有成就的。

你说这些话是建立在什么基础上的, 你发现什么即可以在x86上执行又可以在RISC上执行的测试工具? 而且是更有用和公平的测试手段?
大虾该知道用Power5压MP3要30多分钟来干Core1五分钟就干完的活吧。。就在《PC个人电脑》
近几期上啊。~。
再来转个贴:
我转一个CG硬件的测试成绩给你观赏G5的“老牛破车”牌浮点速度。

小弟对苹果与都能用的一些制作软件,做了一些比较,现与大家分享,
1。PC DELL 650 双xeon 3.0 1M 1G RAM
APPLE G5 双G5 1.8
以下软件都有同一角本,在不同系统测试生成

CB
PC 50
MAC 56
AE
PC 32
MAC 48

MAYA6
PC 1'02
mac 1'56

2,pc dell 670 双xeon 3.6 4G RAM
apple g5 双2.5 2.5G RAM

maya 5
pc 1'05
mac 4'12
如果是G5的白皮书,基本是作了手脚的,可以无视吧  
小弟总觉得IBM就是吹得啊,要不Intel关门算了
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则