用户
 找回密码
 立即注册
搜索

好像Cell没有IBM叫嚣的那么夸张

[复制链接]
发表于 2006-5-22 15:21:00
Conroe XE   3.33GHz dual 4MB FSB1333MHz TDP 95W '06 Q4  $1199 (Athlon64 X2 4.16GHz相当)
Conroe E6900 3.20GHz dual 4MB FSB1066MHz  TDP 65W '06 Q4  $969 (Athlon64 X2 4.00GHz相当)
Conroe E6800 2.93GHz dual 4MB FSB1066MHz  TDP 65W '06 Q4  $749 (Athlon64 X2 3.66GHz相当)
Conroe E6700 2.67GHz dual 4MB FSB1066MHz  TDP 65W '06 Q3  $529  (Athlon64 X2 3.34GHz相当)
Conroe E6600 2.40GHz dual 4MB FSB1066MHz  TDP 65W '06 Q3  $309  (Athlon64 X2 3.00GHz相当)
Conroe E6500 2.40GHz dual 2MB FSB1066MHz  TDP 65W '06 Q4  $269  (Athlon64 X2 2.88GHz相当)
Conroe E6400 2.13GHz dual 2MB FSB1066MHz  TDP 65W '06 Q3  $239  (Athlon64 X2 2.56GHz相当)
Conroe E6300 1.86GHz dual 2MB FSB1066MHz  TDP 65W '06 Q3  $210  (Athlon64 X2 2.23GHz相当)
Conroe E6200 1.60GHz dual 2MB FSB1066MHz  TDP 65W '06 Q4  $179  (Athlon64 X2 1.92GHz相当)
Conroe E6100 1.33GHz dual 2MB FSB1066MHz  TDP 35W '07 Q1  $149  (Athlon64 X2 1.60GHz相当)


转贴
使用道具 举报 回复 支持 反对
发表于 2006-5-22 16:54:00
原帖由 Edison 于 2006-5-22 15:06 发表
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和 DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full precision,因此你说的Linpack一开始就是把双精度作为默认的精度是不准确的,在现实中只选择双精度性能只是TOP500的要求,而对于针对游戏机平台的Cell来说,只考虑双精度的性能是违背设计初衷的。

Linpack的FAQ:
“What numerical precision is required to run and benchmark and gain an entry in the Linpack Benchmark report?
In order to have an entry included in the Linpack Benchmark report the results must be computed using full precision. By full precision we generally mean 64 bit floating point arithmetic or higher. Note that this is not an issue of single or double precision as some systems have 64-bit floating point arithmetic as single precision. It is a function of the arithmetic used.”
FAQ说得很明显啊,想要提交Linpack,通常需要64bit或者是80bit的成绩啊。你非要提交一个32bit的成绩又有什么意义?DP本就不是Cell的设计目标,拿用于衡量HPC性能的Linpack来衡量Cell本来就不合适。
2、MC的CELL Blade已经推出,而IBM自己的Cell Blad根据之前的新闻稿是打算在9月份左右推出,PS3的全球上市时间是今年11月。

CELL第一版采用的是90nm工艺,3.2GHz 1PPE+8PPE全动作的时候耗电是50瓦。如果采用65nm的话,估计会降低到30瓦以内,这个工艺切换动作应该在07年就会进行。

Conroe 3GHz(E6800 2.93GHz?)耗电我目前没有什么资料,不过从Conreo 3.3GHz TDP是95瓦以及Woodcrest 3GHz TDP是80瓦来看,Conroe 3GHz的TDP是80瓦恐怕是跑不了了,你的65瓦资料是从何获得的呢?

Kentsfield 3GHz?你是如何确定出80watt的?Kentsfield就是Woodcrest MCM,依然是65nm,还能比Woodcrest低?
Cell的blade?这是一个非常非常小的市场,我能想到一个合适的用处就是用在CT/核磁共振之类的地方。
至于Conroe/Woodcrest的数据,我当然不能说哪来的。
3、关于PC和游戏机同期的性能比较,在过去一直都是PC强于同期的游戏机,例如XBOX1是Pentium III 128KB+NV25 UMA 64MB,但是这并不能反映什么,买游戏机的依然大有人在。

SPE的DMA在初始化后是不需要PPE干预的,由MFC自主式进行的。

SPE支持整数操作,7个SPE@3.2GHz的整数性能是22.4BIPS,Conroe@3GHz是18BIPS,CELL有分支HINT指令以及256KB L1 cache来降低分支消耗的性能。

未来的处理器和GPGPU在很多方面都会有重合之处,Intel的发展路线就是如此,你在指责CELL是GPU导向设计的时候,其实也是在责备英特尔的Beyond 2008构想。

CELL和Netburst相比当然有它自己的考量,因为对于游戏开发人员来说,OOO的设计比较难以衡量指令的走向,而in-order+FGMA可以在一定程度上降低这方面的性能损失,以增加运算单元和ISSUE port的设计来增加IPC成本比多线程方式高得多,在做出这些权衡取舍后CELL可以拥有高得多的整数/浮点峰值性能,也是同期内索尼为PS3所能找到的最佳选择。
DMA本身就只需要处理器初始化,问题是每次DMA结束的时候都需要一次中断处理。而SPE和PPE之间的所有数据交互都需要DMA,中断次数之多可想而知。一个千兆以太网络的小包传输产生的中断就可以拖垮一个3GHz的P4处理器,以至于Linux内核在处理大网络流量的时候甚至会从中断模式切换到轮询模式,以提高性能。Cell会怎么样,我只能说不乐观。另外,如果打算用SPE来跑整数,那是不现实的。

Intel的发展思路是什么样的,这个很难说,Intel技术流派很多的,据说当年围绕Netburst的争论,说得严重点,差点要动手打起来。公开说的只是少数。个人认为CPU取代GPU是必然趋势,但是,Intel内部无论是谁都不会设计一个很弱的主核心带动很多个浮点小核心的处理器,必然会在保证一定数量的高性能通用核心的前提下,加入大量简单的附加核心。

至于程序员衡量什么指令走向,只能说你对开发不熟悉。程序员根本没有工夫去管指令的事情。Intel内部专门写IPP的工程师面对着流媒体处理程序都没工夫去一条指令一条指令的微调,更不要说普通程序员面对着逻辑处理的C++程序了。除非编译器不成熟,否则再厉害的程序员都不是编译器的对手,In-order的Itanium优化的一条准则就是:不要手工写汇编。Cell那点hint指令和EPIC指令比起来根本就提鞋都不配。线程级并行提高吞吐性能看起来当然是简单,就如同拉高频率提高单线程性能一样,但现实并不一定如此,Niagara跑最适合大规模线程并行的Web服务器还能接受,但是游戏,嘿嘿,反正高频高理论值的Netburst是有了教训。
其实MS的选择更为实际,主处理器本就不需要那么高的单精度浮点性能的。
使用道具 举报 回复 支持 反对
发表于 2006-5-22 20:16:00
原帖由 Edison 于 2006-5-22 15:06 发表
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full prec ...
Woodcrest 在B0步进后,功耗是65W。
使用道具 举报 回复 支持 反对
发表于 2006-5-22 20:33:00
Kentsfield是Woodcrest MCM,80W TDP确实有点悬。
使用道具 举报 回复 支持 反对
发表于 2006-5-22 21:20:00
神话早已破灭
使用道具 举报 回复 支持 反对
发表于 2006-5-22 21:38:00
原帖由 Prescott 于 2006-5-22 16:54 发表

FAQ说得很明显啊,想要提交Linpack,通常需要64bit或者是80bit的成绩啊。你非要提交一个32bit的成绩又有什么意义?DP本就不是Cell的设计目标,拿用于衡量HPC性能的Linpack来衡量Cell本来就不合适。


Cell的 ...
你用软件处理那是当然,因为p4本身不是设计来处理大批量网络处理的

现在跑大流量网络应用有卸载卡,网卡中断的影响可以忽略不计算
使用道具 举报 回复 支持 反对
发表于 2006-5-22 21:41:00
cell spe之间通信用文件系统,可见数据量不是很大,而且用dma,我估计是一次中断批量处理的
使用道具 举报 回复 支持 反对
发表于 2006-5-22 21:44:00
原帖由 GZboy 于 2006-5-22 20:33 发表
Kentsfield是Woodcrest MCM,80W TDP确实有点悬。
Theinq说低电压版Woodcrest 2.33G TDP是40W:
http://www.theinquirer.net/?article=31131
使用道具 举报 回复 支持 反对
发表于 2006-5-22 21:46:00
原帖由 ximimi 于 2006-5-22 21:38 发表

你用软件处理那是当然,因为p4本身不是设计来处理大批量网络处理的

现在跑大流量网络应用有卸载卡,网卡中断的影响可以忽略不计算
我只是举例说明中断对性能的影响,Offload也不是万能。
使用道具 举报 回复 支持 反对
发表于 2006-5-22 22:02:00
原帖由 ximimi 于 2006-5-22 21:41 发表
cell spe之间通信用文件系统,可见数据量不是很大,而且用dma,我估计是一次中断批量处理的
除了文件系统,Linux下还有什么其他的好办法吗?
数据量不大怎么能喂饱8个SPE?那可是每个号称每秒钟24GFLOPS 单精度浮点的。
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则