热点科技

标题: 最近越看越有趣的R600 vs G8x [打印本页]

作者: aceFXY3    时间: 2008-11-29 19:08
标题: 最近越看越有趣的R600 vs G8x
Edison扔的
Experiencing Various Massively Parallel Architectures and Programming
Models for Data-Intensive Applications
這篇文章實在太有趣...從這篇可以看得出來,R600是每個core164D+1DALU256KB register file、整個GPU192wavefront、每個wavefront則剛好是64thread,整個GPU12288 threads(RV670R600)
G80的每個SM24warp、共計16SM,即384warp、但每個warp由於只有32threads,所以總計其實也是12288thread
但是在此同時,G80只有512KBtotalregister fileR600/RV6701MB
G80每個SM只有32KB register file,每個TPC只有64KBR600的每個ALU array256KB
当然大家仔细看可以看出来:G80的每个SM只有81D、每个TPC只有161DR600164D+1D
所以双方的registerfile规模,几乎就是1Dvs 4D的规模,只是G80的结构因为SIMT的复杂度,所以thread规模可变;R600规模比较大,做得没那么细致,灵活性比较低,但是资源仍然充分。

----
这篇真正的意义在于,
GPU绘图用途上,双方其实是几乎同等的:TMUALU都是成对分开,变成数个小core,然后以crossbar来和ROP连接。
ROP再以其他的方式(G80crossbarR600ring-bus)來和memorycontroller連接。

問題就在於此了:其實RV670RV770的關係,正好就是G94G92的關係。
G94推出前,光比较RV670G92就会显得R600结构效率很差,运算密度很低,然后G92的成本很高;G94推出时就会看到G8x的结构比R6x0可以更小些....

RV770推出后则把R6x0的运算密度提高,达到和G92可以对抗的程度。也就是其实双方的core(TPCvs ALU array)几乎是可以单位上相对比的。

现在的问题就是ATI有没有办法已以现在RV770的方式拿出和GT200可以对抗的品?
这代表的是10core (= 16way SIMD ALU array+4way TMU array),与10core (=TPC = 3x8way SIMT + 8way TMU array)是否对等。

GT200顯示NVIDIA認為8TPC-256bit是適當,所以往上做就是16TPC-512bit(16TPC整合到10TPCx1.5,以縮小crossbar規模)
RV770可以看得出來,其實TMUROPR6x0裡面也是占較大規模,所以只增加20%就可以達成不刪減registerfile增加一倍的總運算量。

那么,
RV770之后谣传会到2000SP,可能是从10array变成25array;但是在此同时TMU的数量也跟着增加到100个,这时候还会是16ROP + 256bit(GDDR5)吗?
要不然的话NVIDIA也可以拿更多TPC来搭配256bit,就可以快速地缩小看起来很巨大的GT200了。

也就是其實這只是一些coding style、現有application對運算量以及頻寬的平衡觀念而已。
我忽然覺得Larrabee其實機會不小了啊.....XD
那也不過只是把每個TPC or ALU array加上個小小的x86 core而已。





欢迎光临 热点科技 (http://www.itheat.com/activity/) Powered by Discuz! X3.2