热点科技
标题:
最近越看越有趣的R600 vs G8x
[打印本页]
作者:
aceFXY3
时间:
2008-11-29 19:08
标题:
最近越看越有趣的R600 vs G8x
Edison
兄
扔的
Experiencing Various Massively Parallel Architectures and Programming
Models for Data-Intensive Applications
這篇文章實在太有趣
...
從這篇可以看得出來,
R600
是每個
core
有
16
個
4D+1DALU
、
256KB register file
、整個
GPU
有
192
個
wavefront
、每個
wavefront
則剛好是
64
個
thread
,整個
GPU
有
12288
個
threads
。
(RV670
同
R600)
G80
的每個
SM
有
24warp
、共計
16
個
SM
,即
384
個
warp
、但每個
warp
由於只有
32
個
threads
,所以總計其實也是
12288
個
thread
。
但是在此同時,
G80
只有
512KBtotal
的
register file
,
R600/RV670
有
1MB
。
G80
每個
SM
只有
32KB register file
,每個
TPC
只有
64KB
;
R600
的每個
ALU array
有
256KB
。
当然大家仔细看可以看出来:
G80
的每个
SM
只有
8
个
1D
、每个
TPC
只有
16
个
1D
;
R600
有
16
个
4D+1D
。
所以双方的
registerfile
规模,几乎就是
1Dvs 4D
的规模,只是
G80
的结构因为
SIMT
的复杂度,所以
thread
规模可变;
R600
规模比较大,做得没那么细致,灵活性比较低,但是资源仍然充分。
----
这篇真正的意义在于,
GPU
绘图用途上,双方其实是几乎同等的:
TMU
和
ALU
都是成对分开,变成数个小
core
,然后以
crossbar
来和
ROP
连接。
ROP
再以其他的方式
(G80
是
crossbar
、
R600
是
ring-bus)
來和
memorycontroller
連接。
問題就在於此了:其實
RV670
和
RV770
的關係,正好就是
G94
與
G92
的關係。
在
G94
推出前,光比较
RV670
和
G92
就会显得
R600
结构效率很差,运算密度很低,然后
G92
的成本很高;
G94
推出时就会看到
G8x
的结构比
R6x0
可以更小些
....
RV770
推出后则把
R6x0
的运算密度提高,达到和
G92
可以对抗的程度。也就是
说
其实双方的
core(TPCvs ALU array)
几乎是可以单位上相对比的。
现在的问题就是
ATI
有没有办法已以现在
RV770
的方式拿出和
GT200
可以对抗的
产
品?
这代表的是
10
个
core (= 16way SIMD ALU array+4way TMU array)
,与
10
个
core (=TPC = 3x8way SIMT + 8way TMU array)
是否对等。
GT200
顯示
NVIDIA
認為
8TPC-256bit
是適當,所以往上做就是
16TPC-512bit(16TPC
整合到
10TPCx1.5
,以縮小
crossbar
規模
)
從
RV770
可以看得出來,其實
TMU
和
ROP
在
R6x0
裡面也是占較大規模,所以只增加
20%
就可以達成不刪減
registerfile
增加一倍的總運算量。
那么,
RV770
之后谣传会到
2000
个
SP
,可能是从
10
个
array
变成
25
个
array
;但是在此同时
TMU
的数量也跟着增加到
100
个,这时候还会是
16ROP + 256bit(GDDR5)
吗?
要不然的话
NVIDIA
也可以拿更多
TPC
来搭配
256bit
,就可以快速地缩小看起来很巨大的
GT200
了。
也就是
說
其實這只是一些
coding style
、現有
application
對運算量以及頻寬的平衡觀念而已。
我忽然覺得
Larrabee
其實機會不小了啊
.....XD
那也不過只是把每個
TPC or ALU array
加上個小小的
x86 core
而已。
欢迎光临 热点科技 (http://www.itheat.com/activity/)
Powered by Discuz! X3.2