用户
 找回密码
 立即注册
搜索

关于G80 shader performance的疑问

[复制链接]
发表于 2006-10-16 23:49:00
原帖由 ayanamei 于 2006-10-16 23:49 发表

这个是不可能的
所以才用
使用道具 举报 回复 支持 反对
发表于 2006-10-16 23:51:00
原帖由 samsung 于 2006-10-16 23:39 发表
2G  G80 6K
3.6G  G80 12K

????
Driver問題...
这么夸张?
还是3DMark06测U测得太厉害的原因?
不过CPU分数的比重也不是很多的说
难道G80目前性能的发挥真的这么依赖CPU
使用道具 举报 回复 支持 反对
发表于 2006-10-17 07:50:00
原帖由 ayanamei
2006-10-16 23:42 发表

这两组数字里面肯定有一个是假的
同感。不過用夠快的CPU的話,能
跑高分應該沒有疑問,因為GPU本
身的極限應該還沒到。
使用道具 举报 回复 支持 反对
发表于 2006-10-17 10:47:00
老实说, 这样的结构真的很怪...
1D搭配MIMD, 没有co-issue, 这么多thread, 也就是说, 每个flops的开销比G71大好几倍.
真的不像nVidia的作风。
使用道具 举报 回复 支持 反对
发表于 2006-10-17 11:05:00
不过, 前阵子我和来不及思考讨论过, 对于GPU的计算能力, 有一个比较有趣的结论, 就是计算繁重的任务中, GPU的性能基本和flops无关, 而与单shader指令发射数量有关.
比如,
一个3G P4, 只有3G 指令吞吐量(SSE, 假设有co-issue), 能跑110M Ray-Triangle求交测试,
一个R580, 等效为625 x 48 = 30G吞吐, 相应结果大概是1100M.
反过来看, R580的flops高达P4的50倍。也就是说, 实际flops/性能发挥为20%左右。

其实天文数字的flops完全是MAD的结果, 实际应用中更有效的其实是CPI之类的东西。OpenRT的Ingo Wald, 在一个CELL的实际应用中的结论是, 单个SPE的性能大致和同频K8相当。而flops的差距为4倍。主要原因是x86很长一段时间没有MAD的能力。但是MAD, 理想的co-issue其实不是那么实用的。

flops/性能比的上升空间非常大, 如果G80能够提高这个比例, 那么还是完全可以期待的。
使用道具 举报 回复 支持 反对
发表于 2006-10-17 11:25:00
原帖由 Eji 于 2006-10-16 22:44 发表
算了,我這樣打真的很累,我把我看到的分數打出來,剩下禮拜四放假再說。06:60xx@A64 4000+,05:138xx@E6600未超。話說ghrs看到的x6800@5G,這種時脈底下真的能跑0506?
早就能5G跑Pi32M,很有希望能跑05、06
使用道具 举报 回复 支持 反对
发表于 2006-10-17 11:33:00
G80的beta驱动会不会未完成整合分成DX9,DX10两个优化版?跑0506用DX9版,跑farsis用DX10版?
使用道具 举报 回复 支持 反对
发表于 2006-10-17 13:16:00
原帖由 RacingPHT 于 2006-10-17 11:05 发表
不过, 前阵子我和来不及思考讨论过, 对于GPU的计算能力, 有一个比较有趣的结论, 就是计算繁重的任务中, GPU的性能基本和flops无关, 而与单shader指令发射数量有关.
比如,
一个3G P4, 只有3G 指令吞吐量(SSE ...
放弃一部分账面上的东西 而多一些可以切实吃到的资源么?
使用道具 举报 回复 支持 反对
发表于 2006-10-17 13:21:00
RacingPHT 的那个测试太诡异了
6600居然只能跑跟P4 3.0相同的性能
使用道具 举报 回复 支持 反对
发表于 2006-10-17 13:26:00
原帖由 ayanamei 于 2006-10-17 13:16 发表

放弃一部分账面上的东西 而多一些可以切实吃到的资源么?
按照现在的情报, G80每秒可以执行的指令数量高达172G, 虽然是1D指令.
如果co-issue无效(其实大多数情况就是这样), 那么G71只能执行15.6G, R580只能执行31.2G.

这个是比较有趣的.
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则