热点科技

标题: 假如K8的L2到了4M [打印本页]

作者: fueasy 时间: 2006-5-29 19:50
标题: 假如K8的L2到了4M
假如K8的L2到了4M
参考了一下测试，基本上K8的L2提高一倍性能就提高9%，以1M L2的939 K8为基。粗略地算一下，那么提高到4M L2后会有9%*4=36%的性能提高，再乘以一个递减因子k，保守点取75%。那么最后就是27%，和Conroe的差距缩小了很多。

所以说K8还是有机会的，关键是赶快搞好65nm和共享L2!!!!

作者: liuwenfang 时间: 2006-5-29 19:52
照这样算，如果K8L也做成共享4M L2，那比Conroe强是一定的。

作者: a62807665 时间: 2006-5-29 19:54

原帖由 popwangyuII 于 2006-5-29 19:52 发表
照这样算，如果K8L也做成共享4M L2，那比Conroe强是一定的。

如果你说的是某些特定方面的性能，是有可能的

还要加上cache做大后延迟没有提高，像prescott那样1M变到2M的手段也不行（延迟大了）

可惜大多方面还是要落后

作者: xwenghao 时间: 2006-5-29 19:56
小道消息，k8 rev.g 也许会用上L3。不必当真，免得被挖坟，呵呵。

作者: adonis911 时间: 2006-5-29 20:18
问题是，有人已经说过，K8的架构不适合L2共享。
增加二缓意味着延迟的增加。
这些东西就像系统一样需要协调的，不是说加就加的。
另外，256K->512K->1M，每增大一倍，可能性能提高9%，但是再增大就不一定提高这个数了，所以你说的计算因子k估计值为75%毫无根据。万一这个值只有50%甚至更少呢？最好的例子就是Prescott，性能没怎么提高，发热量倒是增加了不少。

作者: xp186 时间: 2006-5-29 21:04

k8的l2先从128bit扩展到256bit带宽再说吧。

作者: li006070 时间: 2006-5-29 21:20

原帖由 xreal 于 2006-5-29 21:04 发表
k8的l2先从128bit扩展到256bit带宽再说吧。

K8 L2 128bit,8way 、P-M 256bit,4way各有各的特点。

作者: iloveoov 时间: 2006-5-29 21:21

原帖由 soft 于 2006-5-29 19:54 发表

如果你说的是某些特定方面的性能，是有可能的

还要加上cache做大后延迟没有提高，像prescott那样1M变到2M的手段也不行（延迟大了）

可惜大多方面还是要落后

恩，毕竟Conroe核心是下了和大成本的。

作者: newslzh 时间: 2006-5-29 21:22

原帖由 smartcub 于 2006-5-29 20:18 发表
问题是，有人已经说过，K8的架构不适合L2共享。
增加二缓意味着延迟的增加。
这些东西就像系统一样需要协调的，不是说加就加的。
另外，256K->512K->1M，每增大一倍，可能性能提高9%，但是再增大就不一定 ...

恩，不过个人觉得75%差不多了

作者: bluemanlb 时间: 2006-5-29 21:53
回复 #7 popwangyuII 的帖子
256bit, 4 way 的是 Celeron M

PM 是 8 way 的

还有，随你怎么说阿，K8 变成 4M 共享，你怎么不说 Conroe 变成 IMC FBDIMM 呢，把 A 所有的 U 送上西天

作者: xizhi1314 时间: 2006-5-29 22:04

原帖由 HeavenPR 于 2006-5-29 21:53 发表
256bit, 4 way 的是 Celeron M

PM 是 8 way 的

还有，随你怎么说阿，K8 变成 4M 共享，你怎么不说 Conroe 变成 IMC FBDIMM 呢，把 A 所有的 U 送上西天

例假来了?

作者: xiaobin25451394 时间: 2006-5-29 22:15
www.google.com
楼主对cache知识缺乏起码常识

作者: fsljm 时间: 2006-5-29 22:24

原帖由 popwangyuII 于 2006-5-29 19:50 发表
参考了一下测试，基本上K8的L2提高一倍性能就提高9%，以1M L2的939 K8为基。粗略地算一下，那么提高到4M L2后会有9%*4=36%的性能提高，再乘以一个递减因子k，保守点取75%。那么最后就是27%，和Conroe的差距缩小了 ...

4M比1M只翻了两番吧，就算LZ的理论成立，性能也只能提高13.5%。

作者: xerox 时间: 2006-5-29 22:26

原帖由 acqwer 于 2006-5-29 22:24 发表

4M比1M只翻了两翻吧，就算LZ的理论成立，性能也只能提高13.5%。

sorry丑大了哦，是两翻哦

作者: wj41406688 时间: 2006-5-29 22:27

原帖由 来不及思考 于 2006-5-29 22:15 发表
www.google.com
楼主对cache知识缺乏起码常识

老大！道理虽然不是这样，但是事情是可以这么算的

作者: jiang041111 时间: 2006-5-29 22:31

原帖由 popwangyuII 于 2006-5-29 22:27 发表

老大！道理虽然不是这样，但是事情是可以这么算的

先去搜下!
GOOGLE没什么丢人的,搜索引擎里知识的全面性是任何个人不能相比的

作者: pororo 时间: 2006-5-29 22:35

原帖由 来不及思考 于 2006-5-29 22:31 发表

先去搜下!
GOOGLE没什么丢人的,搜索引擎里知识的全面性是任何个人不能相比的

cache我虽然懂的不是太多，但基本的东西当然知道的。关键我这里是估算好不好？

如果你非要精确，那只有实际测试才知道。

先搞清楚我的本意好不好？晕哦

作者: hujunjie88 时间: 2006-5-29 23:06
LZ还是Google一下Cache miss吧，免得丢人。如果按你的思考，CPU就简单多了，增加Cache就可以了。干吗就增加到4M呢？干脆增加到32M不是更NB？

GZ虽然是个业余网站，也不能太Naive。LZ还是多潜水吧...

作者: jarry168 时间: 2006-5-29 23:09
性能不提... 加到4m 要增加多少成本??? AMD等着倒闭么????

作者: zhnrmm588 时间: 2006-5-30 03:04

原帖由 popwangyuII 于 2006-5-29 19:50 发表
参考了一下测试，基本上K8的L2提高一倍性能就提高9%，以1M L2的939 K8为基。粗略地算一下，那么提高到4M L2后会有9%*4=36%的性能提高，再乘以一个递减因子k，保守点取75%。那么最后就是27%，和Conroe的差距缩小了 ...

持保留意见，不大信。

作者: huanhangkj 时间: 2006-5-30 08:21

原帖由 来不及思考 于 2006-5-29 22:15 发表
www.google.com
楼主对cache知识缺乏起码常识

同意，拿K8的L2和P4的L2比，根本就是个笑话

作者: tanrui007 时间: 2006-5-30 08:36

原帖由 火日生人 于 2006-5-30 08:21 发表

同意，拿K8的L2和P4的L2比，根本就是个笑话

我有提到P4半个字？？

作者: yuji12 时间: 2006-5-30 09:30

原帖由 hammerking 于 2006-5-29 19:56 发表
小道消息，k8 rev.g 也许会用上L3。不必当真，免得被挖坟，呵呵。

K6 3 ?

作者: deciple 时间: 2006-5-30 10:04
楼主这也想到了，呵呵，把对手的优点附加到自己身上，肯定比对手强嘛。

这理论对哪种产品都一样。

作者: tanghaobai 时间: 2006-5-30 10:22

原帖由 popwangyuII 于 2006-5-30 08:18 发表

这人脑子怎么僵化的如此厉害？还是数学太烂？

那你提供一个计算方法好了，要求简单，半分钟内出结果。

我的方法是基于不严格的统计来的，如楼上的补充，在延迟等条件不变的情况下。 ...

你就真懒成这样，gogo一下什么叫Cache Miss会累死你？还在这里丢人

作者: lpk6830 时间: 2006-5-30 11:40
如果CONROE也集成内存控制器呢？那谁会更强？

作者: liuming7x 时间: 2006-5-30 11:53
除了比L2之外，Conroe的核心改進也是性能提升的重点吧
如4-issue、單週期完成一個128bit SSE2指令、指令融合等

作者: weiyichina 时间: 2006-5-30 12:49
最有效的就是缩短了流水线.CORE只有14级流水线.

作者: FlyingKite 时间: 2006-5-30 13:14
A64 流水线更短，速度呢？更快？？

作者: beijingdxchen 时间: 2006-5-30 13:21
换个ID，没长进啊。

加大cache不过就是加大带宽。至于最终效果还和很多因素有关。

作者: StrayBoy 时间: 2006-5-30 15:38
YY帖留名走人。。

作者: tongzhongkai 时间: 2006-5-30 15:56
火大了，要是一开始没仔细看的人也就无所谓了。不过这年头还是傻子太多。无语了。连个最基本的统计估算的道理都想不明白，真T,M累！

估算明白不？基于统计的数值预测明白不？log增长率明白不？

K8如果哪一天真的核心不变，增加L2从1M增加到4M那就是大概14.4%的平均性能提高。或左或右，如果不是那我把我们统计老师砍了，然后再请你们把我砍了。我再强调一便，这是估算的平均性能提高！！

这样OK?

作者: lyy108 时间: 2006-5-30 16:02

原帖由 wcsmzq 于 2006-5-30 12:49 发表
最有效的就是缩短了流水线.CORE只有14级流水线.

没有说流水线短效率就一定高的。

不谈别的，仅就流水线来讲，效率看的是流水线气泡所占的比率

作者: zizhulin 时间: 2006-5-30 16:04
楼主息怒，cpu性能不是只靠二级缓存提升来提升的，要核心跟上才行，就像cpu配内存一样道理，再比如赛羊D就是100m缓存也是LJ，核心构架才是关键

作者: hbrqwgk 时间: 2006-5-30 16:05

原帖由 HeavenPR 于 2006-5-29 21:53 发表
256bit, 4 way 的是 Celeron M

PM 是 8 way 的

还有，随你怎么说阿，K8 变成 4M 共享，你怎么不说 Conroe 变成 IMC FBDIMM 呢，把 A 所有的 U 送上西天

K8 128 bit 16way,PM 256bit 8 way

作者: txl883 时间: 2006-5-30 16:09

原帖由 Feni 于 2006-5-29 23:06 发表
LZ还是Google一下Cache miss吧，免得丢人。如果按你的思考，CPU就简单多了，增加Cache就可以了。干吗就增加到4M呢？干脆增加到32M不是更NB？

GZ虽然是个业余网站，也不能太Naive。LZ还是多潜水吧...

增大Cache不要成本啊，你要AMD命啊？我要说多少便你才能明白过来？你张口闭口GZ业余，你高明？高明的连我的意思都没懂就来YY？

作者: xxxxpot 时间: 2006-5-30 16:16
性能提升一些的同时，但由于已经集成了内存控制器，所以提高程度不会太大，同时会变成一个火炉

作者: xiaoahua 时间: 2006-5-30 16:21

原帖由 popwangyuII 于 2006-5-30 15:56 发表
火大了，要是一开始没仔细看的人也就无所谓了。不过这年头还是傻子太多。无语了。连个最基本的统计估算的道理都想不明白，真T,M累！

估算明白不？基于统计的数值预测明白不？log增长率明白不？

K8如果哪一天 ...

问题是这样的估算只能说是YY，计算机的东西本来就是不能这么估算的（比如把3GHz超到4GHz就能提升50％的性能？）前提错误，何况你还下了结论。

作者: ycdxhen 时间: 2006-5-30 16:30

原帖由 Woodcrest 于 2006-5-30 16:21 发表

这位Feni，用的是单U的SPARC，一边自己并发搞着20000个Handle ，一边上着PCinlife网站。

赫赫，我上这里来，因为我喜欢看小白。没有比一本正经的说笑话更让人好笑的了。

作者: xianguo001 时间: 2006-5-30 16:35

原帖由 super1 于 2006-5-30 16:04 发表
楼主息怒，cpu性能不是只靠二级缓存提升来提升的，要核心跟上才行，就像cpu配内存一样道理，再比如赛羊D就是100m缓存也是LJ，核心构架才是关键

是这样的啊，我的观点和你这个没冲突的。

赛羊D如果提高到100m缓存，其平均性能（对所有程序的，决不考虑特定程序）也是呈log曲线增长的。P4如果提高到100m缓存，其平均性能也是呈log曲线增长的。只是可能100M L2的赛羊D还没有同频10M的P4强罢了，100M L2的赛羊D可能也不会比50M L2的赛羊D强1%。

我这个帖子本意就是做这样一个比较的啊，并不是说K8要想提高性能，只要把L2提高到xx就可以了，一方面是成本因素，另一方面可能K8的这个log曲线在L2=XXM的时候也达不到同频Conroe的性能。

但是即使其他方面没有任何变化，单单增加L2，可能特定的程序反映不一样，但对所有程序的平均性能还是会增加的。想一想极端情况。

很多东西是要屏蔽细节才搞的好的，为什么我敢说其对世界上所有的程序平均性能提高是一条log曲线，因为各个程序对L2大小的倚赖是呈正态分布的。

作者: oiwio 时间: 2006-5-30 16:47

原帖由 Woodcrest 于 2006-5-30 16:21 发表

这位Feni，用的是单U的SPARC，一边自己并发搞着20000个Handle ，一边上着PCinlife网站。

看来的确高明

作者: dq666 时间: 2006-5-30 16:48

原帖由 Feni 于 2006-5-30 16:30 发表

赫赫，我上这里来，因为我喜欢看小白。没有比一本正经的说笑话更让人好笑的了。

就像疯子总认为别人不正常一样

作者: shyscu 时间: 2006-5-30 17:14

原帖由 popwangyuII 于 2006-5-30 16:45 发表

1。 3GHz超到4GHz不会提升50％的性能，如果其他任何情况都不变，包括前端总线。那就是(4-3)/3，折上内存等因素的影响，还将是一条log曲线。估算一下就是(4-3)/3*90%左右。不同的处理器不同。不同的周遍环境也 ...

缓存大到一定程度作用本来就不会明显，赛扬128K提到256K增长明显（那是因为128KB对桌面一般应用不够用），涨到512K也会有改善，但是增到1M,2M得到的增长就不会那么多，因为已经在特定方面趋于饱和。另外，不同类型程序对Cache要求根本不一样，LZ大概只是假设的计算密集型应用，这些应用程序局部性较好，但是很多新类型应用其数据执行和访问行为都和传统大不相同，局部性和空间性差，数据重用率低，这类数据并行应用，复杂的大Cache反而会成为障碍。向量处理和SIMD一类适合数据并行的计算模型就会发挥极大作用，复杂的Cache优化机制对于大量数据并行性应用反而降低了数据带宽（虽然它们减少了延迟），没有重用性的数据经过复杂的Cache机制来存取会造成性能下降。

欢迎光临热点科技 (http://www.itheat.com/activity/)