热点科技

标题: 假如K8的L2到了4M [打印本页]

作者: fueasy    时间: 2006-5-29 19:50
标题: 假如K8的L2到了4M
假如K8的L2到了4M
参考了一下测试,基本上K8的L2提高一倍性能就提高9%,以1M L2的939 K8为基。粗略地算一下,那么提高到4M L2后会有9%*4=36%的性能提高,再乘以一个递减因子k,保守点取75%。那么最后就是27%,和Conroe的差距缩小了很多。

所以说K8还是有机会的,关键是赶快搞好65nm和共享L2!!!!
作者: liuwenfang    时间: 2006-5-29 19:52
照这样算,如果K8L也做成共享4M L2,那比Conroe强是一定的。
作者: a62807665    时间: 2006-5-29 19:54
原帖由 popwangyuII 于 2006-5-29 19:52 发表
照这样算,如果K8L也做成共享4M L2,那比Conroe强是一定的。
如果你说的是某些特定方面的性能,是有可能的


还要加上cache做大后延迟没有提高,像prescott那样1M变到2M的手段也不行(延迟大了)


可惜大多方面还是要落后
作者: xwenghao    时间: 2006-5-29 19:56
小道消息,k8 rev.g 也许会用上L3。不必当真,免得被挖坟,呵呵。
作者: adonis911    时间: 2006-5-29 20:18
问题是,有人已经说过,K8的架构不适合L2共享。
增加二缓意味着延迟的增加。
这些东西就像系统一样需要协调的,不是说加就加的。
另外,256K->512K->1M,每增大一倍,可能性能提高9%,但是再增大就不一定提高这个数了,所以你说的计算因子k估计值为75%毫无根据。万一这个值只有50%甚至更少呢?最好的例子就是Prescott,性能没怎么提高,发热量倒是增加了不少。
作者: xp186    时间: 2006-5-29 21:04
k8的l2先从128bit扩展到256bit带宽再说吧。
作者: li006070    时间: 2006-5-29 21:20
原帖由 xreal 于 2006-5-29 21:04 发表
k8的l2先从128bit扩展到256bit带宽再说吧。
K8 L2 128bit,8way 、P-M 256bit,4way各有各的特点。
作者: iloveoov    时间: 2006-5-29 21:21
原帖由 soft 于 2006-5-29 19:54 发表



如果你说的是某些特定方面的性能,是有可能的


还要加上cache做大后延迟没有提高,像prescott那样1M变到2M的手段也不行(延迟大了)


可惜大多方面还是要落后
恩,毕竟Conroe核心是下了和大成本的。
作者: newslzh    时间: 2006-5-29 21:22
原帖由 smartcub 于 2006-5-29 20:18 发表
问题是,有人已经说过,K8的架构不适合L2共享。
增加二缓意味着延迟的增加。
这些东西就像系统一样需要协调的,不是说加就加的。
另外,256K->512K->1M,每增大一倍,可能性能提高9%,但是再增大就不一定 ...
恩,不过个人觉得75%差不多了
作者: bluemanlb    时间: 2006-5-29 21:53
回复 #7 popwangyuII 的帖子
256bit, 4 way 的是 Celeron M

PM 是 8 way 的

还有,随你怎么说阿,K8 变成 4M 共享,你怎么不说 Conroe 变成 IMC FBDIMM 呢,把 A 所有的 U 送上西天
作者: xizhi1314    时间: 2006-5-29 22:04
原帖由 HeavenPR 于 2006-5-29 21:53 发表
256bit, 4 way 的是 Celeron M

PM 是 8 way 的

还有,随你怎么说阿,K8 变成 4M 共享,你怎么不说 Conroe 变成 IMC FBDIMM 呢,把 A 所有的 U 送上西天
例假来了?
作者: xiaobin25451394    时间: 2006-5-29 22:15
www.google.com
楼主对cache知识缺乏起码常识
作者: fsljm    时间: 2006-5-29 22:24
原帖由 popwangyuII 于 2006-5-29 19:50 发表
参考了一下测试,基本上K8的L2提高一倍性能就提高9%,以1M L2的939 K8为基。粗略地算一下,那么提高到4M L2后会有9%*4=36%的性能提高,再乘以一个递减因子k,保守点取75%。那么最后就是27%,和Conroe的差距缩小了 ...
4M比1M只翻了两番吧,就算LZ的理论成立,性能也只能提高13.5%。
作者: xerox    时间: 2006-5-29 22:26
原帖由 acqwer 于 2006-5-29 22:24 发表

4M比1M只翻了两翻吧,就算LZ的理论成立,性能也只能提高13.5%。
sorry丑大了哦,是两翻哦
作者: wj41406688    时间: 2006-5-29 22:27
原帖由 来不及思考 于 2006-5-29 22:15 发表
www.google.com
楼主对cache知识缺乏起码常识
老大!道理虽然不是这样,但是事情是可以这么算的
作者: jiang041111    时间: 2006-5-29 22:31
原帖由 popwangyuII 于 2006-5-29 22:27 发表



老大!道理虽然不是这样,但是事情是可以这么算的
先去搜下!
GOOGLE没什么丢人的,搜索引擎里知识的全面性是任何个人不能相比的
作者: pororo    时间: 2006-5-29 22:35
原帖由 来不及思考 于 2006-5-29 22:31 发表


先去搜下!
GOOGLE没什么丢人的,搜索引擎里知识的全面性是任何个人不能相比的
cache我虽然懂的不是太多,但基本的东西当然知道的。关键我这里是估算好不好?

如果你非要精确,那只有实际测试才知道。先搞清楚我的本意好不好?晕哦
作者: hujunjie88    时间: 2006-5-29 23:06
LZ还是Google一下Cache miss吧,免得丢人。如果按你的思考,CPU就简单多了,增加Cache就可以了。干吗就增加到4M呢?干脆增加到32M不是更NB?

GZ虽然是个业余网站,也不能太Naive。LZ还是多潜水吧...
作者: jarry168    时间: 2006-5-29 23:09
性能不提... 加到4m 要增加多少成本??? AMD等着倒闭么????
作者: zhnrmm588    时间: 2006-5-30 03:04
原帖由 popwangyuII 于 2006-5-29 19:50 发表
参考了一下测试,基本上K8的L2提高一倍性能就提高9%,以1M L2的939 K8为基。粗略地算一下,那么提高到4M L2后会有9%*4=36%的性能提高,再乘以一个递减因子k,保守点取75%。那么最后就是27%,和Conroe的差距缩小了 ...
持保留意见,不大信。
作者: huanhangkj    时间: 2006-5-30 08:21
原帖由 来不及思考 于 2006-5-29 22:15 发表
www.google.com
楼主对cache知识缺乏起码常识
同意,拿K8的L2和P4的L2比,根本就是个笑话
作者: tanrui007    时间: 2006-5-30 08:36
原帖由 火日生人 于 2006-5-30 08:21 发表


同意,拿K8的L2和P4的L2比,根本就是个笑话
我有提到P4半个字??
作者: yuji12    时间: 2006-5-30 09:30
原帖由 hammerking 于 2006-5-29 19:56 发表
小道消息,k8 rev.g 也许会用上L3。不必当真,免得被挖坟,呵呵。
K6 3 ?
作者: deciple    时间: 2006-5-30 10:04
楼主这也想到了,呵呵,把对手的优点附加到自己身上,肯定比对手强嘛。

这理论对哪种产品都一样。
作者: tanghaobai    时间: 2006-5-30 10:22
原帖由 popwangyuII 于 2006-5-30 08:18 发表



这人脑子怎么僵化的如此厉害?还是数学太烂?

那你提供一个计算方法好了,要求简单,半分钟内出结果。

我的方法是基于不严格的统计来的,如楼上的补充,在延迟等条件不变的情况下。 ...
你就真懒成这样,gogo一下什么叫Cache Miss会累死你?还在这里丢人
作者: lpk6830    时间: 2006-5-30 11:40
如果CONROE也集成内存控制器呢?那谁会更强?
作者: liuming7x    时间: 2006-5-30 11:53
除了比L2之外,Conroe的核心改進也是性能提升的重点吧
如4-issue、單週期完成一個128bit SSE2指令、指令融合等
作者: weiyichina    时间: 2006-5-30 12:49
最有效的就是缩短了流水线.CORE只有14级流水线.
作者: FlyingKite    时间: 2006-5-30 13:14
A64 流水线更短,速度呢?更快??
作者: beijingdxchen    时间: 2006-5-30 13:21
换个ID,没长进啊。
加大cache不过就是加大带宽。至于最终效果还和很多因素有关。
作者: StrayBoy    时间: 2006-5-30 15:38
YY帖留名走人。。
作者: tongzhongkai    时间: 2006-5-30 15:56
火大了,要是一开始没仔细看的人也就无所谓了。不过这年头还是傻子太多。无语了。连个最基本的统计估算的道理都想不明白,真T,M累!

估算明白不?基于统计的数值预测明白不?log增长率明白不?

K8如果哪一天真的核心不变,增加L2从1M增加到4M那就是大概14.4%的平均性能提高。或左或右,如果不是那我把我们统计老师砍了,然后再请你们把我砍了。我再强调一便,这是估算的平均性能提高!!

这样OK?
作者: lyy108    时间: 2006-5-30 16:02
原帖由 wcsmzq 于 2006-5-30 12:49 发表
最有效的就是缩短了流水线.CORE只有14级流水线.
没有说流水线短效率就一定高的。

不谈别的,仅就流水线来讲,效率看的是流水线气泡所占的比率
作者: zizhulin    时间: 2006-5-30 16:04
楼主息怒,cpu性能不是只靠二级缓存提升来提升的,要核心跟上才行,就像cpu配内存一样道理,再比如赛羊D就是100m缓存也是LJ,核心构架才是关键
作者: hbrqwgk    时间: 2006-5-30 16:05
原帖由 HeavenPR 于 2006-5-29 21:53 发表
256bit, 4 way 的是 Celeron M

PM 是 8 way 的

还有,随你怎么说阿,K8 变成 4M 共享,你怎么不说 Conroe 变成 IMC FBDIMM 呢,把 A 所有的 U 送上西天
K8 128 bit 16way,PM 256bit 8 way
作者: txl883    时间: 2006-5-30 16:09
原帖由 Feni 于 2006-5-29 23:06 发表
LZ还是Google一下Cache miss吧,免得丢人。如果按你的思考,CPU就简单多了,增加Cache就可以了。干吗就增加到4M呢?干脆增加到32M不是更NB?

GZ虽然是个业余网站,也不能太Naive。LZ还是多潜水吧...
增大Cache不要成本啊,你要AMD命啊?我要说多少便你才能明白过来?你张口闭口GZ业余,你高明?高明的连我的意思都没懂就来YY?
作者: xxxxpot    时间: 2006-5-30 16:16
性能提升一些的同时,但由于已经集成了内存控制器,所以提高程度不会太大,同时会变成一个火炉
作者: xiaoahua    时间: 2006-5-30 16:21
原帖由 popwangyuII 于 2006-5-30 15:56 发表
火大了,要是一开始没仔细看的人也就无所谓了。不过这年头还是傻子太多。无语了。连个最基本的统计估算的道理都想不明白,真T,M累!

估算明白不?基于统计的数值预测明白不?log增长率明白不?

K8如果哪一天 ...
问题是这样的估算只能说是YY,计算机的东西本来就是不能这么估算的(比如把3GHz超到4GHz就能提升50%的性能?)前提错误,何况你还下了结论。
作者: ycdxhen    时间: 2006-5-30 16:30
原帖由 Woodcrest 于 2006-5-30 16:21 发表


这位Feni,用的是单U的SPARC,一边自己并发搞着20000个Handle ,一边上着PCinlife网站。
赫赫,我上这里来,因为我喜欢看小白。没有比一本正经的说笑话更让人好笑的了。
作者: xianguo001    时间: 2006-5-30 16:35
原帖由 super1 于 2006-5-30 16:04 发表
楼主息怒,cpu性能不是只靠二级缓存提升来提升的,要核心跟上才行,就像cpu配内存一样道理,再比如赛羊D就是100m缓存也是LJ,核心构架才是关键
是这样的啊,我的观点和你这个没冲突的。

赛羊D如果提高到100m缓存,其平均性能(对所有程序的,决不考虑特定程序)也是呈log曲线增长的。P4如果提高到100m缓存,其平均性能也是呈log曲线增长的。只是可能100M L2的赛羊D还没有同频10M的P4强罢了,100M L2的赛羊D可能也不会比50M L2的赛羊D强1%。

我这个帖子本意就是做这样一个比较的啊,并不是说K8要想提高性能,只要把L2提高到xx就可以了,一方面是成本因素,另一方面可能K8的这个log曲线在L2=XXM的时候也达不到同频Conroe的性能。

但是即使其他方面没有任何变化,单单增加L2,可能特定的程序反映不一样,但对所有程序的平均性能还是会增加的。想一想极端情况。

很多东西是要屏蔽细节才搞的好的,为什么我敢说其对世界上所有的程序平均性能提高是一条log曲线,因为各个程序对L2大小的倚赖是呈正态分布的。
作者: oiwio    时间: 2006-5-30 16:47
原帖由 Woodcrest 于 2006-5-30 16:21 发表


这位Feni,用的是单U的SPARC,一边自己并发搞着20000个Handle ,一边上着PCinlife网站。
看来的确高明
作者: dq666    时间: 2006-5-30 16:48
原帖由 Feni 于 2006-5-30 16:30 发表


赫赫,我上这里来,因为我喜欢看小白。没有比一本正经的说笑话更让人好笑的了。
就像疯子总认为别人不正常一样
作者: shyscu    时间: 2006-5-30 17:14
原帖由 popwangyuII 于 2006-5-30 16:45 发表


1。  3GHz超到4GHz不会提升50%的性能,如果其他任何情况都不变,包括前端总线。那就是(4-3)/3,折上内存等因素的影响,还将是一条log曲线。估算一下就是(4-3)/3*90%左右。不同的处理器不同。不同的周遍环境也 ...
缓存大到一定程度作用本来就不会明显,赛扬128K提到256K增长明显(那是因为128KB对桌面一般应用不够用),涨到512K也会有改善,但是增到1M,2M得到的增长就不会那么多,因为已经在特定方面趋于饱和。另外,不同类型程序对Cache要求根本不一样,LZ大概只是假设的计算密集型应用,这些应用程序局部性较好,但是很多新类型应用其数据执行和访问行为都和传统大不相同,局部性和空间性差,数据重用率低,这类数据并行应用,复杂的大Cache反而会成为障碍。向量处理和SIMD一类适合数据并行的计算模型就会发挥极大作用,复杂的Cache优化机制对于大量数据并行性应用反而降低了数据带宽(虽然它们减少了延迟),没有重用性的数据经过复杂的Cache机制来存取会造成性能下降。




欢迎光临 热点科技 (http://www.itheat.com/activity/) Powered by Discuz! X3.2