用户
 找回密码
 立即注册
搜索

P大,INTEL的IA架构手册已经到手了,还有些问题啊——

[复制链接]
发表于 2006-6-13 21:45:00
原帖由 hopetoknow2 于 2006-6-13 21:42 发表

是呀, 意思不太大, 不过如果你仔细看和分析,Yonah的一些特性还是很有意思的。

例如Yonah的L1互通,这可以推算Core的情况
L2延迟是14cycles

Yonah双核在load数据的顺序是:write buffer、自己的L1;若 ...
这个上面,Core和Yonah不一样。

5.5个bus cycle是个很长的时间。
使用道具 举报 回复 支持 反对
发表于 2006-6-13 21:51:00
原帖由 Prescott 于 2006-6-13 21:45 发表


这个上面,Core和Yonah不一样。

5.5个bus cycle是个很长的时间。
我弄错了, 那是Yonah访问内存的计算方法。 大约才86cycles,真低啊。
使用道具 举报 回复 支持 反对
发表于 2006-6-13 21:53:00
4B就是排号啊?现在只有1,2,3A,3B和4A——
使用道具 举报 回复 支持 反对
发表于 2006-6-13 21:53:00
在我的aopen 975x测试中,yonah @ 2.600ghz的cache交换时间是13x ns per pin-pong。
而在我的conroe 2.67ghz测试中,cache交换时间77ns per pin-pong。
使用道具 举报 回复 支持 反对
发表于 2006-6-13 21:57:00
原帖由 Edison 于 2006-6-13 21:53 发表
在我的aopen 975x测试中,yonah @ 2.600ghz的cache交换时间是13x ns。
而在我的conroe 2.67ghz测试中,cache交换时间77ns。
77ns,远高于实际值哦。你怎么测试的?
使用道具 举报 回复 支持 反对
发表于 2006-6-13 22:01:00
也许是测试程序的问题,修改后可以缩小到1/4,不过conroe现在归还了。
使用道具 举报 回复 支持 反对
发表于 2006-6-13 22:47:00
原帖由 Edison 于 2006-6-13 22:01 发表
也许是测试程序的问题,修改后可以缩小到1/4,不过conroe现在归还了。
Yonah也可以缩小1/4吗?
使用道具 举报 回复 支持 反对
发表于 2006-6-13 23:07:00
原帖由 Edison 于 2006-6-13 22:01 发表
也许是测试程序的问题,修改后可以缩小到1/4,不过conroe现在归还了。
我觉得Cho你的测试yonah架构图画错了。DP FMUL和DP FADD不应该画到同一个单元中,不该都在Port0


On Intel Core Solo and Intel Core Duo processors, the combination of
improved decoding and micro-op fusion allows instructions which were
formerly two, three, and four micro-ops to go through all decoders. As a
result, scalar SSE/SSE2 code can match the performance of x87 code
executing through two floating-point units. On Pentium M processors,
scalar SSE/SSE2 code can experience approximately 30% performance
degradation relative to x87 code executing through two floating-point
units.
In code sequences that have conversions from floating-point to integer,
divide single-precision instructions, or any precision change; x87 code
generation from a compiler typically writes data to memory in
single-precision and reads it again in order to reduce precision. Using
SSE/SSE2 scalar code instead of x87 code can generate a large
performance benefit using Intel NetBurst microarchitecture and a
modest benefit on Intel Core Solo and Intel Core Duo processors.
使用道具 举报 回复 支持 反对
发表于 2006-6-13 23:19:00
同时我认为scalar SSE2乘法指令MULSD 和x87的DP fmul指令都是共享使用同一个DP浮点乘法器。
而scalar SSE2加法指令ADDSD 和x87的DP fadd指令都是共享使用同一个DP浮点加法器。

当然这也意味着并行SSE2乘法指令MULPD是需要2次使用这一个DP浮点乘法器,而并行SSE2加法指令ADDPD是需要2次使用DP浮点加法器
使用道具 举报 回复 支持 反对
发表于 2006-6-14 00:40:00
FMAD/FADD是指x87的,不是DP,而是Long Double。

图中已经把SIMD FP ADD/SIMD DP MUL分别放在不同的port。因为是直接沿用PIII的架构图修改了一下,所以xxxPD没有写上去,这些指令的位置和对应的XXXPS单元位置一样的。
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则