AMD或英特尔,以及内存品牌 - 页 73

 
begemot61 >> :

为什么?我对严肃的事情的计算速度也非常感兴趣

好吧,这使得我们有三个人。仍然不是很多。

 
joo >> :

我非常理解你的想法。但我认为我们以一种错误的方式加载测试器。我的观点,另一方面,你似乎没有理解它。但总的来说,这并不重要。对于定位,可以说是 "实地",最后一位专家也会做。

好的。这不是正派丈夫的理由,不是吗?)))我还对代码执行的速度特别感兴趣,因为我的指标(突然,已经看到)即使在公开执行中也是相当耗费资源的。

 

我想格拉斯恩 也会欢迎有机会更快地计数。

 
joo >> :

没有。大家只是在MT中除了优化器的工作之外,没有看到资源密集型的任务。即使他们这样做了,他们也不会在日常工作中使用它们。至少他们中的大多数人是这样做的。但不要紧。我将等待MT5的到来。那里的代码速度可以用肉眼看到。还有就是CUDA。我已经从nVidia网站下载了工具包,将对其进行研究。而且,将代码转移到dll中是没有问题的。

至于CUDA,我已经看到了计算速度加快10-100倍的例子。对于一些医疗应用。而CUDA编程已经在大学里被教授。但这是非常麻烦的。I.e. C是一种类似的语言,但有必要正确划分任务,考虑到GPU和整数计算的特殊性。这原来是一个非常低级的编程。而且,并不是所有的任务都能轻易减少到这种类型,即使在工作六个月后也能获得真正的收获。尽管,例如,整数矩阵的操作--几乎完美地转化为CUDA。
 
begemot61 >> :
至于CUDA,我已经看到了计算速度加快10-100倍的例子。对于一些医疗应用。而CUDA编程已经在大学里被教授。但这是非常乏味的。I.e. C是一种类似的语言,但有必要正确划分任务,考虑到GPU和整数计算的特殊性。这原来是一个非常低级的编程。而且,并不是所有的任务都能轻易地减少到这种类型,在工作6个月后获得真正的收获。尽管,例如,整数矩阵的操作--几乎完美地转化为CUDA。

有一个OpenCL项目,它是一个分布式计算环境。几乎所有人都参与其中,包括AMD和nVidia。那里有一个更高层次的抽象。该链接包含一个代码样本,如你所见,是C语言(C99标准)。

[删除]  

我研究了资料,下午再来汇报,现在是睡觉时间。

结果或多或少是清楚的。

[删除]  

我将尝试简要地描述我的发现。

优化专家顾问 时,测试者会使用几十MB的内存。例如,我有一个一年的fxt-文件,其中有按开局计算的会议记录,约36MB。这段历史被储存在内存中,或多或少被随机访问。在这种模式下,内存不能提供足够的性能来为处理器提供它在 "理想 "情况下可以处理的数据量。这里的重要作用是由缓存来发挥的。

下面开始最有趣的部分。

1)很明显,在缓存缺失的情况下,内存访问的速度和延迟将发挥重要作用。这里的处理器可以分为2组。

a) Atom和Core 2 - 内存控制器在 "北桥"(North Bridge - NB)芯片组中。

b) 所有其他的集成(进入处理器)内存控制器 - ICP。

在这种情况下,"a "组的处理器会明显输给 "b "组的处理器。这就是说,酷睿i7 ICP比AMD处理器上的效率高得多。这就是酷睿i7无条件胜利的原因之一。

2)为了有效地掩盖延迟,缓存必须尽可能大,具有关联性(CPU-Z截图中的x-way)和较少的内在延迟。

在这里,处理器的速度明显取决于缓存量(所有其他因素都相同)。

- 最慢的CPU是拥有512KB缓存的赛扬(我没有考虑到Atom--其架构是为经济而非性能而设计的)。

- Athlons--它们的低缓存大小由于ICP而影响较小。

- 赛扬900,1MB缓存。

- 具有3-6MB缓存的酷睿2处理器;具有更大缓存量的型号有点偏离目标。

- Phenom II,这里有6MB的高速缓存(并且具有最大的关联性--多达48路!)与ICP相结合。

- 最快的是酷睿i7,它结合了所有最先进的东西--3通道(通常非常快)RPC和最大的(同样非常快)L3缓存8MB。

至于为什么Phenom的效率在超频后会下降,而Core i7的效率会上升。

在这两款处理器中,ICP和L3高速缓存是单独计时的(而L1/L2高速缓存总是以CPU频率运行)。

但是贝尔福 的超频方法是增加CPU的倍频(他有一个BE--黑色版系列处理器--有一个自由的倍频,通常上面 的倍频是有限的),而不超频L3缓存。

而酷睿i7的超频(XE除外)只能通过提高基础频率(BCLK)来实现。这也是对带有L3缓存的IC进行超频(在Core ix中这被称为Uncore)。

所以Belford的 Phenom的L3速度总是固定在2009.1MHz。而在YuraZ,它从标准的2.13 GHz加速到了处理器超频到4 GHz时的3.2 GHz。(CPU BCLK x 20, Uncore BCLK x 16)。而至强的CPU频率为3.33GHz,Uncore的运行频率为2.66GHz。

在这一点上,即使在2.13GHz时,Core i7的L3缓存也明显比Phenom的L3缓存在2GHz时运行得快。而在3.2GHz时自然要快得多,这确保了酷睿i7在这项测试中的出色可扩展性。

现在这只是猜测的水平,因为我没有做任何详细的研究。但似乎 优化速度在很大程度上取决于高速缓存的大小和性能,而对处理器频率的影响稍小。

 
Docent >> :

我将尝试简要地描述我的发现。

在优化专家顾问时,测试者会使用几十MB的内存。例如,我有一个一年的fxt-文件,其中有按开局计算的会议记录,约36MB。这段历史被储存在内存中,或多或少被随机访问。在这种模式下,内存不能提供足够的性能来为处理器提供它在 "理想 "情况下可以处理的数据量。这里的重要作用是由缓存来发挥的。

下面开始最有趣的部分。

1)很明显,在缓存缺失的情况下,内存访问的速度和延迟将发挥重要作用。这里的处理器可以分为2组。

a) Atom和Core 2 - 内存控制器在 "北桥"(North Bridge - NB)芯片组中。

b) 所有其他的集成(进入处理器)内存控制器 - ICP。

在这种情况下,"a "组的处理器会明显输给 "b "组的处理器。这就是说,酷睿i7 ICP比AMD处理器上的效率高得多。这就是酷睿i7无条件胜利的原因之一。

2)为了有效地掩盖延迟,缓存必须尽可能大,具有关联性(CPU-Z截图中的x-way)和较少的内在延迟。

在这里,处理器的速度明显取决于高速缓存的大小(所有其他条件都相同)。

- 最慢的CPU是拥有512KB缓存的赛扬(我没有考虑到Atom--其架构是为经济而非性能而设计的)。

- Athlons--它们的低缓存大小由于ICP而影响较小。

- 赛扬900,1MB缓存。

- 具有3-6MB缓存的酷睿2处理器;具有更大缓存量的型号有点偏离目标。

- Phenom II,这里有6MB的高速缓存(并且具有最大的关联性--多达48路!)与ICP相结合。

- 而最快的--酷睿i7--在这里结合了所有最先进的--3通道(通常非常快)RPC和最大的(同样非常快)L3缓存8MB。

至于为什么Phenom的效率在超频后会下降,而Core i7的效率会上升。

在这两款处理器中,ICP和L3高速缓存是单独计时的(而L1/L2高速缓存总是以CPU频率运行)。

但是贝尔福的超频方法是增加CPU的倍频(他有一个BE--黑色版系列处理器--有一个自由的倍频,通常上面的倍频是有限的),而不超频L3缓存。

而酷睿i7的超频(XE除外)只能通过提高基础频率(BCLK)来实现。这也是对带有L3缓存的IC进行超频(在Core ix中这被称为Uncore)。

所以Phenom的L3速度总是固定在2009.1MHz。而在YuraZ,它从标准的2.13 GHz加速到了处理器超频到4 GHz时的3.2 GHz。(CPU BCLK x 20, Uncore BCLK x 16)。而至强的CPU频率为3.33GHz,Uncore的运行频率为2.66GHz。

在这一点上,即使在2.13GHz时,Core i7的L3缓存也明显比Phenom的L3缓存在2GHz时运行得快。而在3.2GHz时自然要快得多,这确保了酷睿i7在这项测试中的出色可扩展性。

现在这只是猜测的水平,因为我没有做任何详细的研究。但似乎优化速度在很大程度上取决于高速缓存的大小和性能,而对处理器频率的影响稍小。

谢谢你。我认为这很有说服力。我同意。

 
Docent >>: Но похоже, что скорость оптимизации сильно зависит от объема и быстродействия кэша, и несколько меньше от частоты процессора.

稍微澄清一下。假设优化的速度 依赖于缓存的大小和性能而不是CPU的频率,这是否正确呢

[删除]  
HideYourRichess писал(а)>>

稍微澄清一下。与处理器频率相比, 优化速度 依赖于高速缓存的大小和性能,这样的假设是否正确

事实证明,它确实如此。但目前仍是一种假设,我在帖子中强调了这一点!