OpenCL：真正的挑战

Roffild 2013.11.04 15:29 #61

1) Pragmas是一个编译时支持的要求，而不是激活支持本身（正如你似乎认为的那样）。因此，如果你的操作系统支持cl_khr_fp64，它就已经参与了。

2) 如果数组大小在运行时发生变化呢？当然，在这个特定的代码中可以做到，但它不会使情况变得更好。

让我马上告诉你，我是在AMD CodeXL 中进行剖析。

3）如果我们只考虑内核本身的计算时间，任何在GPU上的并行任务都会通过利用CPU上更多的内核而获得好处。因此，即使是8个任务，也足以加快事情的进展。

4）我自己有很多关于本地计算公式的问题。最大的收益发生在work_dim=1时，我把任务分散到小工具的所有核心上，这就是UNITS。

为什么一般情况下要除以缓冲区的大小，而你应该除以其元素的数量？- 而我确实做到了。

Mathemat: 简而言之：你的代码要做什么？

表明准备计算的阶段不是瞬时的，缓冲区的转移需要大量的时间；这对使用OpenCL 的实用性提出了质疑，即使是在燃料任务中。

它还显示，在测试器中没有选择CPU。

Vladimir Gomonov 2013.11.04 15:48 #62

Roffild:

表明计算的准备阶段并不是瞬间完成的，缓冲区的传输也需要大量的时间，这让人怀疑使用OpenCL 的实用性，即使是被夸大的任务。

也就是说，对它大喊大叫是相当愚蠢的；另一方面，测量它是另一回事；它可能有实际的作用。

它还显示，在测试器中没有选择CPU。

也许这是合理的，但也许是过度的保险。无论如何，我相信这是有意识的，以确保测试过程本身的效率，或者说是优化（因为它是多线程的）。在这里，如果测试和优化的概念被明确和完全分离（在党的政治层面），即它们被定义为测试人员使用的不同逻辑类型，那么实现包容的机会可能会出现。有相应的（官方不同）软件支持。(这在很多方面都是好事，我是这种分离/区分的长期支持者。就在不同的按钮上开始优化和测试)。

理论上，CPU的选择可以在测试期间被允许，而在优化期间不被允许（这是正确的）。

Sceptic Philozoff 2013.11.04 15:55 #63

Roffild: 1) Pragmas是一个编译时的支持要求，而不是支持本身的激活（正如你所认为的那样）。也就是说，如果内脏支持的话，cl_khr_fp64就已经参与了。

是的，我在pragma上做得太过了。如果你将继续在你的小部件上工作，并且不把代码传给其他人，没有问题。但如果有人想在巴茨卡（比如说6870）上读取它，就会出现问题。内核代码将尝试执行而不显示错误。

4）我自己对本地的计算公式也有很多疑问。最大的收获是当work_dim=1将任务分散到小部件的所有核心上时，也就是UNITS。

不一定。增加内核本身的工作往往要有用得多。这是为了平衡与数据传输相关的开销。

而你的UNITS只是一些SIMD引擎。根据文件规定。

local_work_size[] 设置一个任务子集，由指定的OpenCL程序内核来执行。它的维度等于 work_items[]，并允许将总的任务子集切割成较小的子集，而没有分割残余 。事实上，必须选择数组 local_work_size[]的大小，使全局任务集 work_items[] 被切成更小的子集。在这个例子中，local_work_size[3]={10, 10, 10} 就可以了，因为work_items[40, 100, 320] 可以从数组 local_items[10, 10, 10] 中组合出来，没有任何残留。

SIMD引擎数是一个严格意义上的硬件常数，它根本不需要划分全局任务。

但首先你需要正确评估全球问题本身。

关于测试器中的CPU--我明白了，我被说服了。

Roffild 2013.11.04 16:56 #64

MetaDriver:

嗯，这根本不是新闻。我的意思是，为它尖叫是愚蠢的，但测量它完全是另一回事；它可以有实际的作用。

除了由于某些原因，我不得不进行这些测量...当你读到 "有一个传输延迟 "时，你不知道它有多大。

Mathemat: 而你的UNITS只是一些SIMD引擎。根据文件规定。

SIMD引擎的数量是一个严格意义上的硬件常数，它根本不需要划分全局任务。

我们最好使用官方文件。

CL_DEVICE_MAX_COMPUTE_UNITS cl_uint OpenCL设备上并行计算单元的数量。一个工作组在一个单一的计算单元上执行。最小值为1。

本地_工作尺寸。
指向一个work_dim无符号值的数组，该数组描述了组成一个工作组的工作项的数量（也称为工作组的大小），该工作组将执行由内核指定的内核。

因此，我的结论是正确的，并被AMD CodeXL 运行所证实。

Sceptic Philozoff 2013.11.04 17:11 #65

这一点是不同的。叫你的单位桶，但事实是，你的代码中的单位并没有把全局任务分成整数（我的当然没有：240/28不是整数；你的也是，因为你有单位=18）。这是一个错误。

其次，此时此刻，你正在使用 MQL5的OpenCL（嗯，这不对，但你懂的）；这毕竟是一个不同于Khronos的OpenCL。

P.S. 我没有创建超链接，我只是自己得到了它 :)

Roffild:

CL_DEVICE_MAX_COMPUTE_UNITS cl_uint OpenCL设备上并行计算单元的数量。一个工作组在一个单一的计算单元上执行。最小值为1。

关于 "计算单位 "的定义，见其他来源。

顺便说一下，这是我第二篇文章中的一个表格。如果你能理解所有这些计算单元（18）、流核心（288）、处理元素（1440）、最大波阵/GPU（496）和工作项目/GPU（31744），那就更好了。我还没有搞清楚。

Roffild 2013.11.04 18:52 #66

Mathemat:

这一点是不同的。叫你的单位桶，但事实是，你的代码中的单位并没有把全局任务分成整数（我的当然没有：240/28不是整数；你的也是，因为你有单位=18）。这是个小故障。

那么你为什么要以240个字节为基础呢？你也许能做到，但显卡却做不到。因此，240/8=30个双打。

240字节是30个双数的整个缓冲区的大小。

而 "挑选一个完整的分割线 "只是官方文件的建议。而这个建议并不完美。

而关于UNITS的事，不是我自己的，只是来自OpenCL论坛的建议。我测试了一下，得到了最大的速度...

数学。

第二件事：在这里，现在你正在使用 MQL5的OpenCL（嗯，这是不对的，但你得到了我），它毕竟是一个不同于Khronos的OpenCL。

那么 "另一个 "是什么呢？

你混淆了专有实现和简单的包装器。OpenCL MQL只是Khronos OpenCL API的一个封装器。关于OpenCL MQL和Khronos的区别。

Roffild 2013.11.04 19:00 #67

Mathemat: 顺便说一下，这是我第二篇文章的表格。如果你能理解所有这些计算单元（18）、流核心（288）、处理元素（1440）、最大波阵/GPU（496）和工作项/GPU（31744），那就更好。我还没有搞清楚。

计算单元是同时执行的任务的数量。

max wavefronts/GPU（496）和work-items/GPU（31744）是排队运行的。

AMD CodeXL已经为所有这些问题提供了答案。

Andrey Dik 2013.11.04 20:05 #68

Roffild:

计算单元是同时执行的任务的数量。

max wavefronts/GPU（496）和work-items/GPU（31744）是执行队列。

AMD CodeXL最终可以帮助你 - 它回答了所有这些问题。

也许我有不明白的地方，对不起，但你认识阿列克谢本人吗？但从侧面看并不像.....，你说话太厚道了，比别人聪明？聪明不是罪，但在精神上的兄弟中夸耀它是可耻的......

Roffild 2013.11.04 20:25 #69

我是一个简单的人，我回答的是重点。

如果你真的想了解OpenCL，而不仅仅是假设，你将不得不把AMD CodeXL和创建自己的C/C++包装器。

我可以把我的包装器贴出来，但由于我缺乏C/C++的实践，它有一些不合逻辑的行。

Sceptic Philozoff 2013.11.04 20:27 #70

Roffild: 那么你为什么要以240字节为基数呢？你也许能做到，但显卡不能。因此，240/8=30个双打。

240字节是整个30个双数的缓冲区的大小。

看看你自己的代码。

uint units = (uint)CLGetInfoInteger(hcontext, CL_DEVICE_MAX_COMPUTE_UNITS);
uint global_work_offset[] = {0};
uint global_work_size[1];
uint local_work_size[1];
global_work_size[0] = ArraySize(price);
Print( "Глобальная задача = ", global_work_size[0] );  /// Это я добавил, вышло 240. Но это и так легко подсчитать: 30*double = 240
local_work_size[0] = global_work_size[0] / units;

此外，在最后一行，你自己用240除以18（这些是你地图的单位）。

而 "捡起整个隔板 "只是官方文件中的一个建议。而这个建议并不完美。

我们正在使用MQL5 OpenCL。我指的是我们网站上的文件。当然，我也在看Khronos。

至于UNITS，这不是我自己说的，而是OpenCL论坛的一些建议。我已经测试过了，得到了最大的速度...

好吧，我在不同的参数下得到了最大的速度。那么？

让我们给你一个大致的概念。在GPU上同时运行的18个任务，是4-5串CPU所能完成的最大值。而x86模拟的CPU可以组织更多的线程。至少如果是英特尔的话。我以前的奔腾G840（2个核心）给出了大约70倍的加速度--在两台设备上！这是我的经验。更不用说我现在的...可以说是i7。

一个良好的并行化的任务（看看第一个ocl分支的MetaDriver 脚本）可以在GPU上达到1000以上的速度（与MQL5的CPU上的一个线程相比）。如果你找不到它--我可以为你下载它，在你的卡片上试试。

如果你真的想了解OpenCL，而不仅仅是猜测，你将不得不把AMD CodeXL和创建自己的C/C++包装器。

好的，我会看一下的，谢谢。

OpenCL：真正的挑战 - 页 7