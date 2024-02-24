交易中的机器学习：理论、模型、实践和算法交易 - 页 2807

Aleksey Vyazmikin #:

我把它换了一下，似乎没什么问题。

mytarmailS #:

你的脚本在我的样本上消耗了将近 9GB 内存，但它似乎还能工作，文件也保存了下来。我甚至不知道内存消耗在哪里，而样本只占用了 1GB 多一点。

 
mytarmailS #:

我还发现，表格中的标题（列名）是用引号保存的，如何关闭？

这段代码要做什么？要想更快，您应该将所有列转换为相同的数据类型（浮点 32、16 - 没必要，这样会更慢），并通过快速数组计算 coRRR。

如果我们讨论的是 kaRma 的实际修正

 
Aleksey Vyazmikin #:

所以呢？

可能是 R 坏了）

Aleksey Vyazmikin#:

您是如何解决这个问题的？

 
mytarmailS #:

那又怎样？

我想，R 是不好的）。

坏/好的判断太关键了。

很明显，软件包代码的内存效率不高，但速度可以很快，或者脚本多次复制整个 table/selection。

而你所做的--你发现了问题，并向专业人士报告，希望得到帮助。

 
Maxim Dmitrievsky #:

如果我们谈论的是 kaRma 的实际修正

据我所知，R 中根本没有不同数据类型（int、float 等）的概念。而且，这会减少内存大小，但对速度影响不大。在显卡上，是的，会有所增加。

Aleksey Vyazmikin #:

一切都在那里。这将对速度产生灾难性的影响。数据帧是速度最慢、开销最大的 "野兽"。

这与显卡无关，关键是要明白，在清醒状态下，数据帧是不计成本的。

 
Aleksey Vyazmikin #:

提示：是否有必要使用 100,000 个观测值的向量来查看它们之间的相关性？

我正在寻找高度相关的向量，即相关性大于 0.9。
 
不客气
