交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2021.03.15 18:27 #23661

mytarmailS:

长叹一声......忘记了，累了)

384GB内存？

我不需要那么多--64是值得的。

mytarmailS 2021.03.15 19:31 #23662

Aleksey Vyazmikin:

我不需要这么多--它的成本是64。

好吧，让我们看看，我自己还在整理代码，如何最好地做可以优化的东西，我想，我正在尝试各种选择，我不想也白白打扰你，我会记住koroch...

mytarmailS 2021.03.15 19:35 #23663

Aleksey Nikolayev:

一些你非常喜欢的东西事后看起来很讨厌--咖啡、鱼子酱、山葵、摇滚乐等）。

这倒是真的，我一开始也不明白P-KA的一些结构，我以为是胡说八道。

我一开始也在捣鼓p-ka中的一些结构，我认为这是无稽之谈，比如我用循环来写所有的东西，不理解 "apply "家族，但后来发现我可以在可读性和速度上取胜，我可以写6行代码，做1行代码。

Vladimir Perervenko 2021.03.16 17:09 #23664

mytarmailS:

我一开始也不理解p-ka中的一些结构，我认为它是无稽之谈。

我曾经把所有的东西都写在一个循环里，不理解 "应用 "家族，但后来发现，我可以获得更多的可读性和速度，我可以写6行代码，做一个

不仅适用。我经常使用foreach，因为它可以在不改变代码的情况下实现并行化...有时，迭代器是有用的，试试吧

library(coro)
abc <- generate_abc()
loop(for (x in abc) print(x))

祝好运

mytarmailS 2021.03.16 21:03 #23665

Vladimir Perervenko:

不仅适用。我更经常使用foreach，你可以把它并行化，而不需要重做代码。有时，迭代器是有用的，试试吧

祝好运

谢谢你!

mytarmailS 2021.03.17 16:45 #23666

mytarmailS:

谢谢你!

什么是generate_abc？我还是不明白，因为这个例子给出了一个错误

library(coro)
> abc <- generate_abc()
Error in generate_abc() : could not find function "generate_abc"

[删除] 2021.03.18 07:33 #23667

所有这些操作都是在Python中进行的

print([x for x in range(50)])

Aleksey Nikolayev 2021.03.18 08:10 #23668

这一切都始于lisp，并在函数式编程中得到了特别的发展，其元素在R和Python中都可以找到。

Vladimir Perervenko 2021.03.25 10:25 #23669

我偶然读到一篇文章，其中有一句话让我很吃惊：预测因子、反应和残差：什么是真正需要的正态分布？

几句引言。

"许多科学家关心统计分析中变量的正态性或非正态性。人们经常表达、发表或教授以下和类似的观点。

" 如果你想做统计，那么一切都必须是正态分布 。
"我们对数据进行了归一化处理，以符合正态性的假设 。
" 我们将我们的数据转换为日志，因为它有一个高度倾斜的分布" 。
"在我们 拟合模型 后 ，我们测试了残差的同质性 。
" 我们使用了非参数检验，因为我们的数据不符合正态性假设" 。

以此类推。我知道事情比这更复杂，但似乎正态分布仍然是人们想看到的一切，事物的正态分布为干净和令人信服的统计和强大的结果打开了大门。我认识的许多人在分析前都会定期检查他们的数据是否为正态分布，然后他们或者试图将其 "正常化"，例如使用对数转换，或者根据数据的频率分布相应调整统计方法。在这里，我更仔细地探讨了这一点，并表明关于正常性的假设可能比人们想象的要少"。

进一步说明思想和结论的合理性。

"为什么人们仍然将数据正常化？

另一个令人费解的问题是，为什么人们在拟合模型之前仍然倾向于将他们的变量（包括预测者和反应者）"正常化"。为什么这种做法会出现并盛行，即使没有任何假设可以引起这种做法？我对此有几种理论：无知、遵循统计食谱的倾向、错误传播等等。D.
有两种解释似乎更合理：首先，人们对数据进行归一化处理以使关系线性化。例如，可以使用通常的最小二乘法机制，用对数的预测器转换来拟合指数函数。这似乎很正常，但为什么不直接在模型中指定非线性关系（例如使用适当的参考函数）？此外，对数反应转换的做法可能会导致严重的假象，例如在计数数据为零的情况下（O'Hara & Kotze 2010）。
我的同事Catherine Mertes-Schwartz提出了 "正常化 "做法的第二个看似合理的理由：这可能是因为研究人员正试图解决一个问题，而他们的数据收集得非常滑稽和不平衡。换句话说，很多时候，我们所处理的数据是有大量的观测值聚集在梯度的某一部分，而梯度的另一部分相对来说代表性不足。这导致了扭曲的分布。对这样的分布进行转换，可以使观察结果沿梯度分布看似有规律，并消除异常值。这实际上是可以真诚地做到的。然而，这也是根本性的错误。"

对我来说，这种说法是（令人震惊的？），我找不到合适的词来形容它。但我今后会牢记这一点。

Predictors, responses and residuals: What really needs to be normally distributed?

www.r-bloggers.com

[This article was first published on Are you cereal? » R , and kindly contributed to R-bloggers]. (You can report issue about the content on this page here)

Vladimir Perervenko 2021.03.25 10:26 #23670

Maxim Dmitrievsky:

所有这些操作都是在python中进行的。

这不是关于打印，而是关于生成器和迭代器。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2367