交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2023.07.25 17:39 #31561

Maxim Dmitrievsky #:
没有

软件包很好，但首先您需要了解您需要做什么。

关于 Kozuli 方法的聊天回复

有几种方法可用于因果推断。一些最常见的方法包括

随机对照实验：这是一种用于确定复杂环境中因果关系的方法。它涉及对分配机制的完全控制，分配是 ^随机的1。
观察数据：这种方法用于无法进行实验或实验不切实际的情况。它涉及分析从调查或行政 ^记录等自然来源收集的数据 ¹。
工具变量：当存在内生性问题或缺乏 ^数据时，使用这种方法来确定因果关系 ¹。
倾向匹配：这种方法用于比较具有相似特征的群体，以消除 ^混杂因素的影响 ¹。
差异估计 法：这种方法用于分析随时间和 ^组间的变化1。

以上只是用于因果推断的众多方法中的几种。每种方法都有自己的优缺点，选择哪种方法取决于具体情况和可用数据。

谈谈第 1 点

随机对照实验，又称随机对照试验（RCT），是确定因果关系的有力方法。在随机对照试验中，参与者被随机分为两组或多组。一组接受干预（如药物治疗），另一组接受安慰剂或标准治疗。然后，研究人员比较两组之间的结果，以确定结果是否存在差异。

RCT 的主要优点是将参与者随机分配到各组，有助于消除偏差和混杂因素。这意味着组间结果的任何差异都可归因于暴露而非其他因素。

然而，RCT 并不总是可行或实用的。例如，它们可能很昂贵，需要大量的时间和资源，或者在道德上无法接受。在这种情况下，研究人员可以使用其他方法进行因果推断。

======================================

你在做这个吗？从外观上看，它是一种phyche selectaboruta 。

Aleksey Nikolayev 2023.07.25 17:40 #31562

Maxim Dmitrievsky #:

你可以自己去看看，我开发了一个有点像 Kozul 的主题，这样你就不会觉得无聊了。

很明显，你对 "tritment "的概念进行了重新诠释，而且超载了（在编程意义上）。本来，它是一个简单明了得多的东西。这样一个扩展的概念难道不会导致过度学习吗？从这个意义上说，更多的灵活性总是会导致过度学习。

[删除] 2023.07.25 17:43 #31563

Aleksey Nikolayev #:

很明显，你对三元组的概念进行了重新解释，并且超载了（在编程意义上）。最初，它是一个简单明了得多的东西。这样一个扩展的概念会不会导致过度学习？从这个意义上说，更多的灵活性总是会导致过度学习。

我不知道，我吃麦当劳:)也许吧。我只是从各个角度浏览了一下所提供的材料。

[删除] 2023.07.25 17:46 #31564

mytarmailS #:

套餐虽好，但你必须先知道自己在做什么。

关于 Kozuli 方法的聊天回复

有几种方法可用于因果推断。其中最常见的方法包括

随机对照实验：这是一种用于确定复杂环境中因果关系的方法。它涉及对分配机制的完全控制，分配是 ^随机的1。
观察数据：这种方法用于无法进行实验或实验不切实际的情况。它涉及分析从调查或行政 ^记录等自然来源收集的数据 ¹。
工具变量：当存在内生性问题或缺乏 ^数据时，使用这种方法来确定因果关系 ¹。
倾向匹配：这种方法用于比较具有相似特征的群体，以消除 ^混杂因素的影响 ¹。
差异估计 法：这种方法用于分析随时间和 ^组间的变化1。

以上只是用于因果推断的众多方法中的几种。每种方法都有自己的优缺点，选择哪种方法取决于具体情况和可用数据。

说说第 1 点

随机对照实验，又称随机对照试验（RCT），是确定因果关系的有力方法。在随机对照试验中，参与者被随机分为两组或多组。一组接受干预（如药物治疗），另一组接受安慰剂或标准治疗。然后，研究人员比较两组之间的结果，以确定结果是否存在差异。

RCT 的主要优点是将参与者随机分配到各组，有助于消除偏差和混杂因素。这意味着组间结果的任何差异都可归因于暴露而非其他因素。

然而，RCT 并不总是可行或实用的。例如，它们可能很昂贵，需要大量的时间和资源，或者在道德上无法接受。在这种情况下，研究人员可以使用其他方法进行因果推断。

======================================

你在做这个吗？从外观上看，它是一种phyche selectaboruta 。

关于元学习和正交学习，书上都有。还有交叉拟合。

mytarmailS 2023.07.25 17:52 #31565

Maxim Dmitrievsky #:
关于元学习，请询问正交学习，毕竟书中有介绍

元学习（meta-learning）是一种机器学习方法，它允许算法根据以往经验快速适应新任务。在因果推理中，元学习 可用于重复使用预测模型进行因果 ^推理1。

所有预测模型，如线性回归、提升决策树、神经网络或高斯过程，都可以通过本章介绍的方法用于因果推理。因此，元学习的成功与否取决于所使用的预测模型的质量以及它们适应因果推理 ^{任务的程度1}。

这是一个相当新且正在积极发展的研究领域，在因果推理方面有许多不同的元学习方法。

========================

正交学习是一种用于改进因果推理的机器学习方法。正交学习的一个例子是 Chernozhukov 等人提出的双重机器学习（DoubleMachine Learning）。¹.这种方法采用两阶段估计法，首先利用包括 ^Lasso2 在内的复杂机器学习算法对高维混杂因素的影响进行正交化处理。

正交学习也用于其他因果推断方法，如正交随机 ^森林1。该算法将双机器学习与广义随机森林相结合，利用随机森林对条件矩模型进行统计估计。

一般来说，正交学习可以消除混杂因素的影响，降低参数估计误差的敏感性，从而提高因果推断的准确性和稳健性。

СанСаныч Фоменко 2023.07.25 18:00 #31566

Aleksey Nikolayev #:

很明显，你对三元组的概念进行了重新解释，并且超载了（在编程意义上）。最初，它是一个简单明了得多的东西。 这样一个扩展的概念会不会导致过度学习？ 从这个意义上说，更多的灵活性总是会导致过度学习。

马克西姆在上面写道--它对 OOS 不起作用，而 OOS 是模型过度训练的一个主要标志。

根据我的理解，OOS 的意思是建立一个模型，并试图对其结果进行改进，以减少误差。

但 OOS 的误差来源是数据本身，当相同的预测值在不同情况下预测出不同的类别时。预测器的这种缺陷是任何数学练习都无法弥补的，你无法修复垃圾，但在垃圾上你可以得到非常小的训练误差，因为算法会找到 "方便 "的数据并显示出好的结果。但在新数据上，结果就很糟糕了，因为它有自己的垃圾。

同时，我们还可以从以下方面来看待使用 cajual 的问题。

假设我们有一些预测因子，其中 50%的值可以预测其中一类，另外 50%可以随机预测任何一类。

我们拟合模型并得到分类误差。

现在的问题是：这个分类误差与预测值的划分是否一致？如果可以改进，那就是符合；如果不能改进，那就绝不是不符合，因为我们会得到过度拟合的模型。

mytarmailS 2023.07.25 18:04 #31567

Maxim Dmitrievsky #:
是的，你可以把 "tritment "变量从列表中删除，然后制作一个没有它的增强器。有了它我就做不了了。为了得到无偏估计值，你需要进行交叉拟合。 .

我也是这么定义的，所以不用担心:)

这不是术语的问题，而是它是什么以及如何应用的问题...

双重机器学习是一种用于评估数据中因果关系的技术

1) 估算什么？

2) 好吧，我已经估算出来了，然后呢？

[删除] 2023.07.25 18:16 #31568

mytarmailS #:

这不是术语的问题，而是它是什么以及如何应用的问题。

双重机器学习是一种用于评估数据中因果关系的技术

1) 评估什么？

2) 好吧，你已经估算出来了，然后呢？

接下来，你可以转换目标并获得权重，我已经写过了。它们将是无偏的。关于无偏估算的大部分 kozuli。

[删除] 2023.07.25 18:20 #31569

结果就像大象和智者的故事一样。书里什么都有，他们需要用手指在论坛上进行复述，才能意识到这是一头大象。

Aleksey Vyazmikin 2023.07.25 18:27 #31570

Aleksey Nikolayev #:

在文章的第 10 页，有一个伪代码形式的实现方法。在倒数第二页的附录中，提到了 R 语言的实现和文章中使用的数据。

伪代码指的是公式：)

至于 R 代码--谢谢--错过了。我是否认为有函数代码，但代码本身，例如从文件中读取，是注释出来的？

# --- Read in data --- 

# > arson = read.csv("arson.csv")
# > i = with(arson, day <= 731)
# > arson1 = arson[i,]
# > arson2 = arson[!i,]
# > arson2[,"day"] = arson2[,"day"] - 731

我还没想出如何让它工作。你成功了吗？

Aleksey Nikolayev#:

一般来说，你们如何在 mql5 中实现决策树？通过数组还是模板？

我以前没有在 MQL5 中实现过树的构建--Forester 在这方面有更多经验。

不过，我认为除了数组之外，我还会使用向量和矩阵--使用它们代码会更快。另外，据我所知，由于需要完整的枚举，因此可以使用 OpenCL。

但我不知道在这种情况下 "模板 "是什么：(

既然有 R 语言的代码，那么一开始就了解这些代码是否有意义也是合理的。

文章中的样本使用的预测因子数量很少，而我使用的预测因子数量要多出一个数量级，当然单个预测因子的信息量也较少。

总的来说，我感兴趣的不仅仅是用它来比较两个样本，而是用它来检测数据中的异常情况--我认为这是一种方法。

我们的想法是，我们有一组叶子，即使它们很相似，如果我们发现某个预测因子的行为异常，我们只需禁用所有使用该预测因子的叶子，同时检查与该组叶子的相关性。理想情况下，如果能及时发现，这将允许模型继续运行，尽管可信度较低。

交易中的机器学习：理论、模型、实践和算法交易 - 页 3157