交易中的机器学习:理论、模型、实践和算法交易 - 页 1614 1...160716081609161016111612161316141615161616171618161916201621...3399 新评论 Aleksey Vyazmikin 2020.03.17 07:01 #16131 阿列克谢-尼古拉耶夫。 例如,如果所有的策略都只做BUY,那么就可能归结为尽量减少它们在时间上的交集(尽量减少相关关系,这总是正的)。如果允许 "买入 "和 "卖出",时间交叉可以用来相互补偿策略的不良部分(负相关通常对投资组合有利)。 我想,可以简单地通过策略的时间和它们重叠的时间来确定相关性。 一般来说,我同意对不同方向的信号进行相互补偿,但在我的情况下,我需要应用不同的策略,并为每个策略做一个标记--这是另一首歌曲,但我也打算应用它。 但要找到类似的策略,以便从一组中选择它们或划分它们的风险(手数),我们不仅要考虑进入和退出时间,还要考虑进入方向。我应该考虑如何做得更好。 Forester 2020.03.17 07:48 #16132 阿列克谢-维亚兹米 金。 你说它做得很完美是什么意思?我不是手动做的,我写了一个脚本,按照我现在看到的方式做。 在我的情况下,理想的做法是对每个预测值的变体进行单独评估。而且,我想把放大一个目标的预测器的激活范围合并到一个预测器中,我知道的网格不会通过依次划分范围来做到这一点,类似于把排位中的预测器合并到疏散(通过建立一个节点)与另一个预测器。到目前为止,在理论上。 什么样的分区网格会将范围聚集在一个单一的分割中,消除中间值,如下图中的值1和4? 完美--在根据分割估计函数完全准确的意义上。它将评估数以千计的选项并记住最好的一个,它将成为一个节点。 训练24个标准森林/boosts是最容易的,每个人都要喂养相应时间的预测器。 Aleksey Vyazmikin 2020.03.17 08:03 #16133 elibrarius: 完美--在根据分割评估功能完全准确的意义上。它评估数以千计的选择,并记住最好的一个,这成为节点。 这显然是根据算法的,但哪种算法是正确的?只有在CatBoost 中,才有3种构建网格的算法。 elibrarius: 最简单的方法是训练24个标准森林/鸨母,每个人都喂养适当小时的预测器。 这将使样本减少大约24倍(而我的样本已经很小了),然后,观察建树的贪婪原则(并不总是正确的,正如我在分裂树的实验中发现的那样),我们将只选择那些预测者进行分支树,而这些预测者恰恰在某一特定时间内统计上具有最佳概率。但在我看来,我们应该找到预测因子并将其放入树中,即那些独立于其他条件性在整个样本中提供优势的预测因子,然后我们将得到的不是对一天中某个具体小时的拟合(从条件上更精确地描述一个事件的激活),而是一个独立概率在一片叶子中的积累。 mytarmailS 2020.03.17 08:08 #16134 阿列克谢-维亚兹米 金。 这是一个检查预测值范围的预测能力的算法,并试图分割范围内的部分,使其更好地突出预测能力。假设有一个有3个目标的样本,样本分布为1-24%,2-50%,3-26%,有一些预测值的范围,所以网格的目标是找到预测值的区域,例如目标1将被 "预测 "超过24%,分割将突出这个区域。有不同的算法变体来构建这种网格。 有趣的想法,但这样做不是更容易吗...? p.1)我们有某种机器学习算法。医学 p.2)有一个样本,被分为火车和测试。 第3页)有一个价格是根据某种原则(时间、图形模式、全部在一起、其他......)聚集起来的(它可能被认为是一个市场情况或只是一个集群) pp.应该有很多或非常多的群组 行动的算法 : 1)在托盘上教授MO 2)使用半预测模型预测测试。 3) 在测试中,我们确定那些模型预测无误的点,我们称它们为XT(好点)。 4) 每个ht对应于上面第3步中的一个集群... 就这样,现在我们知道了该模型在市场的哪些群组(状态)中善于交易。集群(状态)就像你的网格的类似物,也就是说,我们试图通过集群(状态)来决定什么可以预测,什么不可以预测... 但这两种方法都有概念上的问题,应该首先解决。问题甚至不在于方法,而在于信息的呈现方式。 Aleksey Vyazmikin 2020.03.17 08:49 #16135 mytarmailS: 第3页)有一个价格根据某种原则(时间、图形模式、所有的一起,其他的......)聚集在一起(它可以被认为是一个市场条件或只是一个集群)。pp.应该有很多或非常多的群组 这里我不明白,你是建议把目标加价点的裸价拿出来,然后把它们聚在一起还是什么? mytarmailS: 3) 在测试过程中,我们确定那些模型预测无误的点,让我们称它们为HT(好点)。4) 每个ht对应于上面第3步中的一个集群...就这样,现在我们知道了该模型在市场的哪些群组(状态)中善于交易。集群(状态)就像你的网格的类似物,也就是说,我们试图用集群来划分我们能预测的和不能预测的东西。 这个想法很有趣,但它的原理与我的建议无关,或者说我没有完全理解它。我们发现,该模型激活了一定比例的集群,然后该如何处理?我明白,我们必须看哪片叶子(如果我们谈论的是一棵树)激活了多少个集群,如果叶子激活一个集群的频率高得多,它只会说它已经学会了识别它。这里可能是很大比例的叶子在不同的簇上均匀 正确地激活,这显然表明是随机的。同样,你必须确定聚类算法 - 确保结果是独特的聚类,而不是许多相似的聚类... Forester 2020.03.17 08:50 #16136 阿列克谢-维亚兹米 金。 这显然是根据算法的,但哪种算法是正确的?只有CatBoost有3种算法来构建网格。 这将使样本减少大约24倍(而我的样本已经很小了),然后,遵守贪婪建树的原则(这并不总是真的,从我的分树实验中发现),我们将只选择那些预测者进行分树,这是在特定的小时统计学上有最好的概率,但我认为我们需要找到标志并把它们放在树上,那些,不管其他条件给整个样本的优势,那么你得到的不是一天中特定小时的调整(条件)。 你在哪里减少样本有什么区别?在外面,通过制作24个森林,还是在里面,例如通过添加以小时分隔的前24个节点?从这24个节点中,每个剩余的分支将占用1/24的样本。 Forester 2020.03.17 09:12 #16137 顺便说一下,我不喜欢升压的地方是,推荐的树深是7-10。 也就是说,如果我们有100个预测器,而且划分从每个预测器的中间开始。我们很可能会有7个不同的预测者被分在中间。也许1或2个会分到四分之一,不太可能更小。 或者在提升算法中,算法不是通过半除法工作,而是以较小的块数工作?有谁知道吗? 而谁使用什么树的深度? Aleksey Vyazmikin 2020.03.17 09:12 #16138 elibrarius: 你在哪里减少采样有什么区别?在外面,通过制作24个森林,还是在里面,例如通过增加前24个节点的分时钟?从这24个节点中,每个剩余的分支将占用1/24的样本。 这不是关于减少,而是关于预测者行为对分裂外的样本的统计--这应该减少选择预测者价值的随机性。 顺便问一下,AlgLib是在每次分割时都做网格,还是只做一次,然后使用该网格?据我所知,CatBoost 的开发者声称,网格是由他们完成一次的。 mytarmailS 2020.03.17 09:16 #16139 阿列克谢-维亚兹米 金。 我不明白,你是建议采取目标加价点的裸价,并将其分组还是什么? 目标是你的,任何目标......我有点纠结 .... 你只需要为一个目标提供集群。 在这里,我们发现测试新的HT,并接受它们是好的...。 现在,在新的数据上,我们需要找到这个TX来应用模型,因为模型只在TX上运行良好,而我们如何在新的数据上识别它呢? 作为一个选项,由群集号来识别 Aleksey Nikolayev 2020.03.17 09:18 #16140 Aleksey Vyazmikin: 一般来说,我同意不同方向信号的相互补偿,但在我的情况下,我需要使用不同的策略,并为每个策略做一个标记 - 这是另一首歌曲,但我也打算使用它。但要找到类似的策略,以便从一组中选择它们或划分它们的风险(手数),我们不仅要考虑进入和退出时间,还要考虑进入方向。我必须思考如何做得更好。 我将把这个想法带到它的逻辑结论。假设我们在一个资产上有一套系统。每个系统在入市时都保持固定量的位置,但方向可以变化。策略的回报和波动率是已知的。让我们用公式(t1-t2)/sqrt(T1*T2)来定义策略之间的相关性,其中T1和T2是它们在市场上的时间长度,t1和t2是这些策略同时在市场上并分别指向相同和相反方向的时间长度。这是在价格接近SB的假设下得出的一个简化公式。现在有了所有的数据,可以应用马科维茨理论 来寻找最佳投资组合。 显然,用这种方式我们不会得到任何有意义的投资组合(至少因为只使用了一种资产)。我们需要进行一些修改。 1)改变优化算法(参数限制、惩罚)。澄清战略之间的关联性的定义。 2)在创建战略的时候就已经对投资组合进行优化。也就是说,根据投资组合的最优性条件来寻找对它们的策略。目前还不太清楚如何以一种实际适用的方式将其正式化,但这种方法在总体上似乎更符合逻辑。虽然,正如你已经写的那样,这将需要重写算法,等等。不知道这是否值得麻烦。 1...160716081609161016111612161316141615161616171618161916201621...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
例如,如果所有的策略都只做BUY,那么就可能归结为尽量减少它们在时间上的交集(尽量减少相关关系,这总是正的)。如果允许 "买入 "和 "卖出",时间交叉可以用来相互补偿策略的不良部分(负相关通常对投资组合有利)。
我想,可以简单地通过策略的时间和它们重叠的时间来确定相关性。
一般来说,我同意对不同方向的信号进行相互补偿,但在我的情况下,我需要应用不同的策略,并为每个策略做一个标记--这是另一首歌曲,但我也打算应用它。
但要找到类似的策略,以便从一组中选择它们或划分它们的风险(手数),我们不仅要考虑进入和退出时间,还要考虑进入方向。我应该考虑如何做得更好。
你说它做得很完美是什么意思?我不是手动做的,我写了一个脚本,按照我现在看到的方式做。
在我的情况下,理想的做法是对每个预测值的变体进行单独评估。而且,我想把放大一个目标的预测器的激活范围合并到一个预测器中,我知道的网格不会通过依次划分范围来做到这一点,类似于把排位中的预测器合并到疏散(通过建立一个节点)与另一个预测器。到目前为止,在理论上。
什么样的分区网格会将范围聚集在一个单一的分割中,消除中间值,如下图中的值1和4?
完美--在根据分割估计函数完全准确的意义上。它将评估数以千计的选项并记住最好的一个,它将成为一个节点。
训练24个标准森林/boosts是最容易的,每个人都要喂养相应时间的预测器。
完美--在根据分割评估功能完全准确的意义上。它评估数以千计的选择,并记住最好的一个,这成为节点。
这显然是根据算法的,但哪种算法是正确的?只有在CatBoost 中,才有3种构建网格的算法。
最简单的方法是训练24个标准森林/鸨母,每个人都喂养适当小时的预测器。
这将使样本减少大约24倍(而我的样本已经很小了),然后,观察建树的贪婪原则(并不总是正确的,正如我在分裂树的实验中发现的那样),我们将只选择那些预测者进行分支树,而这些预测者恰恰在某一特定时间内统计上具有最佳概率。但在我看来,我们应该找到预测因子并将其放入树中,即那些独立于其他条件性在整个样本中提供优势的预测因子,然后我们将得到的不是对一天中某个具体小时的拟合(从条件上更精确地描述一个事件的激活),而是一个独立概率在一片叶子中的积累。
这是一个检查预测值范围的预测能力的算法,并试图分割范围内的部分,使其更好地突出预测能力。假设有一个有3个目标的样本,样本分布为1-24%,2-50%,3-26%,有一些预测值的范围,所以网格的目标是找到预测值的区域,例如目标1将被 "预测 "超过24%,分割将突出这个区域。有不同的算法变体来构建这种网格。
有趣的想法,但这样做不是更容易吗...?
p.1)我们有某种机器学习算法。医学
p.2)有一个样本,被分为火车和测试。
第3页)有一个价格是根据某种原则(时间、图形模式、全部在一起、其他......)聚集起来的(它可能被认为是一个市场情况或只是一个集群)
pp.应该有很多或非常多的群组
行动的算法 :
1)在托盘上教授MO
2)使用半预测模型预测测试。
3) 在测试中,我们确定那些模型预测无误的点,我们称它们为XT(好点)。
4) 每个ht对应于上面第3步中的一个集群...
就这样,现在我们知道了该模型在市场的哪些群组(状态)中善于交易。集群(状态)就像你的网格的类似物,也就是说,我们试图通过集群(状态)来决定什么可以预测,什么不可以预测...
但这两种方法都有概念上的问题,应该首先解决。问题甚至不在于方法,而在于信息的呈现方式。
第3页)有一个价格根据某种原则(时间、图形模式、所有的一起,其他的......)聚集在一起(它可以被认为是一个市场条件或只是一个集群)。
pp.应该有很多或非常多的群组
这里我不明白,你是建议把目标加价点的裸价拿出来,然后把它们聚在一起还是什么?
3) 在测试过程中,我们确定那些模型预测无误的点,让我们称它们为HT(好点)。
4) 每个ht对应于上面第3步中的一个集群...
就这样,现在我们知道了该模型在市场的哪些群组(状态)中善于交易。集群(状态)就像你的网格的类似物,也就是说,我们试图用集群来划分我们能预测的和不能预测的东西。
这个想法很有趣,但它的原理与我的建议无关,或者说我没有完全理解它。我们发现,该模型激活了一定比例的集群,然后该如何处理?我明白,我们必须看哪片叶子(如果我们谈论的是一棵树)激活了多少个集群,如果叶子激活一个集群的频率高得多,它只会说它已经学会了识别它。这里可能是很大比例的叶子在不同的簇上均匀 正确地激活,这显然表明是随机的。同样,你必须确定聚类算法 - 确保结果是独特的聚类,而不是许多相似的聚类...
这显然是根据算法的,但哪种算法是正确的?只有CatBoost有3种算法来构建网格。
这将使样本减少大约24倍(而我的样本已经很小了),然后,遵守贪婪建树的原则(这并不总是真的,从我的分树实验中发现),我们将只选择那些预测者进行分树,这是在特定的小时统计学上有最好的概率,但我认为我们需要找到标志并把它们放在树上,那些,不管其他条件给整个样本的优势,那么你得到的不是一天中特定小时的调整(条件)。
你在哪里减少样本有什么区别?在外面,通过制作24个森林,还是在里面,例如通过添加以小时分隔的前24个节点?从这24个节点中,每个剩余的分支将占用1/24的样本。
也就是说,如果我们有100个预测器,而且划分从每个预测器的中间开始。我们很可能会有7个不同的预测者被分在中间。也许1或2个会分到四分之一,不太可能更小。
或者在提升算法中,算法不是通过半除法工作,而是以较小的块数工作?有谁知道吗?
而谁使用什么树的深度?
你在哪里减少采样有什么区别?在外面,通过制作24个森林,还是在里面,例如通过增加前24个节点的分时钟?从这24个节点中,每个剩余的分支将占用1/24的样本。
这不是关于减少,而是关于预测者行为对分裂外的样本的统计--这应该减少选择预测者价值的随机性。
顺便问一下,AlgLib是在每次分割时都做网格,还是只做一次,然后使用该网格?据我所知,CatBoost 的开发者声称,网格是由他们完成一次的。
我不明白,你是建议采取目标加价点的裸价,并将其分组还是什么?
目标是你的,任何目标......我有点纠结 ....
你只需要为一个目标提供集群。
在这里,我们发现测试新的HT,并接受它们是好的...。
现在,在新的数据上,我们需要找到这个TX来应用模型,因为模型只在TX上运行良好,而我们如何在新的数据上识别它呢? 作为一个选项,由群集号来识别
一般来说,我同意不同方向信号的相互补偿,但在我的情况下,我需要使用不同的策略,并为每个策略做一个标记 - 这是另一首歌曲,但我也打算使用它。
但要找到类似的策略,以便从一组中选择它们或划分它们的风险(手数),我们不仅要考虑进入和退出时间,还要考虑进入方向。我必须思考如何做得更好。
我将把这个想法带到它的逻辑结论。假设我们在一个资产上有一套系统。每个系统在入市时都保持固定量的位置,但方向可以变化。策略的回报和波动率是已知的。让我们用公式(t1-t2)/sqrt(T1*T2)来定义策略之间的相关性,其中T1和T2是它们在市场上的时间长度,t1和t2是这些策略同时在市场上并分别指向相同和相反方向的时间长度。这是在价格接近SB的假设下得出的一个简化公式。现在有了所有的数据,可以应用马科维茨理论 来寻找最佳投资组合。
显然,用这种方式我们不会得到任何有意义的投资组合(至少因为只使用了一种资产)。我们需要进行一些修改。
1)改变优化算法(参数限制、惩罚)。澄清战略之间的关联性的定义。
2)在创建战略的时候就已经对投资组合进行优化。也就是说,根据投资组合的最优性条件来寻找对它们的策略。目前还不太清楚如何以一种实际适用的方式将其正式化,但这种方法在总体上似乎更符合逻辑。虽然,正如你已经写的那样,这将需要重写算法,等等。不知道这是否值得麻烦。