混乱中有规律可循吗?让我们试着找出它!以特定样本为例进行机器学习。 - 页 12

 
elibrarius #:

您是根据测试中最好的型号来选择这些型号的吗?

还是在众多最佳模型中选择考试最佳模型?

具体来说,就是单纯地根据考试中的最佳成绩进行选择。

 
Aleksey Vyazmikin #:

具体来说,就是通过考试中的佼佼者进行选拔。

我在考试中也表现得最好。在进入真正的交易之前不会有考试。或者说,这将是真金白银....。

现在,我通过向前漫步(10000 到 5000 和一个像您一样的托盘和一个测试)来选择标志,在考试中,这两个标志合并了。

有必要在考试中以某种方式进行选择,以便在考试中保持可学性。

 
elibrarius #:

我在考试中也展示了最好的一个。在进入真正的交易之前,不会有考试。或者说,这将是为了真金白银....。

现在,我通过 valking forward(10000 到 5000 和一个像你一样的托盘和一个测试)选择了一个标志,在考试中两者合并。

有必要在考试中以某种方式进行选择,以便在考试中保持可学性。

遗憾的是,目前您只能提高正确选择的概率。这就是为什么我正在考虑批量交易,即同时选择许多模型,希望平均准确率足够高,这样我就能获得平均利润。

 
有必要从成千上万的特征中找出有效的特征,然后了解它们为什么有效。然后,你需要对它们编写不同的 TC,而不是通过蛮干,而是通过选择最佳超参数。
否则,当你必须根据考试从数百个模型中进行选择时,结果仍然是拟合。
最重要的是理解这些特征为什么有效,至少是大致有效。然后再加以改进,或给它们贴标签。

堆砌一堆不清晰的模型也不是个好主意。因为你必须重新训练一堆未知的东西。

你需要通过粗暴的特征选择来选出好的特征,然后思考它们为什么能起作用。这样,下一步该怎么走就会很清楚了。对于 TC 准备工作来说,Bruteforce 本身是无效的,它应该被视为一种探索。
 
Maxim Dmitrievsky #:
有必要从成千上万的特征中找出有效的特征,然后了解它们为什么有效。然后,你需要对它们编写不同的 TC,而不是通过蛮干,而是通过选择最佳超参数。
否则,当你必须根据考试从数百个模型中进行选择时,结果仍然是拟合。
最重要的是理解这些特征为什么有效,至少是大致有效。然后再加以改进,或给它们贴标签。

堆砌一堆不清晰的模型也不是个好主意。因为你必须重新训练一堆未知的东西。

你需要通过粗暴的特征选择来选出好的特征,然后思考它们为什么能起作用。这样,下一步该怎么走就会很清楚了。对于 TC 准备工作来说,Bruteforce 本身是无效的,它应该被视为一种探索。
我同意。可以从不同的角度来理解这个过程)
 
Maxim Dmitrievsky #:
有必要从成千上万个特征中找出有效的特征,然后了解它们为何有效。然后,你需要对它们编写不同的 TC,而不是通过蛮干,而是通过选择最佳超参数。
否则,当你根据考试从数百个模型中进行选择时,结果仍然是拟合。
最重要的是了解这些特征为什么有效,至少是大致有效。然后就可以改进它们,或者改进它们的标签。

打包一堆晦涩难懂的模型也不是个好主意。因为这样一来,你又得重新训练一堆未知的东西。

你需要通过粗暴的特征选择来选出好的模型,然后静下心来思考它们为什么有效。然后,下一步该怎么走就会变得很清楚了。对于 TC 准备工作来说,Bruteforce 本身是无效的,它应该被视为一种探索。

问题的关键在于,了解预测器有效的原因是一项极其艰巨的任务,属于市场行为解释领域,或者您有更可靠的方法?此外,预测器之所以能群策群力,是因为它们是基元,而如何将群策群力的预测器集合在一起,这并不是一个简单的问题,如果是小问题的话--到目前为止,显而易见的是使用决策树。而要建立有效的决策树,就需要大幅减少样本,最好只输入那些可能形成有效关系的预测因子。在这里,模型搜索方法非常有用,因为模型通常只使用部分预测因子。

拟合与否--我认为所有概率拟合行为都是拟合。另外,这些概率在预测因子上的分布历史可能会重复出现,也可能在很长一段时间内被遗忘。在这里,重要的是要有某种方法来确定这些阶段的过渡。

 
Aleksey Vyazmikin #:

使用 CatBoost 进行开箱即用的训练 时,按照下面的设置--使用 "种子蛮力"--可以得到这样的概率分布。

1.火车采样

2.测试选择

3.考试样本

正如您所看到的,模型倾向于将所有几乎所有的东西都归为零--这样犯错的机会就少了。

阿列克谢,训练本质上就是拟合,不是吗?

 
Renat Akhtyamov #:

阿列克谢,训练本质上就是试穿,不是吗?

本质上是的。

测试仪中的优化是关于改变算法运行的指标,而 MO 方法(树及其变体、NS)中的学习是关于通过评估和解释指标的历史来改变算法。

共生,将是史诗.....。

 
Renat Akhtyamov #:

阿列克谢,训练本质上就是试穿,不是吗?

给学生上课也是让他们的知识与现有知识相适应)。

 
Aleksey Vyazmikin #:

这就是问题的关键所在,理解预测器表现的原因是一项极其困难的任务,而且属于解释市场行为的范畴,或者你有更稳健的方法?此外,预测因子是以组为单位工作的,因为它们是基元,而如何将以组为单位工作的预测因子组合在一起,这并不是一个简单的问题,如果它是一个小问题的话--到目前为止,显而易见的是使用决策树。而要建立有效的决策树,就需要大幅减少样本,最好只输入那些可能形成有效关系的预测因子。在这里,模型搜索方法非常有用,因为该模型通常只使用部分预测因子。

拟合与否--我认为所有概率拟合行为都是拟合。另外,这些概率在预测因子上的分布历史可能会重复出现,也可能在很长一段时间内被遗忘。在这里,重要的是要有某种方法来确定这些阶段的过渡。

在训练过程中,应采用 5 到 10 人的小组。

最好是 1-3 人。

如果它们都不产生任何结果,还谈什么它们之间的神秘联系呢?