交易中的机器学习:理论、模型、实践和算法交易 - 页 2215

 

回到CatBoost模型的可视化问题上,以便分析其视角。

这就是模型在训练样本上的样子。

x轴是logistic函数的概率值,y轴是在0.05值的区间内的百分比。

- Razdel(蓝色)--样本中的所有数值。

- 目标=1(磁铁)--目标1的值

- 目标=0(水)-目标值为0

- Balans+(浅蓝色)--与所有利润和亏损相比,导致利润的财务结果,该值按比例调整,以适应图表的要求

- Balans-(砖头) - 导致关于所有利润和损失的财务结果,该值按比例调整以 适应图表。

- 圆圈--这是按比例的平衡值--我们关注的是来自X坐标零值的零值--为说明问题而做。

垂直水线 - 最大值 目标=0

磁铁垂直线 - 最大目标=1值

红色的垂直线--在CatBoost中分类的条件划分为0.5,默认为0--为了清晰起见。

我认为,水蓝色和磁铁色的线与红色垂直线的距离越远,模型在分离类别方面就越有信心。同样值得观察的是平衡线,在训练过程中,它们也是两边间隔的--这与模型特别相关,因为利润和损失可能有不同的值,所以,例如,一个模型可能很好地过滤小的损失,但在大的损失上却输了,尽管根据分类准确值将超过0.5。

我们进一步看一下测试样本

我们可以看到,垂直线--红色和磁铁矿--已经变得更近了,但它们的相对位置没有改变,这已经很好了(恰好磁铁矿在<0.5的区域)。平衡线已经移到了一起,这是令人失望的。在0.5的概率之后有一个损失区,这表明模型的质量不足。

进一步说,我们可以看一下测试样本的结果。

在右边(概率超过0.5),情况看起来比测试样本好,这可能表明测试样本是一个罕见的情况,在训练中类似的例子很少,或者模型没有被完全训练。赞成后一种假设的事实是,有些区域的平衡线Balans+(表示积极的财务结果)与平衡 线Balans-相交,这在观察表示某一概率区盈亏之间的三角洲的圆圈时也可以看到,在概率 小于0.5。

好吧,让我们看看考试样本上的余额。

你可以清楚地看到,市场的特征已经发生了变化,这可以在图表的2/3处看到 - 我们应该继续研究这个模型。

而这里是一个明显不好的模型的例子

在测试样本上,人们已经可以看到整个身体向左边部分的强烈移动,也就是说,模型对样本的了解非常少--完整性很低,目标1积累的峰值在概率的左边部分后面。值得注意的是,在学习上仍有收获。

让我们来看看测试和检查样本

在测试样本上,我们已经可以看到,所有在概率0.5以外的线都是非常强的连接,在测试样本上,我们可以观察到平衡线是如何互换位置的。

[删除]  
mytarmailS:


基本上我有一个空的网络 (我只训练它,以便它能被初始化,因为它不是自己写的,而是来自一个包)。


我可以想到任何抽象概念,任何目标,并写一个健身函数。

然后 让遗传学 开始改变网的权重,以便在训练和测试中我 (网) 收到与我的目标相似的东西。


而这比创建标签和拟合回归或分类要深刻一千倍"。

你回到了2年前,当时我们谴责用MT5优化器训练神经元。

而我在写这样的机器人。这是一个带有一堆参数的普通优化。

看看吧。

https://www.mql5.com/ru/articles/497

Нейронные сети - от теории к практике
Нейронные сети - от теории к практике
  • www.mql5.com
В наше время, наверное, каждый трейдер слышал о нейронных сетях и знает, как это круто. В представлении большинства те, которые в них разбираются, это какие-то чуть ли не сверхчеловеки. В этой статье я постараюсь рассказать, как устроена нейросеть, что с ней можно делать и покажу практические примеры её использования. Понятие о нейронных сетях...
 
Maxim Dmitrievsky:

你回到了两年前,当时有人谴责通过MT5优化器进行的神经元训练。

而我在写这样的机器人。这是一个有很多参数的常见优化。

读下去。

https://www.mql5.com/ru/articles/497

我试过用最大的利润,我可以用别的东西来训练它。


听着,如果你不是太懒,试着在最大利润上训练catbust,我不确定它在那里是如何工作的。

你必须同时提供X-数据和Y-目标。

也许所有这些 "定制 "都只是对现有功能的外观修改。

 
Aleksey Vyazmikin:

回到CatBoost模型的可视化问题上,以分析其视角。

我认为在博客上发布这样的大型研究,在这里发布一份比较好。六个月后,你不会在这里找到它...
 
elibrarius:
我认为像这样的大型研究应该写成博客并复制到这里。6个月后,你将无法在这里找到它......

也许--我只是不使用博客,所以我没有想到。

我在想,我可以把图形中的所有这些点(每条曲线20个)放到一个样本中,并尝试学习--也许这样我们可以以更高的概率识别具有潜在稳定性的模型。

 
Aleksey Vyazmikin:

也许--我只是不使用博客,所以我没有想到这一点。

我在想,我可以把图形中的所有这些点(每条曲线20个)放到一个样本中,并尝试学习--也许这样我们就能以较高的概率识别出具有潜在稳定性的模型。

目标是什么?如何标记每个例子?还是通过自学?
 
elibrarius:
目标会是什么?如何给每个例子做标记?还是通过自学?

目标将是考试样本上的模型的财务结果。

[删除]  
mytarmailS:

我只是想获得最大的利润,我可以为其他事情进行训练。


听着,如果你不是太懒,试着在最大利润上训练卡特布斯,我不确定它在那里是否有效

你必须同时提供X-数据和Y-目标。

也许所有这些 "定制 "都只是对现有功能的外观改变。

懒得写新的指标......而且肯定不会是最大利润,而是更有意义的东西

例如,Lyapunov稳定性)。

 
Maxim Dmitrievsky:

懒得写新的指标了......而且到时候肯定不是最大利润,而是更有意义的东西。

就像李亚普诺夫的稳定性一样)))。

你不需要一个平整的场地,也不需要密度))。在我们的业务中,这很罕见。

[删除]  
Aleksey Vyazmikin:

回到CatBoost模型的可视化问题上,以便分析其视角。

是的,分布图通常显示一切。你可以只做这些标志,没有任何提升,并立即看到