交易中的机器学习:理论、模型、实践和算法交易 - 页 2944

 
Aleksey Vyazmikin #:

很难说:)数学计算可参见本视频

不,它是空白的。我忘了说这是关于弹跳的。

 
Stanislav Korotky #:

请解释下面的公式是如何在树分类算法中得到的(可以链接到 PDF):


在我能从网上找到的所有资料中,这个公式都是神奇地 "从天花板上取下来的"。

如果按类总结,分母就是基尼指数或节点纯度。它越小越好。分子是工作表中的行数。

该标准越大越好--类别分离得更干净,但不会对工作表造成过多的切分。

选择基尼指数似乎是因为它比分类错误率更敏感。

 
Aleksey Nikolayev #:

如果按等级汇总,分母就是基尼指数或节点纯度。它越小越好。分子是工作表中的行数。

该标准越大越好--类别分离得更干净,但不会过度撕碎纸张。

选择基尼指数似乎是因为它比分类错误率更敏感。

不,是对节点上的记录进行汇总。问题不在于信息量的测量。问题在于树与树之间的 "残差 "转移--从概率到对数再到对数,需要不断地重新计算。

 
Stanislav Korotky #:

不是,是根据节点的记录进行汇总。这个问题与信息度量无关。这是关于树与树之间的 "残差 "转移--从概率到对数再到对数,需要不断地重新计算。

那么如何计算一般记录的频率呢?对于一个类来说,如何计算是显而易见的。

 
Stanislav Korotky #:

不是,是根据节点的记录进行汇总。这个问题与信息度量无关。这是关于树与树之间的 "残差 "转移--从概率到对数 再到对数,需要不断地重新计算。

或者是关于逻辑回归分类?不管是哪种情况,仅从某处摘取一个公式是不够的,您需要全文。

 
Aleksey Nikolayev #:

或者我们说的是逻辑回归分类法?无论如何,仅仅从某处摘取一个公式是不够的,你需要整个文本。

logit函数是指ln(几率)。你需要它将概率值[0,1]区域转换为正无穷大或负无穷大--否则你就无法进行梯度训练。

例如,以下是文本 -https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

下面是视频 -https://www.youtube.com/watch?v=hjxgoUJ_va8。

PS.在我看来,这两份材料都有错误。
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

如果按等级汇总,分母就是基尼指数或节点纯度。它越小越好。分子是工作表中的行数。

该标准越大越好--类别分离得更干净,但不会过度撕碎纸张。

选择基尼指数似乎是因为它比分类错误率更敏感。

哦!
终于有人知道基尼指数了....我早在 18 年就查过它的代码。https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

ln(odds) 意义上的 Logit 函数。需要将概率值[0,1]区域转换为正无穷大或负无穷大,否则就无法进行梯度训练。

是的,它用于逻辑回归,当你在寻找属于某个类别的概率(它的 logit 函数)时。

作者似乎想用一种通俗的方式来介绍 Bousting 的内涵,但他把问题的变体想得太复杂了。他把 logit 回归、树和 bousting 混为一谈,这本身就不容易理解。没有趣味性,就无法从逻辑上说明 bousting 的本质。要理解 logit 回归的本质,你需要一个理论家(可能是二项分布)。

 
Forester #:
哦! 终于有人知道基尼系数了...我早在 18 年就在找它的代码了。h
ttps:// www.mql5.com/ru/blogs/post/723619

还有基尼系数。它也用于 MOE,但那是不同的)。

 
Stanislav Korotky #:

请解释以下公式是如何在带 "bousting "的树分类算法中获得的(可链接至 PDF):


在我能从互联网上找到的所有资料中,该公式都是神奇地 "从天花板上取下来的"。

你是从哪里得到这个公式的?从 "从天花板上 "通常的集体耕作来看,很可能是苏联。

你需要用到专业数学,而专业数学有成熟的算法。

R 语言有大量的木质模型,而专业 R 语言与其他许多语言的不同之处在于,必须提及算法的作者和相应的出版物。一眼望去,我想不起来 R 软件包中有哪个复杂或不复杂的函数没有相应的参考文献。


除了 R 之外,什么都别想了。如今,它是统计计算的唯一专业环境。