文章 "数据科学和机器学习(第 05 部分):决策树"

 

新文章 数据科学和机器学习(第 05 部分):决策树已发布:

决策树模仿人类的方式针对数据进行分类。 我们看看如何构建这棵树,并利用它们来分类和预测一些数据。 决策树算法的主要目标是将含有杂质的数据分离成纯节点或靠近节点。

决策树运用多种算法来决定将一个节点拆分为两个或多个子集节点。 子节点的创建提升了子节点合量的均匀性。 换言之,我们可以说节点的纯度随着目标变量的增加而增加。 决策树算法把所有可用变量上的节点拆分,然后选择拆分最均匀的子节点。

决策树示例

算法选择基于目标变量的类型。

以下是决策树中采用的算法:

  1. ID3 > D3 扩展
  2. C4.5 > ID3 继承者
  3. CART > 分类和回归树
  4. CHAID > 卡方自动交叠检测,在计算分类树时执行多级分割
  5. MARS > 多元自适应回归样条

在本文中,我将基于 ID3 算法创建一棵决策树,我们将在本系列的下一篇文章中讨论和运用其它算法。

作者:Omega J Msigwa

 

你好,欧米茄先生、

非常感谢你的 ID3 解决方案。不过,我提供并附上了一份有关这方面的 excel 表,我想这对您的解释会很清楚。

再次感谢、

F.Mahmoudian

附加的文件:
 
Fatemeh Haji Mahmoudian #:

你好,欧米茄先生、

非常感谢你的 ID3 解决方案。不过,我提供并附上了一份有关这方面的 excel 表,我认为这对您的解释很清楚。

再次感谢、

F.Mahmoudian

非常感谢,我还在想如何让脚本自己画出树来

 
Omega J Msigwa #:

many thanks to it, I'm still trying to figure out how to let the script draw the tree itself

那就太好了!

非常感谢

 

对了,为什么大家都如此痴迷于 MO、AI 和 DeepLearning?有一件被人遗忘的旧事,专题启动器提醒了我们。有专家系统和各种加权评估。当然,这些方法已有 30-50 年历史,并不时髦,但它们坚持物理模型和因果关系,其结果是可以解释的。我得深入研究一下。

这是唯一有可能成为已计算信号过滤器的方法。这个方向上的其他方法都很糟糕。

 
Maxim Kuznetsov #:

对了,为什么大家都如此痴迷于 MO、AI 和 DeepLearning?有一件被人遗忘的旧事,专题启动器提醒了我们。有专家系统和各种加权评估。当然,这些方法已有 30-50 年历史,并不时髦,但它们坚持物理模型和因果关系,其结果是可以解释的。我得好好研究研究。

这是唯一有可能成为已计算信号过滤器的方法。这个方向上的其他方法都被搞砸了。

实际上,它是一种基本算法,是更复杂的树状算法的一部分,也是重新训练最多的算法。