文章 "数据科学和机器学习(第 05 部分):决策树"

 

新文章 数据科学和机器学习(第 05 部分):决策树已发布:

决策树模仿人类的方式针对数据进行分类。 我们看看如何构建这棵树,并利用它们来分类和预测一些数据。 决策树算法的主要目标是将含有杂质的数据分离成纯节点或靠近节点。

决策树运用多种算法来决定将一个节点拆分为两个或多个子集节点。 子节点的创建提升了子节点合量的均匀性。 换言之,我们可以说节点的纯度随着目标变量的增加而增加。 决策树算法把所有可用变量上的节点拆分,然后选择拆分最均匀的子节点。

决策树示例

算法选择基于目标变量的类型。

以下是决策树中采用的算法:

  1. ID3 > D3 扩展
  2. C4.5 > ID3 继承者
  3. CART > 分类和回归树
  4. CHAID > 卡方自动交叠检测,在计算分类树时执行多级分割
  5. MARS > 多元自适应回归样条

在本文中,我将基于 ID3 算法创建一棵决策树,我们将在本系列的下一篇文章中讨论和运用其它算法。

作者:Omega J Msigwa