기고글 토론 "데이터 과학 및 머신 러닝(파트 05): 의사 결정 트리"

 

새로운 기고글 데이터 과학 및 머신 러닝(파트 05): 의사 결정 트리 가 게재되었습니다:

의사 결정 트리는 인간이 데이터를 분류하기 위해 생각하는 방식을 모방합니다. 트리를 구축하고 트리를 사용하여 데이터를 분류하고 예측하는 방법에 대해 알아보겠습니다. 의사 결정 트리 알고리즘의 주요 목표는 불순물이 있는 데이터를 순수한 것으로 분리하거나 노드에 가깝게 분리하는 것입니다.

의사 결정 트리는 노드를 두 개 이상의 하위 노드로 분할하는 것을 결정하기 위해 여러개의 알고리즘을 사용합니다. 하위 노드를 생성하면 결과 하위 노드의 동질성이 증가합니다. 즉 목표 변수에 대한 노드의 순도가 높아진다고 할 수 있습니다. 의사결정 트리 알고리즘은 사용 가능한 모든 변수에서 노드를 분할한 다음 가장 동질적인 하위 노드를 생성하는 분할을 선택합니다.

의사결정 트리 예제

알고리즘 선택은 대상 변수의 유형을 기반으로 합니다.

다음은 의사 결정 트리에서 사용되는 알고리즘입니다:

  1. ID3 > D3 확장
  2. C4.5 > ID3의 후계자
  3. CART > 분류 및 회귀 트리
  4. CHAID > 카이제곱 자동 상호 작용 감지, 분류 트리를 계산할 때 다단계 분할 수행
  5. MARS > 다변량 적응형 회귀 스플라인

이 기사에서는 ID3 알고리즘을 기반으로 의사 결정 트리를 만들 예정이며 이 시리즈의 다음 기사에서는 다른 알고리즘에 대해서 살펴보고 사용할 것입니다.

작성자: Omega J Msigwa

사유: