기고글 토론 "데이터 과학 및 머신 러닝(파트 05): 의사 결정 트리"

 

새로운 기고글 데이터 과학 및 머신 러닝(파트 05): 의사 결정 트리 가 게재되었습니다:

의사 결정 트리는 인간이 데이터를 분류하기 위해 생각하는 방식을 모방합니다. 트리를 구축하고 트리를 사용하여 데이터를 분류하고 예측하는 방법에 대해 알아보겠습니다. 의사 결정 트리 알고리즘의 주요 목표는 불순물이 있는 데이터를 순수한 것으로 분리하거나 노드에 가깝게 분리하는 것입니다.

의사 결정 트리는 노드를 두 개 이상의 하위 노드로 분할하는 것을 결정하기 위해 여러개의 알고리즘을 사용합니다. 하위 노드를 생성하면 결과 하위 노드의 동질성이 증가합니다. 즉 목표 변수에 대한 노드의 순도가 높아진다고 할 수 있습니다. 의사결정 트리 알고리즘은 사용 가능한 모든 변수에서 노드를 분할한 다음 가장 동질적인 하위 노드를 생성하는 분할을 선택합니다.

의사결정 트리 예제

알고리즘 선택은 대상 변수의 유형을 기반으로 합니다.

다음은 의사 결정 트리에서 사용되는 알고리즘입니다:

  1. ID3 > D3 확장
  2. C4.5 > ID3의 후계자
  3. CART > 분류 및 회귀 트리
  4. CHAID > 카이제곱 자동 상호 작용 감지, 분류 트리를 계산할 때 다단계 분할 수행
  5. MARS > 다변량 적응형 회귀 스플라인

이 기사에서는 ID3 알고리즘을 기반으로 의사 결정 트리를 만들 예정이며 이 시리즈의 다음 기사에서는 다른 알고리즘에 대해서 살펴보고 사용할 것입니다.

작성자: Omega J Msigwa

 

안녕하세요 오메가 씨,

ID3 솔루션에 대해 정말 감사합니다. 그것은 저에게 매우 유용합니다. 그러나 이와 관련하여 엑셀 시트를 제공하고 첨부하여 귀하의 설명에 명확하다고 생각합니다.

다시 한번 감사드립니다,

F.Mahmoudian

파일:
 
Fatemeh Haji Mahmoudian #:

안녕하세요, 오메가 씨,

ID3 솔루션에 대해 정말 감사합니다. 그것은 저에게 매우 유용합니다. 그러나 이와 관련하여 엑셀 시트를 제공하고 첨부하여 귀하의 설명에 명확하다고 생각합니다.

다시 한번 감사드립니다,

F.Mahmoudian

덕분에 많은 덕분에 스크립트가 트리 자체를 그리는 방법을 알아 내려고 노력하고 있습니다.

 
Omega J Msigwa #:

many thanks to it, I'm still trying to figure out how to let the script draw the tree itself

그럼 정말 좋겠네요!

정말 감사합니다

 

그런데 왜 모두가 MO, AI, 딥러닝에 집착하는 걸까요? 화제의 스타터가 우리에게 상기시켜 준 잘 잊혀진 오래된 것이 있습니다. 전문가 시스템과 모든 종류의 가중치 평가가 있습니다. 물론 이 방법들은 30~50년 전의 것으로 유행은 아니지만, 물리적 모델과 인과 관계를 고수하고 있으며 그 결과를 해석할 수 있습니다. 파헤쳐봐야겠어요.

이미 계산된 신호에 대한 필터가 될 수 있는 유일한 방법입니다. 이 방향의 다른 방법은 망했어요.

 
Maxim Kuznetsov #:

그런데 왜 모두가 MO, AI, 딥러닝에 집착하는 걸까요? 화제의 스타터가 우리에게 상기시켜 준 잘 잊혀진 오래된 것이 있습니다. 전문가 시스템과 모든 종류의 가중치 평가가 있습니다. 물론 이 방법들은 30~50년 전의 것으로 유행은 아니지만 물리적 모델과 인과 관계를 고수하며 그 결과를 해석할 수 있습니다. 좀 더 파봐야겠어요.

이미 계산된 신호에 대한 필터가 될 수 있는 유일한 방법입니다. 이 방향의 다른 방법은 엉망입니다.

사실 이것은 더 복잡한 트리 기반 )의 일부인 기본 알고리즘이며 가장 많이 재학습된 알고리즘입니다.