의사결정트리(Decision Tree)
- 결과 모델이 Tree 구조를 가지고 있다.
- 수치형 범주형 변수를 한꺼번에 다룰 수 있다.
- 지도학습 모델, 분류 규칙을 통해 데이터를 분류(Classification), 회귀(Regression)
- 분류=최빈값, 회귀=평균
- 분류 트리는 리프 노드에 속한 특정 클래스의 레이블을 결정하는 반면, 회귀 트리의 경우 리프 노드에 속하는 데이터의 평균값을 이용해 예측값을 계산한다는 차이점이 있습니다.
위 그림은 의사결정트리의 예시로서,
- X: Hours Slept, Plans to Cheat, Hours Studied, Average Grade
- y: Got an A
X 데이터를 통해 y를 예측하는 모델이 만들어지는 과정입니다.
Decision Tree는 Root Node, Intermediate Node, Terminal Node(=Leaf Node)로 구성이 되어 있습니다.
Root Node는 맨 처음 분류 기준, Intermediate Node는 중간 분류 기준, Terminal Node(=Leaf Node)는 결과 값이 됩니다.
모델의 성능을 높이기 위해선 데이터를 잘 분류해야 하고,
불순도(Impurity)계산을 통해 분류 기준을 정량화 하여 비교/선정 할 수 있습니다.
불순도(Impurity)
- 복잡성을 의미
- 다양한 개체들이 섞여 있을수록 불순도가 높습니다.
- 분기기준을 정할 때 자식노드의 불순도가 현재노드의 불순도보다 낮게하는 기준을 분기기준으로 정해야 합니다.
- Information gain = (현재노드 불순도) - (자식노드 불순도)
불순도를 수치적으로 나타낼 수 있는 지수는 대표적으로 Gini와 Entropy가 있습니다.
지니(Gini)
fomula:
Gini index interval:
만약 특정 그룹에 오직 한 종류의 label만 존재한다면, 해당 그룹의 Gini Impurity는 0
이 됩니다.
데이터 분할 이후의 각 그룹의 불순도가 낮으면 낮을 수록 데이터가 잘 분류되었다고 할 수 있습니다.
엔트로피(Entropy)
fomula:
Entropy interval:
Entropy는 로그를 사용하기 때문에 조금 더 복잡하고 오래 걸립니다.
성능은 Entropy가 약간 우세하지만 차이가 크게 나지 않기 때문에 Gini가 더 낫다는 평가입니다.
more…
정보 이득(Information Gain)
- information gain을 계산함으로써 분류기준을 정할 수 있습니다.
- information gain이 높을수록 데이터 분리에 있어서 중요한 변수
- information gain = (현재노드 불순도) - (자식노드 불순도)
0.5
- (0.2*0
+0.5*0.375
+0.3*0
) =0.026
이런 방식으로 모든 분류후보(feature, column)들에 대해서 information gain을 계산하고, 가장 높게 나온 분류후보를 기준으로 데이터를 분할하면 됩니다.
가지치기(Pruning)
- 트리의 Depth가 깊어질수록 Leaf Node가 많아지고 과적합 문제(Overfitting)가 발생하여 일반화 성능이 떨어질 수 있습니다.
- 가지치기(Pruning): Max Depth, Leaf Node 개수 등을 제한함으로써 일반화 성능을 높일 수 있습니다.
정리
Decision Tree는 기본적으로 greedy한 알고리즘으로 항상 최적의 트리를 생성하지는 않지만 이러한 Decision Tree는 계산복잡성 대비 좋은 성능을 보입니다.
Decision Tree 모델을 사용하는 주된 요인은 어떤 feature가 중요한 영향인자인지 직관적으로 확인할 수 있고 어느만큼의 척도로 분류를 했는지 상세한 기준을 파악할 수 있다는 점입니다.