GINI Index
- 노드에서 데이터를 잘못 분류할 확률을 수정(노드 불순도를 의미)
- 계산 방법:
- 특정 노드에서 클래스 j를 가질 확률𝑝(𝑗|𝑡)
- 𝑝(𝑗|𝑡) = # of records of class j in t / # of records in t
- 특징:
- 값의 범위: 0=< GINI(t) =< 1-1/c ( c는 클래스 수)
- 최소값(0): 모든 데이터가 하나의 클래스에 속할 때
- 최대값 (1-1/c): 데이터가 모든 클래스에 균등하게 분포될 때
Entropy
- 정보량, 불확실성, 놀라움의 정도를 측정
- 계산방법:
- 특정 노드에서 클래스 K
Entropy ( information theory)
- 정보량, 불확실성, 놀라움의 정도를 측정
- Higher probability -> Lower uncentainty/surprise -> Lower information -> Lower entropy
- Lower probability -> Hight uncentainty/surprise -> High information -> High entropy
반응형
'visualization > Information Visualization' 카테고리의 다른 글
Clustering(2) (0) | 2024.12.16 |
---|---|
Clustering(1) (2) | 2024.12.16 |
Classification(1) (0) | 2024.12.16 |