visualization /Information Visualization 4

Classificaiton(2)

GINI Index노드에서 데이터를 잘못 분류할 확률을 수정(노드 불순도를 의미)계산 방법: 특정 노드에서 클래스 j를 가질 확률𝑝(𝑗|𝑡)𝑝(𝑗|𝑡) = # of records of class j in t / # of records in t특징:값의 범위: 0=최소값(0): 모든 데이터가 하나의 클래스에 속할 때최대값 (1-1/c): 데이터가 모든 클래스에 균등하게 분포될 때 Entropy정보량, 불확실성, 놀라움의 정도를 측정계산방법:특정 노드에서 클래스 K  Entropy ( information theory)정보량, 불확실성, 놀라움의 정도를 측정Higher probability -> Lower uncentainty/surprise -> Lower information -> Lower ..

Classification(1)

Concepts 분류는 정해진 정답 셋에서 데이터를 분류하는 문제데이터는 속성(attrubutes/features)과 클래스 레이블(class label)로 구성속성은 예측 변수/독립변수로, 클래스 레이블은 종속변수 / 결과 값으로 볼 수 있음 Classification methodologiesLazy Learning 학습 데이터를 저장하고 새로운 데이터가 들어올때 비교하여 분류특징:학습시간이 적게 들지만 예측 시간이 오래 걸림노이즈에 강건하지만 일반화 성능일 떨어질 수 있음ex) K-Nearest Neighbors(KNN) Eager Learning 학습 데이터로 부터 일반화된 모델을 미리 생성특징:학습시간이 오래걸리나 예측 시간은 빠름좋은 일반화가 가능하나 불필요한 특성에 민감할 수 있음ex)  Lo..

반응형