Concepts
- 분류는 정해진 정답 셋에서 데이터를 분류하는 문제
- 데이터는 속성(attrubutes/features)과 클래스 레이블(class label)로 구성
- 속성은 예측 변수/독립변수로, 클래스 레이블은 종속변수 / 결과 값으로 볼 수 있음
Classification methodologies
Lazy Learning
- 학습 데이터를 저장하고 새로운 데이터가 들어올때 비교하여 분류
- 특징:
- 학습시간이 적게 들지만 예측 시간이 오래 걸림
- 노이즈에 강건하지만 일반화 성능일 떨어질 수 있음
- ex) K-Nearest Neighbors(KNN)
Eager Learning
- 학습 데이터로 부터 일반화된 모델을 미리 생성
- 특징:
- 학습시간이 오래걸리나 예측 시간은 빠름
- 좋은 일반화가 가능하나 불필요한 특성에 민감할 수 있음
- ex) Logistic regression, Decision tree
K-Nearest Neighbors (KNN)
- 새로운 데이터와 가장 유사한 k개의 이웃을 찾아 다수겨로 분류
- 거리 측정 방법과 k값 선택이 중요
- 차원이 증가 할 수록 (속성이 많아질 수 록) 성능 저하 발생
Logistic regression
- 선형 회귀를 확장하여 분류 믄제 해결
- 시그모이드 함수를 통해 확률값 (0~1) 출력
- 신경망의 기본 구성 요소가 됨
Decision tree
- 데이터를 순차적으로 분할하여 트리 구조로 분류
- 주요 고려 사항:
- 분할 기준 (어떤 속성으로 나눌 것인가)
- 분할 방법 (이진 분할 vs 다중 분할)
- 언제 분할을 멈출 것인가
- 불순도(impurity)개념을 사용하여 최적의 분할 결정
- 설명 가능한 모델이라는 장점
최신동향:
- 딥러닝은 로지스틱 회귀와 의사결정트리의 개념을 확장
- 인공 신경망은 여러 개의 뉴런(퍼셉트론)을 층층이 쌓은 구조
- ChatGPT와 같은 대규모 언어 모델도 기본적으로 분류 문제 해결
- RAG(Retrieval-Augmented Generation)는 eager learning 과 Lazy learning을 결합한 하이브리드 방식
실사용 예시
- 고객 이탈 예측
- 리뷰 감성 분석
- 레스토랑 카테고리 분류
- 이메일 스팸 분류
- 의료 진단
- 예지 정비
반응형
'visualization > Information Visualization' 카테고리의 다른 글
Clustering(2) (0) | 2024.12.16 |
---|---|
Clustering(1) (2) | 2024.12.16 |
Classificaiton(2) (0) | 2024.12.16 |