visualization /Information Visualization

Classification(1)

뚜둔뚜둔 2024. 12. 16. 11:22

Concepts

  •  분류는 정해진 정답 셋에서 데이터를 분류하는 문제
  • 데이터는 속성(attrubutes/features)과 클래스 레이블(class label)로 구성
  • 속성은 예측 변수/독립변수로, 클래스 레이블은 종속변수 / 결과 값으로 볼 수 있음

 

Classification methodologies

Lazy Learning

  • 학습 데이터를 저장하고 새로운 데이터가 들어올때 비교하여 분류
  • 특징:
    • 학습시간이 적게 들지만 예측 시간이 오래 걸림
    • 노이즈에 강건하지만 일반화 성능일 떨어질 수 있음
  • ex) K-Nearest Neighbors(KNN) 

Eager Learning

  •  학습 데이터로 부터 일반화된 모델을 미리 생성
  • 특징:
    • 학습시간이 오래걸리나 예측 시간은 빠름
    • 좋은 일반화가 가능하나 불필요한 특성에 민감할 수 있음
  • ex)  Logistic regression, Decision tree

  K-Nearest Neighbors (KNN)

  • 새로운 데이터와 가장 유사한 k개의 이웃을 찾아 다수겨로 분류
  • 거리 측정 방법과 k값 선택이 중요
  • 차원이 증가 할 수록 (속성이 많아질 수 록) 성능 저하 발생

  Logistic regression

  • 선형 회귀를 확장하여 분류 믄제 해결
  • 시그모이드 함수를 통해 확률값 (0~1) 출력
  • 신경망의 기본 구성 요소가 됨

Decision tree

  • 데이터를 순차적으로 분할하여 트리 구조로 분류
  • 주요 고려 사항:
    • 분할 기준 (어떤 속성으로 나눌 것인가)
    • 분할 방법 (이진 분할 vs 다중 분할)
    • 언제 분할을 멈출 것인가
  • 불순도(impurity)개념을 사용하여 최적의 분할 결정
  • 설명 가능한 모델이라는 장점

 

최신동향:
- 딥러닝은 로지스틱 회귀와 의사결정트리의 개념을 확장
- 인공 신경망은 여러 개의 뉴런(퍼셉트론)을 층층이 쌓은 구조
- ChatGPT와 같은 대규모 언어 모델도 기본적으로 분류 문제 해결
- RAG(Retrieval-Augmented Generation)는 eager learning 과 Lazy learning을 결합한 하이브리드 방식

 

실사용 예시

  • 고객 이탈 예측
  • 리뷰 감성 분석
  • 레스토랑 카테고리 분류
  • 이메일 스팸 분류
  • 의료 진단
  • 예지 정비
반응형

'visualization > Information Visualization' 카테고리의 다른 글

Clustering(2)  (0) 2024.12.16
Clustering(1)  (2) 2024.12.16
Classificaiton(2)  (0) 2024.12.16