🤖 [SPECIAL] AI Agent Master

2장 트랜스포머: 현대 AI혁명 이면의 모델

뚜둔뚜둔 2026. 2. 22. 19:31

트랜스포머: 현대 AI 혁명 이면의 모델

GPT, BERT, LLM의 핵심 구조는 모두 트랜스포머(Transformer)에서 시작됩니다.
이번 장에서는 어텐션(Attention) 원리부터 트랜스포머 학습 방식, 디코딩 전략까지 핵심 개념을 정리합니다.


2장. 어텐션과 셀프 어텐션 탐구하기


2.1. 어텐션과 셀프 어텐션 탐구하기

✔ Seq2Seq 모델의 한계

Seq2Seq 모델은 인코더(Encoder)와 디코더(Decoder)로 구성된 RNN 기반 번역 모델입니다.

  • 인코더 → 입력 문장을 하나의 벡터로 압축
  • 디코더 → 이 벡터를 기반으로 출력 문장 생성

이때 입력 문장을 압축한 벡터를 **컨텍스트 벡터(Context Vector)**라고 합니다.

하지만 문제는…

❗ Seq2Seq의 구조적 한계

  1. 정렬(Alignment) 문제
    입력 문장의 특정 단어가 출력 문장의 어떤 단어와 대응되는지 하나의 고정 벡터로 표현하기 어렵습니다.
  2. 기울기 소실 문제 (Vanishing Gradient)
    RNN 특성상 문장이 길어질수록 초기 정보가 사라지는 O(n) 한계가 존재합니다.
  3. 병렬 처리 불가
    순차 계산 구조 → GPU 병렬 연산 비효율

✔ 어텐션 메커니즘(Attention Mechanism)

이 문제를 해결하기 위해 등장한 것이 **어텐션(Attention)**입니다.

핵심 아이디어

"모든 정보를 하나의 벡터에 담지 말고, 필요한 순간에 필요한 단어를 참고하자."


✔ 어텐션 수식

어텐션 가중치는 다음과 같이 계산됩니다.

eij=score(hi,sj)e_{ij} = score(h_i, s_j) αij=exp(eij)∑kexp(eik)\alpha_{ij} = \frac{exp(e_{ij})}{\sum_k exp(e_{ik})} cj=∑iαijhic_j = \sum_i \alpha_{ij} h_i

  • hih_i : 인코더 은닉 상태
  • sjs_j : 디코더 은닉 상태
  • αij\alpha_{ij} : 어텐션 가중치
  • cjc_j : 가중합된 컨텍스트 벡터

즉, 각 인코더 은닉 상태에 가중치를 곱해 합산하는 구조입니다.


✔ 어텐션의 장점

  • 기울기 소실 완화
  • 병목 현상 감소
  • 정렬 관계 해석 가능 (Explainability 증가)

✔ 셀프 어텐션(Self-Attention)

셀프 어텐션은 입력 문장 내부 단어들끼리 관계를 학습합니다.

예:

"The robot said he is ready."

"he"가 "robot"을 가리킨다는 것을 스스로 학습합니다.


✔ 셀프 어텐션 수식 (Scaled Dot-Product Attention)

Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V

  • Q(Query)
  • K(Key)
  • V(Value)
  • dkd_k : 차원 정규화

✔ 핵심 차이

세 개의 가중 행렬 사용:

  • WQW_Q
  • WKW_K
  • WVW_V

같은 입력에서도 서로 다른 표현 공간을 학습합니다.


✔ 멀티 헤드 셀프 어텐션(Multi-Head Attention)

MultiHead(Q,K,V)=Concat(head1,...,headh)WOMultiHead(Q,K,V) = Concat(head_1,...,head_h)W^O

여러 개의 어텐션을 병렬로 수행하여:

  • 문법적 관계
  • 의미적 관계
  • 장거리 의존성

을 동시에 포착합니다.

👉 GPT, BERT, LLaMA 등 모든 LLM의 핵심 구조입니다.


2.2. 트랜스포머 모델 소개

셀프 어텐션만으로는 충분하지 않았습니다.
이를 구조적으로 확장한 것이 Transformer 모델입니다.


✔ 기존 모델의 한계

  • 의미 포착 부족
  • OOV 문제
  • 문맥 유지 어려움
  • 도메인 일반화 부족
  • RNN의 순차적 계산 구조

✔ 트랜스포머 구조 핵심

1️⃣ 위치 인코딩(Positional Encoding)

셀프 어텐션은 순서 개념이 없습니다.

그래서 다음과 같은 사인/코사인 함수를 사용합니다.

PE(pos,2i)=sin(pos100002i/d)PE(pos,2i)=sin\left(\frac{pos}{10000^{2i/d}}\right) PE(pos,2i+1)=cos(pos100002i/d)PE(pos,2i+1)=cos\left(\frac{pos}{10000^{2i/d}}\right)


2️⃣ 트랜스포머 블록 구조

  • Multi-Head Attention
  • Residual Connection
  • Layer Normalization
  • Feed Forward Network

이 구조가 반복됩니다.


3️⃣ 디코더의 크로스 어텐션

디코더는 인코더 출력에 다시 어텐션을 적용합니다.

→ 번역, 요약, 생성 작업에 필수 구조


2.3. 트랜스포머 학습하기

트랜스포머는 다음 단어 예측 방식으로 학습됩니다.

P(wt∣w1,...,wt−1)P(w_t | w_1,...,w_{t-1})

즉, 조건부 확률 기반 언어 모델(Language Model)입니다.


✔ 병렬 연산의 강점

RNN과 달리 모든 단어를 동시에 처리할 수 있어:

  • GPU 활용 극대화
  • 대규모 학습 가능
  • LLM 시대 개막

텍스트 생성 전략 (Decoding Strategies)

LLM(GPT 등)이 텍스트를 생성할 때 사용하는 방식입니다.


✔ 랜덤 샘플링

전체 확률 분포에서 무작위 선택
→ 창의적이지만 불안정


✔ Top-K 샘플링

확률 상위 K개 후보만 고려


✔ Top-p (Nucleus) 샘플링

누적 확률이 p 이상이 되는 최소 집합에서 선택

→ Top-K보다 유연


✔ 온도 샘플링(Temperature)

Pi=exp(zi/T)∑jexp(zj/T)P_i = \frac{exp(z_i/T)}{\sum_j exp(z_j/T)}

  • T ↓ → 확률 분포 날카로움
  • T ↑ → 다양성 증가

✔ 바이트 페어 인코딩(BPE)

  • 빈도 기반 토큰 병합
  • OOV 문제 해결
  • GPT 계열 토크나이저 핵심

2.4. 마스크드 언어 모델링 탐구하기

✔ 양방향 인코더

좌→우, 우→좌 동시에 학습


✔ BERT (Masked Language Model)

  • 입력의 15%를 [MASK] 처리
  • 주변 문맥으로 예측
  • 문맥 이해 능력 우수

GPT와 달리 양방향 학습 구조입니다.


2.5. 내부 메커니즘 시각화하기

✔ BERTviz

  • 어텐션 가중치 시각화
  • 어떤 단어가 어떤 단어를 참고하는지 확인 가능
  • 블랙박스 모델 해석 도구

📌 정리

트랜스포머는:

  • 어텐션 기반 구조
  • 병렬 계산 가능
  • 장거리 의존성 해결
  • GPT, BERT, LLM의 기반

현대 AI 혁명의 중심 모델입니다.

 

 

#트랜스포머
#Transformer
#어텐션
#셀프어텐션
#멀티헤드어텐션
#Seq2Seq
#BERT
#GPT
#LLM
#자연어처리
#NLP
#딥러닝
#텍스트생성
#TopK샘플링
#TopP샘플링
#온도샘플링
#바이트페어인코딩
#언어모델

반응형