Bert

Machine Learning

뚜둔뚜둔 2020. 7. 13. 18:24

==========================

Transformer : 셀프 어텐션으로 구성된 인코더 (RNN, CNN을 사용하지 않고 기존 RNN 으로 구성된 seq2seq의 한계를 넘어서는 성능을 보임
Self-Attention : 단어 간의 연관 관계를 얻을 수 있음. 딥마인드에서 이를 이용하여 RMC(릴레이션 메모리 코어)로 순차적 정보를 통한 관계형 추론 모델을 만듦
self-Attention구조 : 입력을 각 가중치로 연산하여, Q,K,V를 구함. 이때, 각 가중치는 멀티 헤드의 크기만큼 세트로 구성됨

스케일 닷 어텐션에서 Q와 K의 트랜스포즈한 정보를 연산하고 스케일링하여 어텐션 스코어를 구함.

어텐션 스코어를 V에 적용하여 Z를 구함. 이 과정을 헤드 수만큼 피처를 나누어 스케일 닷 어텐션한 후 모두 합쳐 통합 z를 구함.

첫번째 층은 비선형성을 추가해주고 두번째는 선형으로 연산함. 신경망 2레이어 이상으로 히든 유닛이 충분히 사용되면 어떠한 연속 함수도 표현(근사) 가능.

이런 성질을 이용하여 학습하면서 W와 b들을 통해 셀프 어텐션에서 나온 정보를 통과 시켜 정리하는 효과를 얻음

버트 이전의 구글 QANet에서 쓰인 트랜스포머의 피드 포워드는 포인트 와이즈 컨볼루션 형태로 구성함.

Normalization : 값이 원하는 범위를 벗어나지 않도록 제안함 -> 값 범위를 제한하므로 가중치 초깃값 선택의 의존성이 적어짐 -> 과적합(overfitting) 방지

스킵 커넥션(Skip-Connection) : vanishing Gradient를 해결하기 위한 방법 (Residual Network / Highway Network / Dense Network)

ReLU, ELU, GELU(확률론적 개념을 도입하여 ReLU보다 계산 비용이 저렴하고 빠르게 수령함)

구글버트BERT의 접근법

버트 구조

버트의 학습방법

Masked 언어모델 : 앙방향 맥락을 고려하여 언어모델링 되도록 문장에서 정해진 비율(15%)의 무작위 단어 마스크 마스킹된 단어를 맞추도록 모델을 구성함. 미세조정시 올바른 예측을 돕도록 마스킹에 노이즈를 섞음(10%는 랜덤 단어, 10% 정상단어 그대로 둠)
다음 문장 예측 : 두 문장간 관련이 고려되어야 하는 NLI와 QA의 파인 튜닝을 위해 마스크 된 단어를 맞추는 Task와 동시에 두개의 문장이 연관이 있는지 맞추도록 학습함. 50% 연관문장, 50% 연관 되지 않은 문장을 무작위 추출하여 학습.

입력 데이터

파인튜닝(Fine-tuning)을 이용하는 방법

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

#nlp #자연어처리 #ml #ai #MLOps

강화학습, reinforcement, MLOps, Kubernetes, cicd, 쿠버네티스, error, K8S, docker, AI, 딥러닝, Airflow, 알고리즘, ml, 머신러닝, Mlflow, conda, DevOps, 파이썬, Python,

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer