Machine Learning/ReinforcementLearning

[Book][doit_1]강화학습이란

뚜둔뚜둔 2022. 2. 1. 23:18

강화학습 Reinforcement Learning

  • 행동에 대한  보상만 주어짐.
  •  인공지능의 방법론인 머신러닝 machine learning의 한종류
    • 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눔

 

참고:

탐험과 이용중에서 중요하게 생각하는 요소에 따라 선택하는 알고리즘

가치반복법과 MC학습법 실습에서, 아래의 알고리즘을 사용해도 됨.

탐욕알고리즘

  • 에이전트는 가장 높은 가치 함수 또는 Q 함수를 추구하는 방향으로 해동을 결정함.
  • 탐험을 배제한 이용

랜덤 노이즈 알고리즘

  • 에이전트가 지나는 각 단계마다 가치 함수의 추정치에 무작윗값을 더하는 방식.
  • 이렇게 더한 노이즈로 탐험을 진행

 

앱실론-탐욕 알고리즘

  • 에이전트는 엡실론 확률을 통해 가장 높은 가치 함수를 추구하지 않는 행동 중에서 하나를 무작위로 선택

1. MDP

보상 (R) : 특정 상태에서 얻을 수 있는 즉각적인 피드백

이익(G) : 한 에피소드의 특정 상태에서 종단 상태까지 받을 수 있는 보상 총합

가치함수(V) : 특정 상태로 부터 기대할 수 있는 보상

 

현재 상태의 가치를 구해주는 벨만 방정식 

  • 벨만 방정식 : 다음 상태의 가치로 현재의 상태의 가치를 구함. 현재 상태의 가치를 구하려고 다음 상태를 계속 추적하므로 결국 종단 상태에 도달함.

2. 가치 반복법

  • 가치 반복법과 정책 반복법은 모델에 대한 완전한 지식이 필요 하므로 모델 기반 model-based 강화학습

3. MC학습

몬테카를로 MC, Monte Carlo 학습

에이전트가 모든 상태를 몰라도 환경 탐색 과정을 거치는 상태에 대해서만 가치 함수를 업데이트 할 수 있는 방법

  • 모델에 대한 완전한 지식이 필요하지 않은 모델 프리 model free 강화학습에 속함 ( 가치반복법과 정책 반복법과 반대) 
  • 완전한 가치 함수를 구할 수 없으므로 가치 함수의 추정치를 구하는 방식으로 문제 해결에 접근함.-> 최적 행동이 무엇인지 모르는 상태에서 일단 행동을 취해 얻은 경험으로 배움.

MC 학습과 정책 반복법의 차이점

  • MC학습은 완전한 가치 함수가 아닌 가치 함수의 추정치만 얻을 수 있음
  • MC학습은 환경 내 모든 상태의 가치 함수를 추정하는 것이 아니라, 에이전트가 에피소드 안에서 거쳐간 상태의 가치 함수만 추정 함

MC 학습 특징 

  • 알려진 모델이 없다고 가정. 즉, 에이전트는 주어진 상태에서 어떤 행동을 취했을 때, 어떤 상태로 전이할지, 어떤 보상이 주어질지 알지 못함.
  • 에이전트는 경험의 표본으로부터 학습함.
  • 현재까지 겪은 모든 에피소드에 대해 상태의 이익 G를 평균하여 상태의 가치 함수를 구함 ( 경험적 평균 )
  • 에피소드 하나를 완전히 끝낸 다음 업데이트 함
  • 에피소드 단위 문제에 한하여 적용 할 수 있음

4. TD 학습

시간차 학습 Temporal difference

  • 모델에 대한 완전한 지식이 필요하지 않은 모델 프리 model free 강화학습에 속함 ( 가치반복법과 정책 반복법과 반대)
  • 경험을 기반으로 부터 직접 학습 한다는 점에서 MC학습과 같음
  • 그러나, MC학습은 하난의 에피소드가 끝날 때 마다 Q함수를 업데이트 하는 반면, 시간차 학습은 상태 변화가 있을 때마다 Q함수를 업데이트를 함.
  • 시간차 학습은 하나의 에피소드가 완전히 끝나지 않아도 단계마다 학습할 수 있음
  •  

5. Q 학습

 

Q-러닝과 SARSA 애플리케이션

환경과 상호작용해 경험을 통해 학습하는 새로운 강화학습 알고리즘을 소개했다. 이방법은 환경 모델에 의존하지 않고 폴리시와 가치함수를 학습한다는 점에서 동적 프로그래밍과는 다르다.

s00jinii.tistory.com

2022.01.16 - [ReinforcementLearning] - Deep Q-Network

 

Deep Q-Network

DQN알고리즘 3가지 주요 부분으로 구성 - 데이터 수집과 저장 : 데이터는 행동 폴리시 behavior에 의해 수집한다. - 신경망 최적화(버퍼에서 샘플링한 미니 배치에 대해 SGD를 수행한다.) - 타깃 업데

s00jinii.tistory.com

 

 

@book{Do-it-Reinforcement-Learning,
  title={Do it! 강화 학습 입문},
  author={조규남, 맹윤호, 임지순},
  isbn={9791163032526},
  url={http://www.yes24.com/Product/Goods/101924618},
  year={2021},
  publisher={이지스퍼블리싱}
}

반응형