강화학습 Reinforcement Learning
- 행동에 대한 보상만 주어짐.
- 인공지능의 방법론인 머신러닝 machine learning의 한종류
- 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눔
참고:
탐험과 이용중에서 중요하게 생각하는 요소에 따라 선택하는 알고리즘
가치반복법과 MC학습법 실습에서, 아래의 알고리즘을 사용해도 됨.
탐욕알고리즘
- 에이전트는 가장 높은 가치 함수 또는 Q 함수를 추구하는 방향으로 해동을 결정함.
- 탐험을 배제한 이용
랜덤 노이즈 알고리즘
- 에이전트가 지나는 각 단계마다 가치 함수의 추정치에 무작윗값을 더하는 방식.
- 이렇게 더한 노이즈로 탐험을 진행
앱실론-탐욕 알고리즘
- 에이전트는 엡실론 확률을 통해 가장 높은 가치 함수를 추구하지 않는 행동 중에서 하나를 무작위로 선택
1. MDP
보상 (R) : 특정 상태에서 얻을 수 있는 즉각적인 피드백
이익(G) : 한 에피소드의 특정 상태에서 종단 상태까지 받을 수 있는 보상 총합
가치함수(V) : 특정 상태로 부터 기대할 수 있는 보상
현재 상태의 가치를 구해주는 벨만 방정식
- 벨만 방정식 : 다음 상태의 가치로 현재의 상태의 가치를 구함. 현재 상태의 가치를 구하려고 다음 상태를 계속 추적하므로 결국 종단 상태에 도달함.
2. 가치 반복법
- 가치 반복법과 정책 반복법은 모델에 대한 완전한 지식이 필요 하므로 모델 기반 model-based 강화학습
3. MC학습
몬테카를로 MC, Monte Carlo 학습
에이전트가 모든 상태를 몰라도 환경 탐색 과정을 거치는 상태에 대해서만 가치 함수를 업데이트 할 수 있는 방법
- 모델에 대한 완전한 지식이 필요하지 않은 모델 프리 model free 강화학습에 속함 ( 가치반복법과 정책 반복법과 반대)
- 완전한 가치 함수를 구할 수 없으므로 가치 함수의 추정치를 구하는 방식으로 문제 해결에 접근함.-> 최적 행동이 무엇인지 모르는 상태에서 일단 행동을 취해 얻은 경험으로 배움.
MC 학습과 정책 반복법의 차이점
- MC학습은 완전한 가치 함수가 아닌 가치 함수의 추정치만 얻을 수 있음
- MC학습은 환경 내 모든 상태의 가치 함수를 추정하는 것이 아니라, 에이전트가 에피소드 안에서 거쳐간 상태의 가치 함수만 추정 함
MC 학습 특징
- 알려진 모델이 없다고 가정. 즉, 에이전트는 주어진 상태에서 어떤 행동을 취했을 때, 어떤 상태로 전이할지, 어떤 보상이 주어질지 알지 못함.
- 에이전트는 경험의 표본으로부터 학습함.
- 현재까지 겪은 모든 에피소드에 대해 상태의 이익 G를 평균하여 상태의 가치 함수를 구함 ( 경험적 평균 )
- 에피소드 하나를 완전히 끝낸 다음 업데이트 함
- 에피소드 단위 문제에 한하여 적용 할 수 있음
4. TD 학습
시간차 학습 Temporal difference
- 모델에 대한 완전한 지식이 필요하지 않은 모델 프리 model free 강화학습에 속함 ( 가치반복법과 정책 반복법과 반대)
- 경험을 기반으로 부터 직접 학습 한다는 점에서 MC학습과 같음
- 그러나, MC학습은 하난의 에피소드가 끝날 때 마다 Q함수를 업데이트 하는 반면, 시간차 학습은 상태 변화가 있을 때마다 Q함수를 업데이트를 함.
- 시간차 학습은 하나의 에피소드가 완전히 끝나지 않아도 단계마다 학습할 수 있음
5. Q 학습
- Q 러닝은 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q 함수를 학습함으로써 최적의 정책을 학습
- 2022.01.16 - [ReinforcementLearning] - Q-러닝과 SARSA 애플리케이션
2022.01.16 - [ReinforcementLearning] - Deep Q-Network
@book{Do-it-Reinforcement-Learning,
title={Do it! 강화 학습 입문},
author={조규남, 맹윤호, 임지순},
isbn={9791163032526},
url={http://www.yes24.com/Product/Goods/101924618},
year={2021},
publisher={이지스퍼블리싱}
}
반응형
'Machine Learning > ReinforcementLearning' 카테고리의 다른 글
~ing[논문리뷰]An End-to-End optimal Trade Execution Framework based on Proximal Policy Optimization (0) | 2022.03.22 |
---|---|
[ppo]Proximal policy optimization algorithms (0) | 2022.02.21 |
블랙박스 최적화 알고리즘 이해하기 (0) | 2022.01.19 |
DAgger알고리즘으로 모방 학습하기 (0) | 2022.01.19 |
모델 -기반 강화학습 (0) | 2022.01.19 |