mdp 2

[Book][doit_1]강화학습이란

강화학습 Reinforcement Learning 행동에 대한 보상만 주어짐. 인공지능의 방법론인 머신러닝 machine learning의 한종류 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눔 참고: 탐험과 이용중에서 중요하게 생각하는 요소에 따라 선택하는 알고리즘 가치반복법과 MC학습법 실습에서, 아래의 알고리즘을 사용해도 됨. 탐욕알고리즘 에이전트는 가장 높은 가치 함수 또는 Q 함수를 추구하는 방향으로 해동을 결정함. 탐험을 배제한 이용 랜덤 노이즈 알고리즘 에이전트가 지나는 각 단계마다 가치 함수의 추정치에 무작윗값을 더하는 방식. 이렇게 더한 노이즈로 탐험을 진행 앱실론-탐욕 알고리즘 에이전트는 엡실론 확률을 통해 가장 높은 가치 함수를 추구하지 않는 행동 중에서 하나를 무작위로 선택..

동적 프로그래밍으로 문제 해결하기

MDP란? - 가치함수와 기대보상으로 이루어짐. - Markov 특성은 MDP에 내재돼 있으며, 미래의 상태는 과거의 이력이 아닌 현재 상태로부터만 영향을 받는다. - MDP정의를 사용해 폴리시, 리턴함수, 예상리턴(Expected return), 행동-가치함수, 가치함수의 개념을 정의했다. 강화학습 알고리즘은 모델-기반과 모델-프리 방법으로 구분할 수 있다. 모델-기반은 다음 행동을 계획하기 위해 환경 모델이 필요하며 모델-프리는 모델과는 독립적이며 환경과 직접 상호 작용해 학습할 수 있다. 폴리시 그래디언트 알고리즘은 그래디언트 상승을 통해 폴리시에서 직접 학습 하므로 온-폴리시 on-policy라고 한다, 가치함수 알고리즘은 오프-폴리시 off-policy이며 폴리시를 만들기 위해 행동-가치함수나 ..

반응형