모델-프리 알고리즘에서 벗어나 환경 모델을 학습하는 알고리즘을 알아봤다. 이러한 종류의 알고리즘을 개발하도록 영감을 준 패러다임 변화릐 주요 원일을 살펴봤다. 모델을 다룰 떄 발견 할 수 있는 두 가지 주요 사례를 구분 모델을 사용해 다음 행동을 계획하거나 폴리시를 학습하는 방법을 알아봤다. 이 방법을 선택하는데 정해진 규칙은 없지만 일반적으로 행동의 복잡도, 관측공간, 추론 속도와 관련 있다. 다음으로 모델-프리 알고리즘의 장,단점을 조사하고 모델-프리 알고리즘과 모델-기반 학습을 결합해 모델-프리 알고리즘으로 폴리시를 학습하는 방법을 상세하게 알아봤다. 이방법은 이미지 같은 고차원 관측 공간에서 모델을 사용하는 새로운 방법을 보여줌 모델-기반 알고리즘과 관련된 모든 자료를 더 잘 파악하기 위해 ME-..