환경과 상호작용해 경험을 통해 학습하는 새로운 강화학습 알고리즘을 소개했다. 이방법은 환경 모델에 의존하지 않고 폴리시와 가치함수를 학습한다는 점에서 동적 프로그래밍과는 다르다. 몬테카를로 방법이 환경에서 간단하게 샘플링하는 방법이지만 학습하기 위해서는 완전한 궤도가 필요하므로 많은 실제 환경에 적용 할 수 없다는 것을 알게 됐다. 이러한 단점을 극복하기 위해 부트스트레핑을 몬테카를로 방법과 결합한 TD학습 방법을 사용했다. 이 알고리즘은 부트스트레핑 기술을 이용해 온라인으로 학습하고 분산을 줄이면서 최적의 폴리시에 수렴하게 하는 방법이다. 강화학습에 사용 되는 몬테카를로 메서드의 주요 특징은? 몬테카를로 메서드가 오프라인인 이유는? TD학습의 두 가지 주요 아이디어는? 부트스트레핑을 몬테카를로 방법과 ..