Machine Learning/ReinforcementLearning

모델 -기반 강화학습

뚜둔뚜둔 2022. 1. 19. 00:15

모델-프리 알고리즘에서 벗어나 환경 모델을 학습하는 알고리즘을 알아봤다.

이러한 종류의 알고리즘을 개발하도록 영감을 준 패러다임 변화릐 주요 원일을 살펴봤다.

모델을 다룰 떄 발견 할 수 있는 두 가지 주요 사례를 구분

모델을 사용해 다음 행동을 계획하거나 폴리시를 학습하는 방법을 알아봤다.

이 방법을 선택하는데 정해진 규칙은 없지만 일반적으로 행동의 복잡도, 관측공간, 추론 속도와 관련 있다.

다음으로 모델-프리 알고리즘의 장,단점을 조사하고 모델-프리 알고리즘과 모델-기반 학습을 결합해 모델-프리 알고리즘으로 폴리시를 학습하는 방법을 상세하게 알아봤다.

이방법은 이미지 같은 고차원 관측 공간에서 모델을 사용하는 새로운 방법을 보여줌

 

모델-기반 알고리즘과 관련된 모든 자료를 더 잘 파악하기 위해 ME-TRPO를 개발함.

이 방법은 모델의 앙상블과 TRPO를 사용해 폴리시를 학습함으로써 모델의 불확실성에 대응할 것을 제안

 

모든 종류의 강화학습 알고리즘을 개발할때 고려해야하는 3가지 기본 항목

- 점근 성능: 시간과 하드웨어 면에서 무한 리소스를 사용할 수 있다고 가정할때, 알고리즘이 달성할 수 있는 최대 성능

- 월 클락 타임: 주어진 계산 능력으로 알고리즘이 특정 성능에 도달하는데 필요한 학습 시간

- 샘플효율성: 특정 성능에 도달하기 위해 환경과 상호 작용한 횟수

 

  • 에이전트가 체커를 플레이하도록 훈련시키기 위해 10회 게임만 가능한 경우 모델-기반 알고리즘을 사용해야 하는가 아니면 모델-프리 알고리즘을 사용해야 하는가?
    •  모델-기반 알고리즘
    • 동적 프로그래밍과 함께 환경 모델을 사용해 에이전트를 훈련시켜 함정이 있는 지역을 피해 이동할 수 있게 했다. 이러한 동적 프로그래밍dynamic Programming은 환경 모델을 사용하므로 모델-기반 알고리즘이다.
  • 모델-기반 알고리즘의 단점은 무엇인가?
    • 모델-기반 알고리즘은 일반적으로 모델-프리 알고리즘보다 점근 성능이 낮으며 학습 속도가 느리다.
    • 일반적으로 성능과 속도가 낮아지면 데이터 효율성이 높다.
    • 모델-기반 학습 성능이 떨어지는 이유 중 하나는 폴리시에 추가 오류를 발생시키는 모델의 부정확성 때문
  • 환경 모델을 모르면 모델을 어떻게 학습시킬수 있는가?
  • 데이터 집계 메서드를 사용하는 이유는?
  • ME-TRPO는 훈련을 어떻게 안정시키는가?
  • 모델 앙상블은 폴리시 학습을 어떻게 개선시키는가?
    • 모든 모델은 다음 상태를 예측하는데 사용하므로 폴리시를 학습할 시뮬레이션 궤도를 만든다.
    • 결과적으로 해당 폴리시는 전적으로 학습한 환경 모델에 근거해 훈련시킨다.

 

 

 

 

파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.

반응형