Machine Learning/ReinforcementLearning

DAgger알고리즘으로 모방 학습하기

뚜둔뚜둔 2022. 1. 19. 00:33

모방 학습이라는 새로운 학습 방법을 알아봄

-> 신규 패러다임의 특징은 전문가의 행동을 흉내내는 학습 방법에 있음.

모방학습은 보상 신호가 없다는 점과 전문가가 제공하는 많은 정보를 사용 할 수 있다는 점에서 강화학습과 다름

 

새로운 상태에서 학습자의 행동 신뢰도를 높이기 위해 학습자가 학습에사용하는 데이터 집합을 상태 행동 집합에 추가해 확장할 수 있다.

-> 이 프로세스를 데이터 집계라고 한다.

새로운 데이터는 새로운 학습 폴리시에서 발생하며 이 경우 동일한 학습 폴리시에서 발생하는 온-폴리시 데이터를 언급

온-폴리시 상태와 전문가 피드백의 통합은 학습 품질을 높이는 매우 좋은 접근법이다.

 

모방학습 알고리즘은 전문가의 행동을 따라하기만 하므로 전문가 보다 좋은 성능을 달성 할 수 없다는 한계가 있다.

따라서 전문가로 부터 보상함수를 추론해 이 문제를 극복하는 역강화학습inverseRL을 소개함.

이 방법을 사용하면 폴리시는 지도자와 독립적으로 학습할 수 있다.

 

DAgger의 구현 코드

- 전문가 추론 함수를 적재해 상태가 설정된 행동을 예측한다.

- 학습자를 위한 계산 그래프를 만든다.

- DAgger 이터레이션을 작성해 데이터 집합을 빌드하고 신규 폴리시를 학습한다.

 

    • 모방 학습은 진화 학습 기술에 속한다고 할 수 있는가?
    • 바둑go에서 패하지 않는 에이전트를 만들기 위해 모방학습을 사용 하겠는가?
      • 모방학습 알고리즘은 전문가의 행동을 따라하기만 하므로 전문가 보다 좋은 성능을 달성 할 수 없다는 한계가 있다.
      • 따라서 전문가로 부터 보상함수를 추론해 이 문제를 극복하는 역강화학습inverseRL을 소개함.
    • DAgger의 전체 명칭은 무엇인가?
      • Dataset Aggregation
      • 데모를 통해 학습하는 가장 성공중 하나
      • 유도된 상태의 분포에서 잘 수행되는 반복 폴리시 메타-알고리즘
    • DAgger의 주요 장점은 무엇인가?
      • 실수로부터 회복하는 방법을 전문가가 학습자에게 가르치는 능동메서드 active method를 제공해 폴리시 분포차distribution mismatch문제를 해결하는 것
    • IL보다 RL을 사용하는 것이 좋은 분야는 무엇인가?
      • IL은 대상행동을 유발한 근본 원인을 모른채 전문가의 동작을 모방하는 방법
      • IL은 대상 행동을 하게 된 근본 원인을 잘 모름
      • RL은 IL과 달리 상대적으로 직접적인 지도를 적게받고 빈도가 적은 보상에만 접근할 수 있다.

 

 

 

 

 

파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.

반응형

'Machine Learning > ReinforcementLearning' 카테고리의 다른 글

[Book][doit_1]강화학습이란  (2) 2022.02.01
블랙박스 최적화 알고리즘 이해하기  (0) 2022.01.19
모델 -기반 강화학습  (0) 2022.01.19
DDPG와 TD3 애플리케이션  (0) 2022.01.18
TRPO와 PRO 구현  (0) 2022.01.18