- 연속행동으로 에이전트를 제어하기 위해 폴리시 그래디언트 알고리즘을 로보스쿨이라는 환경이 적용
두가지 폴리시 그래디언트 알고리즘: TRPO, PPO
이알고리즘은 환경에서 샘플링한 데이터를 더 잘 활용하고 2개의 순차적 폴리시 분포의 차이를 제한하는 기술을 사용한다.
샘플효율성,견고함 robustness, 신뢰성 덕분에 TRPO와 PPO는 DOta 같은 매우 복잡한 환경에서도 사용할 수 있다.
AC와 Reinforce뿐만 아니라 PPO와 TRPO는 확률적 그래디언트 알고리즘 이다.
- 폴리시 신경망은 연속형 에이전트를 어떻게 제어하는가?
- 그래디언트외의 함수 곡률을 사용하는것.
- 곡률 정보는 2차 미분을 계산해 구할 수 있다. 곡률값이 클수록 두 점 사이의 그레디언트가 급격하게 변화한다는 뜻이며, 예방책으로 상대적으로 작고 신중한 보폭을 취해 발생 가능한 절벽을 피할 수 있게한다.
- KL발산이란 무엇인가?
- kl발산은 대칭이 아니므로 적절한 측정지표는 아니지만, 두 확률분포 간 차이를 측정하는 훌륭한 근사값이라 할 수 있다.
- 두 분포가 서로 다를수록 kl발산 값은 크다.
- TRPO의 기본적인 아이디어는 무엇인가?
- 특히 TRPO는 이름에서도 알 수 있듯이 2차 미분, KLD에 근거한 기존 폴리시와 새로운 폴리시 사이의 제약 조건을 설정해 목적함수에 대한 신뢰영역trust region을 구축한다.
- KL발산은 TRPO에서 어떻게 사용되는가?
- TRPO는 비선형 함수 근사 nonlinear function approximation를 위한 NPG(Ratural Policy Gradient)알고리즘의 연속으로 볼 수 있다.
- TRPO에서 도입한 가장 큰 개선은 신뢰영역을 형성하기 위해 신규 폴리시와 이전 폴리시의 분포차인 KLD를 제약조건으로 사용했다.
- 이를 통해 네트워크는 항상 신뢰 영역내에서 가능한 최대 스텝을 취할 수 있다.
- PPO의 주요 장점은 무엇인가?
- PPO는 TRPO와 유사하지만 1차 최적화 메서드만 사용해 목적함수를 최적화 한다.
- PPO는 목표함수가 너무 커지면 목적함수를 정리 Clipping해 폴리시가 너무 큰 스텝을 취하지 않게 한다.
- PPO가 좋은 샘플 효율성을 달성하는 방법은 무엇인가?
- 다른 폴리시 그래디언트 알고리즘과 마찬가지로 PPO와 TRPO도 on-policy지만,
- TRPO는 2차 미분을 사용해 데이터에서 고차 정보를 추출해 사용하므로 샘플 효율성이 좋고
- PPO는 동일한 온-폴리시 데이터에 대해 여러 폴리시 업데이트를 수행할 수 있어 샘플 효율성이 좋다.
- AC와 reonforce 보다 상대적으로 샘플 효율성이 높아 적은 데이터로도 학습이 가능하다는 장점이 있다.
파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.
반응형
'Machine Learning > ReinforcementLearning' 카테고리의 다른 글
모델 -기반 강화학습 (0) | 2022.01.19 |
---|---|
DDPG와 TD3 애플리케이션 (0) | 2022.01.18 |
확률 기반 PG최적화 학습 (0) | 2022.01.17 |
확률 기반 PG최적화 학습 (0) | 2022.01.17 |
Deep Q-Network (0) | 2022.01.16 |