TRPO와 PRO 구현

Machine Learning/ReinforcementLearning

TRPO와 PRO 구현

뚜둔뚜둔 2022. 1. 18. 14:24

- 연속행동으로 에이전트를 제어하기 위해 폴리시 그래디언트 알고리즘을 로보스쿨이라는 환경이 적용

두가지 폴리시 그래디언트 알고리즘: TRPO, PPO

이알고리즘은 환경에서 샘플링한 데이터를 더 잘 활용하고 2개의 순차적 폴리시 분포의 차이를 제한하는 기술을 사용한다.

샘플효율성,견고함 robustness, 신뢰성 덕분에 TRPO와 PPO는 DOta 같은 매우 복잡한 환경에서도 사용할 수 있다.

AC와 Reinforce뿐만 아니라 PPO와 TRPO는 확률적 그래디언트 알고리즘 이다.

폴리시 신경망은 연속형 에이전트를 어떻게 제어하는가?
- 그래디언트외의 함수 곡률을 사용하는것.
- 곡률 정보는 2차 미분을 계산해 구할 수 있다. 곡률값이 클수록 두 점 사이의 그레디언트가 급격하게 변화한다는 뜻이며, 예방책으로 상대적으로 작고 신중한 보폭을 취해 발생 가능한 절벽을 피할 수 있게한다.
KL발산이란 무엇인가?
- kl발산은 대칭이 아니므로 적절한 측정지표는 아니지만, 두 확률분포 간 차이를 측정하는 훌륭한 근사값이라 할 수 있다.
- 두 분포가 서로 다를수록 kl발산 값은 크다.
TRPO의 기본적인 아이디어는 무엇인가?
- 특히 TRPO는 이름에서도 알 수 있듯이 2차 미분, KLD에 근거한 기존 폴리시와 새로운 폴리시 사이의 제약 조건을 설정해 목적함수에 대한 신뢰영역trust region을 구축한다.
KL발산은 TRPO에서 어떻게 사용되는가?
- TRPO는 비선형 함수 근사 nonlinear function approximation를 위한 NPG(Ratural Policy Gradient)알고리즘의 연속으로 볼 수 있다.
- TRPO에서 도입한 가장 큰 개선은 신뢰영역을 형성하기 위해 신규 폴리시와 이전 폴리시의 분포차인 KLD를 제약조건으로 사용했다.
- 이를 통해 네트워크는 항상 신뢰 영역내에서 가능한 최대 스텝을 취할 수 있다.
PPO의 주요 장점은 무엇인가?
- PPO는 TRPO와 유사하지만 1차 최적화 메서드만 사용해 목적함수를 최적화 한다.
- PPO는 목표함수가 너무 커지면 목적함수를 정리 Clipping해 폴리시가 너무 큰 스텝을 취하지 않게 한다.
PPO가 좋은 샘플 효율성을 달성하는 방법은 무엇인가?
- 다른 폴리시 그래디언트 알고리즘과 마찬가지로 PPO와 TRPO도 on-policy지만,
- TRPO는 2차 미분을 사용해 데이터에서 고차 정보를 추출해 사용하므로 샘플 효율성이 좋고
- PPO는 동일한 온-폴리시 데이터에 대해 여러 폴리시 업데이트를 수행할 수 있어 샘플 효율성이 좋다.
- AC와 reonforce 보다 상대적으로 샘플 효율성이 높아 적은 데이터로도 학습이 가능하다는 장점이 있다.

파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.

'Machine Learning > ReinforcementLearning' 카테고리의 다른 글

모델 -기반 강화학습 (0)	2022.01.19
DDPG와 TD3 애플리케이션 (0)	2022.01.18
확률 기반 PG최적화 학습 (1)	2022.01.17
확률 기반 PG최적화 학습 (0)	2022.01.17
Deep Q-Network (0)	2022.01.16

현재글TRPO와 PRO 구현

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

#nlp #자연어처리 #ml #ai #MLOps

알고리즘, 딥러닝, 쿠버네티스, AI, Airflow, 강화학습, Python, 머신러닝, Kubernetes, Mlflow, DevOps, cicd, docker, ml, 파이썬, MLOps, reinforcement, conda, error, K8S,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer