두가지 강화학습 문제 해결 방법의 장점을 결합한 방법을 알아봤다.
첫번째, Q-러닝 알고리즘 : 상태-행동 값을 추정해 최고의 다음 행동을 선택
두번째, 폴리시 그래디언트 알고리즘 : 그래디언트를 통해 예상 보상 폴리시를 최대화
두 접근법의 장,단점을 살펴봤고 대부분의 방법이 상호보완적이라는 것을 알게 됐다.
예를 들어 q-러닝 알고리즘은 샘플을 효율적으로 이용하지만 연속형 행동을 처리할 수 없다는 단점이 있다.
반면 폴리시 그래디언트 알고리즘은 더 많은 데이터가 필요해 샘플을 비효율적으로 이용하지만 연속형 행동을 처리할 수 있다는 장점이 있다.
DPG메서드: q-러닝과 폴리시 그래디언트 기술을 결합
DPG 메서드는 결정론적 폴리시 deterministic policy를 예측해 q-러닝 알고리즘의 전역 최적화보다 좋은 성능을 갖게 됨
DPG정리에서 q함수의 그래디언트를 통해 결정론적 폴리시를 업데이트함.
두가지 알고리즘 DPG알고리즘(DDPG와 TD3)
둘다 오프-폴리시 액터-크리틱 알고리즘으로 연속적인 행동 공간이 있는 환경에서 사용 할 수 있다.
TD3는 분산 감소를 위한 몇 가지 트릭을 캡슐화하고 q-러닝 알고리즘에서 일반적으로 나타나는 과대평가 편향 overestimation bias을 제한한 DDPG의 개선 기술이다.
DDPG 구현 (구현 관점에서 주요 항목 )
- 결정론적 액터-크리틱을 구축하는 방법
- 소프트업데이트 방법
- 일부 파라미터와 관련해 손실함수를 최적화 하는 방법
- 타깃 밸류 계산 방법
- Q-러닝 알고리즘의 주요 한계는 무엇인가?
- q-러닝 알고리즘은 샘플을 효율적으로 이용하지만 연속형 행동을 처리할 수 없다는 단점이 있다.
- 확률적 그래디언트 알고리즘은 왜 샘플 비효율적인가?
- 폴리시가 업데이트 될떄 마다 이전 데이터
- DPG는 최대화 문제를 어떻게 해결했는가?
- 확장한 기술로 폴리시로 심층 신경망을 사용하고 몇 가지 중요한 설계 옵션을 도입해 알고리즘을 더 안정화 했다.
- DPG는 충분한 탐색을 어떻게 보장하는가?
- DDPG란 무엇인가? 또한 이 알고리즘은 이전 알고리즘의 어떤 문제를 해결했는가?
- DDPG는 DQN에서 사용한 두가지 아이디어를 사용했지만 액터-크리틱 사례에 맞게 변경했다.
- 리플레이 버퍼: 에이전트가 운영되는 동안 습득한 모든 전이는 경험 리플레이라는 리플레이 버퍼에 저장한 후 해당 버퍼에서 미니 배치 샘플링을 해 액터와 크리틱을 훈련시킨다.
- 타깃 네트워크: 부분적으로 업데이트 되므로 학습 속도가 느려지는 문제가 있다. 하지만 학습 안정성을 확보하는 것이 더 중요하므로 타깃 네트워크를 사용하는 것이 좋다.
- DDPG는 DQN에서 사용한 두가지 아이디어를 사용했지만 액터-크리틱 사례에 맞게 변경했다.
- TD3가 최소화하려는 대상은 무엇인가?
- 분산 감소 (분산이 크면 그래디언트에 노이즈가 포함되므로, 알고리즘 성능에 안좋은 폴리시 업데이트를 한다. 분산이 큰 문제점은 TD3오류에서 발생하며 이는 후속상태의 행동 값을 추정하는데 영향을 미친다.
- TD3가 채택한 새로운 매커니즘은 무엇인가?
파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.
'Machine Learning > ReinforcementLearning' 카테고리의 다른 글
DAgger알고리즘으로 모방 학습하기 (0) | 2022.01.19 |
---|---|
모델 -기반 강화학습 (0) | 2022.01.19 |
TRPO와 PRO 구현 (0) | 2022.01.18 |
확률 기반 PG최적화 학습 (0) | 2022.01.17 |
확률 기반 PG최적화 학습 (0) | 2022.01.17 |