Machine Learning/ReinforcementLearning

DDPG와 TD3 애플리케이션

뚜둔뚜둔 2022. 1. 18. 23:38

두가지 강화학습 문제 해결 방법의 장점을 결합한 방법을 알아봤다.

첫번째,  Q-러닝 알고리즘 : 상태-행동 값을 추정해 최고의 다음 행동을 선택

두번째, 폴리시 그래디언트 알고리즘 : 그래디언트를 통해 예상 보상 폴리시를 최대화

 

두 접근법의 장,단점을 살펴봤고 대부분의 방법이 상호보완적이라는 것을 알게 됐다.

예를 들어 q-러닝 알고리즘은 샘플을 효율적으로 이용하지만 연속형 행동을 처리할 수 없다는 단점이 있다.

반면 폴리시 그래디언트 알고리즘은 더 많은 데이터가 필요해 샘플을 비효율적으로 이용하지만 연속형 행동을 처리할 수 있다는 장점이 있다.

DPG메서드:  q-러닝과 폴리시 그래디언트 기술을 결합

DPG 메서드는 결정론적 폴리시 deterministic policy를 예측해 q-러닝 알고리즘의 전역 최적화보다 좋은 성능을 갖게 됨

DPG정리에서 q함수의 그래디언트를 통해 결정론적 폴리시를 업데이트함.

 

두가지 알고리즘 DPG알고리즘(DDPG와 TD3)

둘다 오프-폴리시 액터-크리틱 알고리즘으로 연속적인 행동 공간이 있는 환경에서 사용 할 수 있다.

TD3는 분산 감소를 위한 몇 가지 트릭을 캡슐화하고 q-러닝 알고리즘에서 일반적으로 나타나는 과대평가 편향 overestimation bias을 제한한 DDPG의 개선 기술이다.

 

 

DDPG 구현  (구현 관점에서 주요 항목 )

- 결정론적 액터-크리틱을 구축하는 방법

- 소프트업데이트 방법

- 일부 파라미터와 관련해 손실함수를 최적화 하는 방법

- 타깃 밸류 계산 방법

 

 

  • Q-러닝 알고리즘의 주요 한계는 무엇인가?
    •  q-러닝 알고리즘은 샘플을 효율적으로 이용하지만 연속형 행동을 처리할 수 없다는 단점이 있다.
  • 확률적 그래디언트 알고리즘은 왜 샘플 비효율적인가?
    • 폴리시가 업데이트 될떄 마다 이전 데이터
  • DPG는 최대화 문제를 어떻게 해결했는가?
    • 확장한 기술로 폴리시로 심층 신경망을 사용하고 몇 가지 중요한 설계 옵션을 도입해 알고리즘을 더 안정화 했다.
  • DPG는 충분한 탐색을 어떻게 보장하는가?
  • DDPG란 무엇인가? 또한 이 알고리즘은 이전 알고리즘의 어떤 문제를 해결했는가?
    • DDPG는 DQN에서 사용한 두가지 아이디어를 사용했지만 액터-크리틱 사례에 맞게 변경했다.
      • 리플레이 버퍼: 에이전트가 운영되는 동안 습득한 모든 전이는 경험 리플레이라는 리플레이 버퍼에 저장한 후 해당 버퍼에서 미니 배치 샘플링을 해 액터와 크리틱을 훈련시킨다.
      • 타깃 네트워크: 부분적으로 업데이트 되므로 학습 속도가 느려지는 문제가 있다. 하지만 학습 안정성을 확보하는 것이 더 중요하므로 타깃 네트워크를 사용하는 것이 좋다.
  • TD3가 최소화하려는 대상은 무엇인가?
    • 분산 감소 (분산이 크면 그래디언트에 노이즈가 포함되므로, 알고리즘 성능에 안좋은 폴리시 업데이트를 한다. 분산이 큰 문제점은 TD3오류에서 발생하며 이는 후속상태의 행동 값을 추정하는데 영향을 미친다.
  • TD3가 채택한 새로운 매커니즘은 무엇인가?

 

 

 

파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.

반응형

'Machine Learning > ReinforcementLearning' 카테고리의 다른 글

DAgger알고리즘으로 모방 학습하기  (0) 2022.01.19
모델 -기반 강화학습  (0) 2022.01.19
TRPO와 PRO 구현  (0) 2022.01.18
확률 기반 PG최적화 학습  (0) 2022.01.17
확률 기반 PG최적화 학습  (0) 2022.01.17