Machine Learning/ReinforcementLearning

블랙박스 최적화 알고리즘 이해하기

뚜둔뚜둔 2022. 1. 19. 00:52

EA: 강화학습 작업에 적용할 수 있는 생물학적 진화에서 영감을 얻은 새로운 블랙박스 알고리즘

EA 는 강화학습과 다른 관점에서 해당 문제를 해결함

강화학습 알고리즘을 설계할 떄 다뤄야 하는 많은 특성은 진화방법에서 필요없음

두가지 방법의 차이는 본질적 최적화 방법과 기본 가정에 있음

ex. EA는 블랙박스 알고리즘이므로 강화학습에서와 같이 미분 가능한 함수를 더 이상 사용 하지 않아도 돼 원하는 함수가 뭐든지 최적화 할 수 있음.

 

두가지 진화 알고리즘 :

1. 유전자 알고리즘 genetic algorithms 

  • 교차 crossover와 돌연변이 mutation를 이용해 부모로 부터 자손을 생성하므로 더 복잡

2. 진화 전략 evolution stategies

  • 이전 세대의 돌연변이를 통해 만들어진 개체군에서 가장 우수한 개체를 선택
  • es는 단순해 수천개 병렬 작업자를 활용해 해당 알고리즘 규모를 확장 할 수 있음
  • 복잡한 환경에서 강화학습 알고리즘과 동등한 성능을 낼 수 있다느것 입증
  • 고성능이 가능함
  • 그러나 ES는 AC와 reinforce보다 2~3배더 스탭이 필요 하다는 것이 단점
  • 이 문제는 여러 작업자를 이용한 선형 형태의 규모 확장으로 대응이 가능하며 충분한 병렬 연산 파워를 활용 할 수 있어 강화학습 알고리즘 대비 시간 측면에서 어렵지 않게 문제를 해결할 수 있음

강화학습의 장점

  • 샘플 효율성 sample efficiency: 강화학습 알고리즘은 환경에서 얻은 정보를 더 잘 활용하므로 결과적으로 학습에 필요한 데이터가 적고, 단계가 줄어든다.
  • 탁월한 성능 excellent performance: 일반적으로 강화 학습 알고리즘이 진화 전략보다 성능이 뛰어나다.

 

  • 순차적 의사 결정문제를 해결하기 위한 강화학습의 대안으로 알고리즘 2개 설명하시오
    • 유전자 알고리즘. 진화 전략 알고리즘
  • 진화 알고리즘에서 새로운 객체를 생성하는 프로세스는 무엇인가?
  • 유전자 알고리즘 같은 진화 알고리즘 개발에 아이디어를 제공한 방법은 무엇인가?
    • 현재 세대를 평가하고 최고 성과를 갖는 개체만 이용해 다음 후보 해를 만들고 나머지 개체는 버린다.
  • CMA-ES는 진화 전략으로 어떻게 발전 했는가?
    • 다변량 정규분포에 근거해 새로운 후보 솔루션을 샘플링한다
    • CMA-ES는 주변 공간에 대한 확신이 있을때는 주어진 방향으로 공분산 행렬을 점점 감소시켜 검색 공간을  축소한다.
    • 이와달리 주변공간에 대한 확신이 없을떄는 주어진 방향으로 공분산 행렬을 증가시켜 검색공간을 확대시킨다.
  • 진화전략의 장단점은 무엇인가?
  • 논문 "The Evolution Strategies as a Scalable Alternative to Reinforcement Learning"에서 분산을 낮추기 위한 전략에 사용한 트릭은 무엇인가?

 

 

파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.

반응형