알고리즘 8

[Algorithms]TWAP, VWAP

TWAP : 시간 분할 매수 주문 The shares are equally divided across time. WAP 주문은 주문한 수량을 장중 시간별로 나누어 체결시키는 알고리즘 매매 방법 과거 거래시간을 분석하여 현지 브로커 기준으로 장중 분할 체결함 시간분할 주문이라고 부름 장중 시장 평균 가격을 추구할 수 있는 가격 전략 그러나 시장 평균 가격을 보장하지는 않음 VWAP : 수량 분할 매수 주문 The Shares are traded at a price which closely tracks the VWAP. VWAP 주문은 주문한 수량을 장중에 나누어 체결시키는 알고리즘 매매 방법 과거 거래향을 분석, 현지 브로커 기준으로 거래량이 많을 때 많이, 적을 때 적게 배분하여 분할 체결. 수량 분할 ..

[ppo]Proximal policy optimization algorithms

2022.01.18 - [ReinforcementLearning] - TRPO와 PRO 구현 - 연속행동으로 에이전트를 제어하기 위해 폴리시 그래디언트 알고리즘을 로보스쿨이라는 환경이 적용 - 쉬운 구현과 상징성의 이유로 아직까지 제일 유명한 알고리즘. - first-order optimization 만을 이용해 구현이 매우 쉬우며, TRPO만큼의 성능을 지니면서 data effciency 문제와 TRPO의 복잡하고,noise를 포함한 구조의 문제점들을 해결하였다. PPO의 주요 장점은 무엇인가? PPO는 TRPO와 유사하지만 1차 최적화 메서드만 사용해 목적함수를 최적화 한다. PPO는 목표함수가 너무 커지면 목적함수를 정리 Clipping해 폴리시가 너무 큰 스텝을 취하지 않게 한다. PPO가 좋은 ..

확률 기반 PG최적화 학습

- 폴리시 그래디언트 메서드 - Reinforce 알고리즘 PG메서드의 더 간단한 버전을 Reinforce라고 함 Reinforce는 완전한 궤도로부터 실제 리턴true return을 계산하는 MC리턴의 특성으로 편향이 없는 unbiased 좋은 특성을 가지고있다. 하지만, 이러한 불편 추정unbiased estimate은 궤도의 길이에 따라 값이 증가하는 특성을 갖는 분산에는 바람직 하지 않다. 간단한 reinforce는 편향이 없다는 장점이 있지만, 분산variance이 상대적으로 크다는 단점이 있다. - 베이스라인이 있는 Reinforce 베이스라인을 추가하면 불편 특성을 유지하는 동안(근사적으로 이알고리즘은 로컬 최소값에 수렴한다.) 분산을 낮출 수 있다. 하지만 베이스라인이 있는 Reinforc..

확률 기반 PG최적화 학습

- 폴리시 그래디언트 메서드 - Reinforce 알고리즘 PG메서드의 더 간단한 버전을 Reinforce라고 함 Reinforce는 완전한 궤도로부터 실제 리턴true return을 계산하는 MC리턴의 특성으로 편향이 없는 unbiased 좋은 특성을 가지고있다. 하지만, 이러한 불편 추정unbiased estimate은 궤도의 길이에 따라 값이 증가하는 특성을 갖는 분산에는 바람직 하지 않다. 간단한 reinforce는 편향이 없다는 장점이 있지만, 분산variance이 상대적으로 크다는 단점이 있다. - 베이스라인이 있는 Reinforce 베이스라인을 추가하면 불편 특성을 유지하는 동안(근사적으로 이알고리즘은 로컬 최소값에 수렴한다.) 분산을 낮출 수 있다. 하지만 베이스라인이 있는 Reinforc..

Q-러닝과 SARSA 애플리케이션

환경과 상호작용해 경험을 통해 학습하는 새로운 강화학습 알고리즘을 소개했다. 이방법은 환경 모델에 의존하지 않고 폴리시와 가치함수를 학습한다는 점에서 동적 프로그래밍과는 다르다. 몬테카를로 방법이 환경에서 간단하게 샘플링하는 방법이지만 학습하기 위해서는 완전한 궤도가 필요하므로 많은 실제 환경에 적용 할 수 없다는 것을 알게 됐다. 이러한 단점을 극복하기 위해 부트스트레핑을 몬테카를로 방법과 결합한 TD학습 방법을 사용했다. 이 알고리즘은 부트스트레핑 기술을 이용해 온라인으로 학습하고 분산을 줄이면서 최적의 폴리시에 수렴하게 하는 방법이다. 강화학습에 사용 되는 몬테카를로 메서드의 주요 특징은? 몬테카를로 메서드가 오프라인인 이유는? TD학습의 두 가지 주요 아이디어는? 부트스트레핑을 몬테카를로 방법과 ..

동적 프로그래밍으로 문제 해결하기

MDP란? - 가치함수와 기대보상으로 이루어짐. - Markov 특성은 MDP에 내재돼 있으며, 미래의 상태는 과거의 이력이 아닌 현재 상태로부터만 영향을 받는다. - MDP정의를 사용해 폴리시, 리턴함수, 예상리턴(Expected return), 행동-가치함수, 가치함수의 개념을 정의했다. 강화학습 알고리즘은 모델-기반과 모델-프리 방법으로 구분할 수 있다. 모델-기반은 다음 행동을 계획하기 위해 환경 모델이 필요하며 모델-프리는 모델과는 독립적이며 환경과 직접 상호 작용해 학습할 수 있다. 폴리시 그래디언트 알고리즘은 그래디언트 상승을 통해 폴리시에서 직접 학습 하므로 온-폴리시 on-policy라고 한다, 가치함수 알고리즘은 오프-폴리시 off-policy이며 폴리시를 만들기 위해 행동-가치함수나 ..

강화학습 사이클과 openAI Gym 구현하기

대부분의 최신 강화학습 알고리듬은 딥러닝과 관련 있으므로 책전반에 걸쳐 사용할 딥러닝 프레임 워크인 텐서플로우를 살펴봤다. 텐서플로우를 사용하면 역전파 backpropagation 같은 심층신경망의 복잡한 부분을 처리할 때 딥강화학습 알고리듬의 개발 속도를 높여 준다. 또한 tensorflow는 알고리듬 디버깅 과정을 모니터링하고 지원하는 tensorBoard를 제공한다. Gym에서 step()함수의 출력은 무엇인가? step() : 실행 // render() : 결과를 표시 OpenAI Gym 인터페이스를 이용한 액션을 어떻게 샘플링 할 수 있는가? 에이전트에서 환경 : 액션 환경에서 에이전트 : 관측, 보상, 종료여부, 정보 관측: 환경에 대한 새로운 관측을 나타내는 객체 보상 : 마지막 액션에서 얻..

강화학습

강화학습은 의사결정을 위한 목표 지향 접근법이다. 이방법은 환경과 직접 상호작용 하고 지연된 보상 메커니즘을 이용한다는 점에서 기존 패러다임과 차이가 있다 강화학습에서 딥러닝을 사용하면 고차원 상태 공간 문제와 인지 데이터 분석 문제를 해결하는데 도움이 된다. 강화학습에서 환경 모델은 필요 없지만 추가 정보를 제공해 폴리시의 품질을 개선하는데 도움이 된다. 강화학습이란 무엇인가? 의사 결정을 위한 목표 지향 접근법 에이전트의 최종 목표는 무엇인가? 살아 있는 동안 누적된 총 보상을 최대화 하는 것 지도학습과 강화학습의 주요 차이는 무엇인가? 지도학습과 강화학습은 데이터를 이용해 학습하는 유사하지만 다른 패러다임을 가짐. 지도학습 : 예제를 구성하는 제한된 데이터 양을 갖는 고정된 데이터셋으로 일반화 방법..

반응형