DQN알고리즘 3가지 주요 부분으로 구성 - 데이터 수집과 저장 : 데이터는 행동 폴리시 behavior에 의해 수집한다. - 신경망 최적화(버퍼에서 샘플링한 미니 배치에 대해 SGD를 수행한다.) - 타깃 업데이트 DQN 구현 DQN코드안 네가지 주요 구성 요소 - DNN - 경험 버퍼 - 계산 그래프 - 훈련 및 평가 루프 Q-러닝과 결합해 심층 신경망을 사용할 수 있었던 최초의 알고리즘은 DQN이다. 이 알고리즘은 두가지 핵심 요소를 통합해 학습 안정화와 아타리 2600게임 같은 복잡한 작업을 제어할 수 있었다. 사용한 두 가지 핵심 요소는 기존 경험을 저장하는데 사용한 리플레이 버퍼replay buffer와 온라인 네트워크 online network 보다 업데이트 빈도가 낮은 별도의 타깃 네트워크..