강화학습 Reinforcement Learning 행동에 대한 보상만 주어짐. 인공지능의 방법론인 머신러닝 machine learning의 한종류 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눔 참고: 탐험과 이용중에서 중요하게 생각하는 요소에 따라 선택하는 알고리즘 가치반복법과 MC학습법 실습에서, 아래의 알고리즘을 사용해도 됨. 탐욕알고리즘 에이전트는 가장 높은 가치 함수 또는 Q 함수를 추구하는 방향으로 해동을 결정함. 탐험을 배제한 이용 랜덤 노이즈 알고리즘 에이전트가 지나는 각 단계마다 가치 함수의 추정치에 무작윗값을 더하는 방식. 이렇게 더한 노이즈로 탐험을 진행 앱실론-탐욕 알고리즘 에이전트는 엡실론 확률을 통해 가장 높은 가치 함수를 추구하지 않는 행동 중에서 하나를 무작위로 선택..