'mdp' 태그의 글 목록

[Book][doit_1]강화학습이란

강화학습 Reinforcement Learning 행동에 대한 보상만 주어짐. 인공지능의 방법론인 머신러닝 machine learning의 한종류 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눔 참고: 탐험과 이용중에서 중요하게 생각하는 요소에 따라 선택하는 알고리즘 가치반복법과 MC학습법 실습에서, 아래의 알고리즘을 사용해도 됨. 탐욕알고리즘 에이전트는 가장 높은 가치 함수 또는 Q 함수를 추구하는 방향으로 해동을 결정함. 탐험을 배제한 이용 랜덤 노이즈 알고리즘 에이전트가 지나는 각 단계마다 가치 함수의 추정치에 무작윗값을 더하는 방식. 이렇게 더한 노이즈로 탐험을 진행 앱실론-탐욕 알고리즘 에이전트는 엡실론 확률을 통해 가장 높은 가치 함수를 추구하지 않는 행동 중에서 하나를 무작위로 선택..

Machine Learning/ReinforcementLearning 2022.02.01

« 2025/01 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

mdp 2

티스토리툴바