'DP' 태그의 글 목록

동적 프로그래밍으로 문제 해결하기

MDP란? - 가치함수와 기대보상으로 이루어짐. - Markov 특성은 MDP에 내재돼 있으며, 미래의 상태는 과거의 이력이 아닌 현재 상태로부터만 영향을 받는다. - MDP정의를 사용해 폴리시, 리턴함수, 예상리턴(Expected return), 행동-가치함수, 가치함수의 개념을 정의했다. 강화학습 알고리즘은 모델-기반과 모델-프리 방법으로 구분할 수 있다. 모델-기반은 다음 행동을 계획하기 위해 환경 모델이 필요하며 모델-프리는 모델과는 독립적이며 환경과 직접 상호 작용해 학습할 수 있다. 폴리시 그래디언트 알고리즘은 그래디언트 상승을 통해 폴리시에서 직접 학습 하므로 온-폴리시 on-policy라고 한다, 가치함수 알고리즘은 오프-폴리시 off-policy이며 폴리시를 만들기 위해 행동-가치함수나 ..

Machine Learning/ReinforcementLearning 2022.01.16

« 2025/01 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

DP 1

티스토리툴바