'역강화학습' 태그의 글 목록

DAgger알고리즘으로 모방 학습하기

모방 학습이라는 새로운 학습 방법을 알아봄 -> 신규 패러다임의 특징은 전문가의 행동을 흉내내는 학습 방법에 있음. 모방학습은 보상 신호가 없다는 점과 전문가가 제공하는 많은 정보를 사용 할 수 있다는 점에서 강화학습과 다름 새로운 상태에서 학습자의 행동 신뢰도를 높이기 위해 학습자가 학습에사용하는 데이터 집합을 상태 행동 집합에 추가해 확장할 수 있다. -> 이 프로세스를 데이터 집계라고 한다. 새로운 데이터는 새로운 학습 폴리시에서 발생하며 이 경우 동일한 학습 폴리시에서 발생하는 온-폴리시 데이터를 언급 온-폴리시 상태와 전문가 피드백의 통합은 학습 품질을 높이는 매우 좋은 접근법이다. 모방학습 알고리즘은 전문가의 행동을 따라하기만 하므로 전문가 보다 좋은 성능을 달성 할 수 없다는 한계가 있다. ..

Machine Learning/ReinforcementLearning 2022.01.19

« 2025/01 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

역강화학습 1

티스토리툴바