'폴리시 그래디언트 알고리즘' 태그의 글 목록

DDPG와 TD3 애플리케이션

두가지 강화학습 문제 해결 방법의 장점을 결합한 방법을 알아봤다. 첫번째, Q-러닝 알고리즘 : 상태-행동 값을 추정해 최고의 다음 행동을 선택 두번째, 폴리시 그래디언트 알고리즘 : 그래디언트를 통해 예상 보상 폴리시를 최대화 두 접근법의 장,단점을 살펴봤고 대부분의 방법이 상호보완적이라는 것을 알게 됐다. 예를 들어 q-러닝 알고리즘은 샘플을 효율적으로 이용하지만 연속형 행동을 처리할 수 없다는 단점이 있다. 반면 폴리시 그래디언트 알고리즘은 더 많은 데이터가 필요해 샘플을 비효율적으로 이용하지만 연속형 행동을 처리할 수 있다는 장점이 있다. DPG메서드: q-러닝과 폴리시 그래디언트 기술을 결합 DPG 메서드는 결정론적 폴리시 deterministic policy를 예측해 q-러닝 알고리즘의 전역 ..

Machine Learning/ReinforcementLearning 2022.01.18

2025. 04

일

월

화

수

목

금

토

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

폴리시 그래디언트 알고리즘 1

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역