머신러닝 10

colab VS paperspace Gradient

공부하던 중 Gradient가 보이길래 검색해보았당 사양은 colab이 조금 더 좋아 보이나, 필요에 따라 Gradient를 사용해도 좋을 것 같다. 이번에는 Gradient를 사용해봐야겠다. 딥러닝을 공부하려면 고성능 컴퓨팅 자원 (특히 GPU) 를 필요로 합니다. 하지만 가난한 학생 입장에서 고성능 컴퓨터를 맞추기는 쉽지 않습니다. 그래서 많은 사람들이 무료로 고성능 GPU를 활용 할 수 있는 Google Colabatory (이하 Colab)를 사용합니다. 하지만 Colab에도 몇가지 단점들이 있습니다. 대표적인 단점 은 아래와 같습니다. 예기치 않은 세션 종료 (일정 시간 이상 자리비움 혹은 12시간 이상 세션 사용) 세션 종료 시 데이터 소멸 별도의 저장공간 제공 X 세션이 종료 되면 그동안 학..

Etc 2022.10.25

[Mlflow] MLflow 란?

mlflow란 머신러닝 모델의 실험을 tracking하고 model을 공유 및 deploy할 수 있도록 지원하는 라이브러리. 머신러닝 학습과 관련된 전반적인 lifecycle을 지원해주는 라이브러리 mlflow의 논리적 컴포넌트 구성은 4개로 구성되어 있다. mlflow는 단독 파이썬 패키지로 구성되어 있어 가볍고 빠르게 Workflow지원 가능하다. MLflow Tracking : Record and query experiments: code, data, config, and results 머신러닝 모델을 학습시킬 때 생기는 각종 파라미터, 그리고 머신러닝 모델 training이 끝난 후 metric의 결과 등을 logging 하고 실행할 수 있도록 코드 패키지 형식으로 지원해준다. 이러한 형식으로 만..

Infra/MLops 2022.01.19

모델 -기반 강화학습

모델-프리 알고리즘에서 벗어나 환경 모델을 학습하는 알고리즘을 알아봤다. 이러한 종류의 알고리즘을 개발하도록 영감을 준 패러다임 변화릐 주요 원일을 살펴봤다. 모델을 다룰 떄 발견 할 수 있는 두 가지 주요 사례를 구분 모델을 사용해 다음 행동을 계획하거나 폴리시를 학습하는 방법을 알아봤다. 이 방법을 선택하는데 정해진 규칙은 없지만 일반적으로 행동의 복잡도, 관측공간, 추론 속도와 관련 있다. 다음으로 모델-프리 알고리즘의 장,단점을 조사하고 모델-프리 알고리즘과 모델-기반 학습을 결합해 모델-프리 알고리즘으로 폴리시를 학습하는 방법을 상세하게 알아봤다. 이방법은 이미지 같은 고차원 관측 공간에서 모델을 사용하는 새로운 방법을 보여줌 모델-기반 알고리즘과 관련된 모든 자료를 더 잘 파악하기 위해 ME-..

DDPG와 TD3 애플리케이션

두가지 강화학습 문제 해결 방법의 장점을 결합한 방법을 알아봤다. 첫번째, Q-러닝 알고리즘 : 상태-행동 값을 추정해 최고의 다음 행동을 선택 두번째, 폴리시 그래디언트 알고리즘 : 그래디언트를 통해 예상 보상 폴리시를 최대화 두 접근법의 장,단점을 살펴봤고 대부분의 방법이 상호보완적이라는 것을 알게 됐다. 예를 들어 q-러닝 알고리즘은 샘플을 효율적으로 이용하지만 연속형 행동을 처리할 수 없다는 단점이 있다. 반면 폴리시 그래디언트 알고리즘은 더 많은 데이터가 필요해 샘플을 비효율적으로 이용하지만 연속형 행동을 처리할 수 있다는 장점이 있다. DPG메서드: q-러닝과 폴리시 그래디언트 기술을 결합 DPG 메서드는 결정론적 폴리시 deterministic policy를 예측해 q-러닝 알고리즘의 전역 ..

TRPO와 PRO 구현

- 연속행동으로 에이전트를 제어하기 위해 폴리시 그래디언트 알고리즘을 로보스쿨이라는 환경이 적용 두가지 폴리시 그래디언트 알고리즘: TRPO, PPO 이알고리즘은 환경에서 샘플링한 데이터를 더 잘 활용하고 2개의 순차적 폴리시 분포의 차이를 제한하는 기술을 사용한다. 샘플효율성,견고함 robustness, 신뢰성 덕분에 TRPO와 PPO는 DOta 같은 매우 복잡한 환경에서도 사용할 수 있다. AC와 Reinforce뿐만 아니라 PPO와 TRPO는 확률적 그래디언트 알고리즘 이다. 폴리시 신경망은 연속형 에이전트를 어떻게 제어하는가? 그래디언트외의 함수 곡률을 사용하는것. 곡률 정보는 2차 미분을 계산해 구할 수 있다. 곡률값이 클수록 두 점 사이의 그레디언트가 급격하게 변화한다는 뜻이며, 예방책으로 상..

확률 기반 PG최적화 학습

- 폴리시 그래디언트 메서드 - Reinforce 알고리즘 PG메서드의 더 간단한 버전을 Reinforce라고 함 Reinforce는 완전한 궤도로부터 실제 리턴true return을 계산하는 MC리턴의 특성으로 편향이 없는 unbiased 좋은 특성을 가지고있다. 하지만, 이러한 불편 추정unbiased estimate은 궤도의 길이에 따라 값이 증가하는 특성을 갖는 분산에는 바람직 하지 않다. 간단한 reinforce는 편향이 없다는 장점이 있지만, 분산variance이 상대적으로 크다는 단점이 있다. - 베이스라인이 있는 Reinforce 베이스라인을 추가하면 불편 특성을 유지하는 동안(근사적으로 이알고리즘은 로컬 최소값에 수렴한다.) 분산을 낮출 수 있다. 하지만 베이스라인이 있는 Reinforc..

확률 기반 PG최적화 학습

- 폴리시 그래디언트 메서드 - Reinforce 알고리즘 PG메서드의 더 간단한 버전을 Reinforce라고 함 Reinforce는 완전한 궤도로부터 실제 리턴true return을 계산하는 MC리턴의 특성으로 편향이 없는 unbiased 좋은 특성을 가지고있다. 하지만, 이러한 불편 추정unbiased estimate은 궤도의 길이에 따라 값이 증가하는 특성을 갖는 분산에는 바람직 하지 않다. 간단한 reinforce는 편향이 없다는 장점이 있지만, 분산variance이 상대적으로 크다는 단점이 있다. - 베이스라인이 있는 Reinforce 베이스라인을 추가하면 불편 특성을 유지하는 동안(근사적으로 이알고리즘은 로컬 최소값에 수렴한다.) 분산을 낮출 수 있다. 하지만 베이스라인이 있는 Reinforc..

t-sne

차원축소, 시각화 도구: t - SNE (Stochastic Neighbor Embedding) SNE (Stochastic Neighbor Embedding) 고차원 공간에서 유클리드 거리( Euclidean distance)를 데이터 포인트의 유사성을 표현하는 조건부 확률(conditional probability)로 변환하는 방법 t-SNE 끝단이 퍼지는 다른 분포를 이용 고차원 공간: 가우스 분포 유사도로 변환 저차원 공간: 자유도 1의 분포 유사도로 변환 적당히 떨어진 점을 맵에서 더 멀리 배치 가능 데이터 점과 닮지 않은 점 사이의 인력을 제거 가능 장점 데이터 점 사이의 거리가 큰 것을 유사하지 않은 점으로 모델링 데이터 점 사이의 거리가 작은 것을 유사한 점으로 모델링 Cost ft'n 의..

Machine Learning 2019.07.18
반응형