Machine Learning 48

동적 프로그래밍으로 문제 해결하기

MDP란? - 가치함수와 기대보상으로 이루어짐. - Markov 특성은 MDP에 내재돼 있으며, 미래의 상태는 과거의 이력이 아닌 현재 상태로부터만 영향을 받는다. - MDP정의를 사용해 폴리시, 리턴함수, 예상리턴(Expected return), 행동-가치함수, 가치함수의 개념을 정의했다. 강화학습 알고리즘은 모델-기반과 모델-프리 방법으로 구분할 수 있다. 모델-기반은 다음 행동을 계획하기 위해 환경 모델이 필요하며 모델-프리는 모델과는 독립적이며 환경과 직접 상호 작용해 학습할 수 있다. 폴리시 그래디언트 알고리즘은 그래디언트 상승을 통해 폴리시에서 직접 학습 하므로 온-폴리시 on-policy라고 한다, 가치함수 알고리즘은 오프-폴리시 off-policy이며 폴리시를 만들기 위해 행동-가치함수나 ..

강화학습 사이클과 openAI Gym 구현하기

대부분의 최신 강화학습 알고리듬은 딥러닝과 관련 있으므로 책전반에 걸쳐 사용할 딥러닝 프레임 워크인 텐서플로우를 살펴봤다. 텐서플로우를 사용하면 역전파 backpropagation 같은 심층신경망의 복잡한 부분을 처리할 때 딥강화학습 알고리듬의 개발 속도를 높여 준다. 또한 tensorflow는 알고리듬 디버깅 과정을 모니터링하고 지원하는 tensorBoard를 제공한다. Gym에서 step()함수의 출력은 무엇인가? step() : 실행 // render() : 결과를 표시 OpenAI Gym 인터페이스를 이용한 액션을 어떻게 샘플링 할 수 있는가? 에이전트에서 환경 : 액션 환경에서 에이전트 : 관측, 보상, 종료여부, 정보 관측: 환경에 대한 새로운 관측을 나타내는 객체 보상 : 마지막 액션에서 얻..

강화학습

강화학습은 의사결정을 위한 목표 지향 접근법이다. 이방법은 환경과 직접 상호작용 하고 지연된 보상 메커니즘을 이용한다는 점에서 기존 패러다임과 차이가 있다 강화학습에서 딥러닝을 사용하면 고차원 상태 공간 문제와 인지 데이터 분석 문제를 해결하는데 도움이 된다. 강화학습에서 환경 모델은 필요 없지만 추가 정보를 제공해 폴리시의 품질을 개선하는데 도움이 된다. 강화학습이란 무엇인가? 의사 결정을 위한 목표 지향 접근법 에이전트의 최종 목표는 무엇인가? 살아 있는 동안 누적된 총 보상을 최대화 하는 것 지도학습과 강화학습의 주요 차이는 무엇인가? 지도학습과 강화학습은 데이터를 이용해 학습하는 유사하지만 다른 패러다임을 가짐. 지도학습 : 예제를 구성하는 제한된 데이터 양을 갖는 고정된 데이터셋으로 일반화 방법..

Word2Vec

Word2Vec의 학습 방식 단어 임베딩(embedding) 방법론인 Word2Vec Word2Vec은 말 그대로 단어를 벡터로 바꿔주는 알고리즘입니다. Neural Network Language Model(NNLM)을 계승하면서도 학습 속도와 성능을 비약적으로 끌어올려 주목을 받고 있음. Word2Vec의 Skip-Gram(중심단어로 주변단어 예측) https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/30/word2vec/ Word2Vec의 학습 방식 · ratsgo's blog 이번 포스팅에서는 최근 인기를 끌고 있는 단어 임베딩(embedding) 방법론인 Word2Vec에 대해 살펴보고자 합니다. Word2Vec은 말 그대로 단어..

Machine Learning 2020.07.13

Bert

https://hugrypiggykim.com/2018/12/09/bert-pre-training-of-deep-bidirectional-transformers-for-language-understanding/ https://colab.research.google.com/drive/133UHPLf5M5m1qyex3k7PTTRN7vNQQYDp ========================== https://horajjan.blog.me/221423797872 Transformer : 셀프 어텐션으로 구성된 인코더 (RNN, CNN을 사용하지 않고 기존 RNN 으로 구성된 seq2seq의 한계를 넘어서는 성능을 보임 Self-Attention : 단어 간의 연관 관계를 얻을 수 있음. 딥마인드에서 이를 이용하..

Machine Learning 2020.07.13

Confusion Matrix _ PYCM

Confusion Matrix - 머신러닝이 얼마나 잘 예측하는지를 나타내주는 Matrix - 기계 학습 분야의 통계적 분류 같은 문제에서 confusin Matrix란, 지도학습으로 훈련된 분류 알고리즘의 성능을 시각화 할 수 있는 표 - sample code : https://www.kaggle.com/sujinies2/binaryclassification?scriptVersionId=17388277 PyCM: Multiclass confusion matrix library in Python 입력 데이터 벡터와 direct matrix를 모두 지원하는 python으로 작성된 다중 클래스 confusion matrices 라이브러리. 대부분의 클래스 및 전체 통계 매개 변수를 지원하는 사후 분류 모델 ..

Machine Learning 2019.07.18

t-sne

차원축소, 시각화 도구: t - SNE (Stochastic Neighbor Embedding) SNE (Stochastic Neighbor Embedding) 고차원 공간에서 유클리드 거리( Euclidean distance)를 데이터 포인트의 유사성을 표현하는 조건부 확률(conditional probability)로 변환하는 방법 t-SNE 끝단이 퍼지는 다른 분포를 이용 고차원 공간: 가우스 분포 유사도로 변환 저차원 공간: 자유도 1의 분포 유사도로 변환 적당히 떨어진 점을 맵에서 더 멀리 배치 가능 데이터 점과 닮지 않은 점 사이의 인력을 제거 가능 장점 데이터 점 사이의 거리가 큰 것을 유사하지 않은 점으로 모델링 데이터 점 사이의 거리가 작은 것을 유사한 점으로 모델링 Cost ft'n 의..

Machine Learning 2019.07.18
반응형