Markov Decision Process

정의

In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying optimization problems solved via dynamic programming and reinforcement learning. (Wikipedia)

MDP는 이산 시간 확률 제어 프로세스다. 결과가 부분적으로 랜덤이고 부분적으로 의사 결정자가 통제하는 상황에서 의사 결정을 모델링하기 위한 수학적 프레임워크를 제공한다. MDP는 DP나 강화학습을 통한 최적화 문제를 연구하는데 유용하다.

순차적으로 행동을 결정해야 하는 문제를 풀기 위한 수학 모델이다.

강화학습은 MDP로 정의된 문제를 푸는 것과 같으며, 다음과 같이 표시한다.

  • : State
  • : Action
  • : state transition Probability
  • : Reward
  • : discount factor

가치함수
에이전트가 어떤 정책이 더 좋은 정책인지 판단하는 기준이 가치함수다. 가치함수는 현재 상태로부터 정책을 따라갔을 때 받을 것이라 예상되는 보상의 합이다.

에이전트는 정책을 업데이트할 때 가치함수를 사용하는데 보통 상태가치함수()보다 에이전트가 선택할 각 행동의 가치를 직접적으로 나타내는 행동가치함수(), 큐함수를 사용한다.

는 상태 에서 행동 를 선택해 상태 으로 이동했을 때 받는 보상

벨만 방정식
현재 상태의 가치함수와 다음 상태 가치함수의 관계식

MDP vs FSM

Whilst a Markov chain is a finite state machine, it is distinguished by its transitions being stochastic, i.e. random, and described by probabilities. 1

MDP는 확률적 전이라는 점이 다르다.

Reinforcement Learning

The environment is typically stated in the form of a Markov decision process (MDP), because many reinforcement learning algorithms for this context utilize dynamic programming techniques. 2

강화 학습의 환경은 MDP 형태로 표현한다. 많은 강화 학습 알고리즘이 다이나믹 프로그래밍을 사용하기 때문이다.

The main difference between the classical dynamic programming methods and reinforcement learning algorithms is that the latter do not assume knowledge of an exact mathematical model of the MDP and they target large MDPs where exact methods become infeasible.

강화 학습을 사용하는 후자는 MDP의 정확한 수학적 모델을 가정하지 않고, 정확한 방법을 찾기 어려운 큰 MDP를 대상으로 한다.

Last Modified: 2020/06/25 16:07:20


수식  ·  Markov Decision Process  ·  2020 Book Reports  ·  통계학  ·  통계학 책  ·  Front-End  ·  통계학 기술  ·  머신러닝  ·  Activation, Cost Functions  ·  Python  ·  알고리즘  ·  자료구조  ·  비지니스  ·  Docker  ·  AWS  ·  NLP 링크  ·  알고리즘 링크  ·  머신러닝 링크  ·  사회심리학  ·  Information Retrieval  ·  통계학 응용  ·  OOP  ·  2019 Book Reports  ·  Android Development  ·  데이터 사이언스  ·  인공지능  ·  진화생물학  ·  이산수학  ·  수학  ·  미래학  ·  Project Management  ·  LifeHacks  ·  C++  ·  2017 Book Reports  ·  Decision Tree  ·  LeetCode  ·  TensorRT  ·  NLP  ·  Hadoop, Spark  ·  데이터 마이닝  ·  CNN, RNN  ·  2018 Book Reports  ·  운영체제  ·  머신러닝 분류기  ·  거리  ·  Support Vector Machine  ·  OAuth 2.0  ·  Naive Bayes  ·  Jupyter Notebooks  ·  RSA  ·  컴파일러  ·  딥러닝  ·  Word Embedding  ·  컴퓨터시스템구조  ·  영어  ·  Go  ·  Scikit Learn  ·  XGBoost  ·  Software Deployment  ·  NLP 실험  ·  MySQL  ·  Keras  ·  Java
is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.