# 馬可夫決策過程

## 定义

• ${\displaystyle S}$是状态空间的集合，
• ${\displaystyle A}$是动作的集合，也被称为动作空间（比如说${\displaystyle A_{s}}$是状态${\displaystyle s}$中可用的动作集合），
• ${\displaystyle P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)}$${\displaystyle t}$时刻${\displaystyle s}$状态下的动作${\displaystyle a}$导致${\displaystyle t+1}$时刻进入状态${\displaystyle s'}$的概率，
• ${\displaystyle R_{a}(s,s')}$状态${\displaystyle s}$经过动作${\displaystyle a}$转换到状态${\displaystyle s'}$后收到的即时奖励（或预期的即时奖励）。

### 優化目標

${\displaystyle E\left[\sum _{t=0}^{\infty }{\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})}\right]}$（我们选择${\displaystyle a_{t}=\pi (s_{t})}$也就是策略给出的动作）。并且期望值为${\displaystyle s_{t+1}\sim P_{a_{t}}(s_{t},s_{t+1})}$

## 算法

${\displaystyle V(s):=\sum _{s'}P_{\pi (s)}(s,s')\left(R_{\pi (s)}(s,s')+\gamma V(s')\right)}$
${\displaystyle \pi (s):={\underset {a}{\operatorname {arg\,min} }}\left\{\sum _{s'}P(s'\mid s,a)\left(R(s'\mid s,a)+\gamma V(s')\right)\right\}}$

### 著名的變體

#### 數值迭代

${\displaystyle V_{i+1}(s):=\max _{a}\left\{\sum _{s'}P_{a}(s'|s)\left(R_{a}(s,s')+\gamma V_{i}(s')\right)\right\},}$

