2.chapter

第二章：Markov 决策过程（Markov Decision Process, MDP）

强化学习中最经典、最重要的数学模型就是Markov 决策过程（Markov Decision Process, MDP），本章将导出 Markov 决策过程模型，并介绍相关性质，最后给出一种求解 Markov 决策过程最优策略的方法。

一、Markov 决策过程模型

轨迹（trajectory） $S_0,O_0,A_0,R_1,S_1,O_1,A_1,R_2,S_2...$ $O_t=S_t\ (t=0,1,2,3,...)$ $S_0,A_0,R_1,S_1,A_1,R_2,S_2,...$ 。部分不完全可观测的问题可以建模为部分可观测的 Markov 决策过程（Partially Observable Markov Decision Process, POMDP）。

$\textrm {Pr}\left(S_{t+1}=s',R_{t+1}=r \mid S_t=s,A_t=a\right)$ $t$ $A_t=a$ $S_t=s$ $S_{t+1}=s'$ $R_{t+1}=r$ $S_{t+1}$ $R_{t+1}$ $S_t$ $A_t$ ，而不依赖于更早的状态和动作，这种性质称为 Markov 性。

$\mathcal S$ $\mathcal A$ $\mathcal R$ 有限 Markov 决策过程（Finite Markov Decision Process, Finite MDP） $p：\mathcal S \times \mathcal R \times \mathcal S \times \mathcal A → [0, 1]$ 为 Markov 决策过程的动力（dynamics）：

p\left(s',r \mid s,a\right) = \textrm{Pr} \left(S_{t+1}=s',R_{t+1}=r \mid S_t=s,A_t=a\right) \label{eq:1}

$\eqref{eq:1}$ 可以导出：

状态转移概率：

p\left(s' \mid s,a\right) = \textrm{Pr} \left(S_{t+1}=s' \mid S_t=s,A_t=a\right) = \sum_{r \in \mathcal R} p\left(s',r \mid s,a\right),\qquad s \in \mathcal S, a \in \mathcal A, s' \in \mathcal S \label{eq:2}

给定“状态 - 动作”的期望奖励：

r\left(s,a\right) = \textrm{E} \left(R_{t+1} \mid S_t=s,A_t=a\right) = \sum_{r \in \mathcal R} r\sum_{s' \in \mathcal S} p\left(s',r \mid s,a\right),\qquad s \in \mathcal S, a \in \mathcal A \label{eq:3}

给定“状态 - 动作 - 下一状态”的期望奖励：

r\left(s,a,s'\right) = \textrm{E} \left(R_{t+1} \mid S_t=s,A_t=a,S_{t+1}=s'\right) = \sum_{r \in \mathcal R} r\frac {p\left(s',r \mid s,a\right)} {p\left(s' \mid s,a\right)},\qquad s \in \mathcal S, a \in \mathcal A, s' \in \mathcal S

对于不是有限 Markov 决策过程的 Markov 决策过程，可以用类似的方法定义动力函数与导出量，只是定义时应当使用概率分布函数。动力的定义将离散空间和连续空间的情况用统一的字母表述，简化了书写。

策略（policy） $\pi：\mathcal S \times \mathcal A \rightarrow [0, 1]$ 为：

\pi \left(a \mid s\right) = \textrm{Pr} \left(A_t=a \mid S_t=s\right), \qquad s \in \mathcal S, a \in \mathcal A

随机性策略 $\pi：\mathcal S \rightarrow \mathcal A$ $\pi\left(s\right)=a,\ \ s \in \mathcal S,a \in \mathcal A$ ，则该策略称为确定性策略。

$T$ $t\ (t<T$ ) 以后的回报（return）：

G_t = R_{t+1} + R_{t+2} + \cdots + R_T

对于连续性任务，引入折扣（discount）概念，定义回报为：

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{\tau=0}^{+\infty} \gamma^\tau R_{t+\tau+1}

$\gamma \in [0, 1]$ $\gamma=0$ $\gamma=1$ $\gamma \in (0, 1)$ ，此时若奖励有界，则回报也是有界的。

价值函数（value function） $\pi$ ，可以定义一下价值函数：

状态价值函数（state value function）： $v_\pi\left(s\right)$ $s$ $\pi$ 的预期回报。

v_\pi \left(s\right) = \textrm{E}_\pi \left(G_t \mid S_t=s\right)

动作价值函数（action value function）： $q_\pi\left(s, a\right)$ $s$ $a$ $\pi$ 的预期回报。

q_\pi \left(s, a\right) = \textrm{E}_\pi \left(G_t \mid S_t=s,A_t=a\right)

二、Bellman 期望方程

策略评估（policy evaluation）：试图求解给定策略的价值函数（Bellman 期望方程常用来进行策略评估）。

状态价值函数和动作价值函数之间可以互相表示，它们的的关系及推导如下：

\begin{equation} \begin{split} v_\pi \left(s\right) &= \textrm{E}_\pi \left(G_t \mid S_t=s\right) \\ &= \sum_gg\ \textrm{Pr} \left(G_t=g \mid S_t=s\right) \\ &= \sum_gg \sum_a \textrm{Pr} \left(G_t=g, A_t=a \mid S_t=s\right) \\ &= \sum_gg \sum_a \textrm{Pr} \left(A_t=a \mid S_t=s\right) \textrm{Pr} \left(G_t=g \mid S_t=s, A_t=a\right) \\ &= \sum_a \textrm{Pr} \left(A_t=a \mid S_t=s\right) \sum_g g\ \textrm{Pr} \left(G_t=g \mid S_t=s, A_t=a\right) \\ &= \sum_a \textrm{Pr} \left(A_t=a \mid S_t=s\right) \textrm{E}_\pi \left(G_t \mid S_t=s,A_t=a\right) \\ &= \sum_a \pi \left(a \mid s\right) q_\pi \left(s,a\right) \end{split} \end{equation}

\begin{equation} \begin{split} q_\pi \left(s,a\right) &= \textrm{E}_\pi \left(G_{t+1} \mid S_t=s,A_t=a\right) \\ \\ &= \textrm{E}_\pi \left(R_{t+1}+\gamma G_{t+1} \mid S_t=s,A_t=a\right) \\ \\ &= \textrm{E}_\pi \left(R_{t+1} \mid S_t=s,A_t=a\right) + \gamma \textrm{E}_\pi \left(G_{t+1} \mid S_t=s,A_t=a\right) \\ \\ &= r\left(s,a\right) + \gamma \sum_g g\ \textrm{Pr} \left(G_{t+1}=g \mid S_t=s,A_t=a\right) \\ &= r\left(s,a\right) + \gamma \sum_g g\sum_{s'} \textrm{Pr} \left(S_{t+1}=s',G_{t+1}=g \mid S_t=s,A_t=a\right) \\ &= r\left(s,a\right) + \gamma \sum_g g\sum_{s'} \textrm{Pr} \left(S_{t+1}=s' \mid S_t=s,A_t=a\right) \textrm{Pr} \left(G_{t+1}=g \mid S_t=s,A_t=a,S_{t+1}=s'\right) \\ （由\ Markov\ 性可得） &= r\left(s,a\right) + \gamma \sum_g g\sum_{s'} \textrm{Pr} \left(S_{t+1}=s' \mid S_t=s,A_t=a\right) \textrm{Pr} \left(G_{t+1}=g \mid S_{t+1}=s'\right) \\ &= r\left(s,a\right) + \gamma \sum_{s'} \textrm{Pr} \left(S_{t+1}=s' \mid S_t=s,A_t=a\right) \sum_g g\ \textrm{Pr} \left(G_{t+1}=g \mid S_{t+1}=s'\right) \\ &= r\left(s,a\right) + \gamma \sum_{s'} \textrm{Pr} \left(S_{t+1}=s' \mid S_t=s,A_t=a\right) \textrm{E}_\pi \left(G_{t+1} \mid S_{t+1}=s'\right) \\ &= r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) v_\pi \left(s'\right) \\ （由公式\eqref{eq:2}\eqref{eq:3}可得） &= \sum_{r} r\sum_{s'} p\left(s',r \mid s,a\right) + \gamma \sum_{r} \sum_{s'} p\left(s',r \mid s,a\right) v_\pi \left(s'\right) \\ &= \sum_{r} \sum_{s} p\left(s',r \mid s,a\right) \big[r+\gamma v_\pi \left(s'\right)\big] \end{split} \end{equation} \label{eq:11}

从状态价值和动作价值的互相表示出发，用代入法消除其中一种价值，就可以得到 Bellman 期望方程：

状态价值函数表示：

v_\pi \left(s\right) = \sum_a \pi \left(a \mid s\right) \left[r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) v_\pi \left(s'\right)\right], \ \ \ \ s \in \mathcal S \label{eq:12}

动作价值函数表示：

q_\pi \left(s, a\right) = \sum_{r} \sum_{s} p\left(s',r \mid s,a\right) \left[r + \gamma \sum_{a'} \pi \left(a' \mid s'\right) q_\pi \left(s',a'\right)\right], \ \ \ \ s \in \mathcal S, a \in \mathcal A

三、最优策略及其性质

$\pi$ $\pi'$ $s \in \mathcal S$ $v_\pi\left(s\right) \leq v_{\pi'}\left(s\right)$ $\pi$ $\pi'$ $\pi \leq \pi'$ $\mathcal A \left(s\right) \left(s \in \mathcal S\right)$ $\pi_*$ $\pi_*$ 就称为最优策略（optimal policy）。最优策略的价值函数称为最优价值函数，包括以下两种形式：

最优状态价值函数（optimal state value function）： $v_*\left(s\right)=\max\limits_\pi\ v_\pi\left(s\right), \qquad s \in \mathcal S$
最优动作价值函数（optimal action value function）： $q_*\left(s, a\right)=\max\limits_\pi\ q_\pi\left(s, a\right), \qquad s \in \mathcal S, a \in \mathcal A$

最优策略可能存在多个，但其价值函数是相同的，任取一个最优策略来考察也不是一般性。其中一种选取方法是选择这样的一种确定性策略：

\pi_* \left(s\right) = \underset{a \in \mathcal A}{\arg\max}\ q_*\left(s, a\right), \qquad s \in \mathcal S \label{eq:14}

$q_*\left(s, a\right)$ 取得最大值，则任取一个动作。将以上确定性策略带入状态价值和动作价值的互相表示表达式中有：

v_* \left(s\right) = \max\limits_{a \in \mathcal A}\ q_* \left(s,a\right), \qquad s \in \mathcal S

q_* \left(s,a\right) = r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) v_* \left(s'\right) = \sum_{r} \sum_{s} p\left(s',r \mid s,a\right) \big[r + \gamma v_* \left(s'\right)\big], \qquad s \in \mathcal S, a \in \mathcal A

同 Bellman 期望方程的推导，将上两式相互代带入，即可得到 Bellman 最优方程：

最优状态价值函数表示：

v_* \left(s\right) = \max_{a \in \mathcal A}\ \left[r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) v_* \left(s'\right)\right], \qquad s \in \mathcal S

最优动作价值函数表示：

q_* \left(s, a\right) = r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) \max_{a'}\ q_* \left(s',a'\right), \qquad s \in \mathcal S, a \in \mathcal A

$v_*\left(s\right)=\max\limits_{a \in \mathcal A}\ q_*\left(s, a\right),\ (s \in \mathcal S)$ $v_*\left(s\right) \geq q_*\left(s, a\right),\ (s \in \mathcal S, a \in \mathcal A(s))$ $q_*\left(s, a\right)$ 以减少决策变量，即可得到一个线性规划：

\begin{equation} \begin{split} &\text{minimize} \qquad &\sum_{s \in \mathcal S} c\left(s\right) v\left(s\right) \\ &\text{over} &v\left(s\right), \qquad s \in \mathcal S \\ &\text{s.t.} &v\left(s\right) \geq r\left(s, a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) v\left(s'\right), \qquad s \in \mathcal S, a \in \mathcal A \end{split} \end{equation} \label{eq:19}

$c\left(s\right),\ (s \in \mathcal S)$ $c\left(s\right) > 0$ ，所以线性规划的最优解肯定会让约束条件中的某些不等式取到等号，使得 Bellman 最优方程成立。可以证明，这个线性规划的最优解满足 Bellman 最优方程。

但实际上使用 Bellman 最优方程求解最优策略可能会遇到下列困难：

难以列出 Bellman 最优方程。列出 Bellman 最优方程要求对动力系统完全了解，并且动力系统必须可以用有 Markov 性的 Markov 决策过程来建模。在实际问题中，环境往往十分复杂，很难非常周全地用概率模型完全建模。
难以求解 Bellman 最优方程。在实际问题中，状态空间往往非常巨大，状态空间和动作空间的组合更是巨大。这种情况下，没有足够的计算资源来求解 Bellman 最优方程。所以这时候会考虑采用间接方法求解最优价值函数的值，甚至是近似值。

四、案例：悬崖寻路（CliffWalking-v0）

使用 gym 库中的悬崖寻路问题（CliffWalking-v0）作为案例分析，该环境是一个有限 Markov 决策过程，该环境的信息和交互过程可以通过本人学习代码中的 get_env_info 和 run_episode 函数来了解。下面将使用 Bellman 期望方程来对策略进行评估，以及使用线性规划求解 Bellman 最优方程来获得最优策略。

$\eqref{eq:3}$ $\displaystyle r\left(s,a\right)=\sum_{s'} rp\left(s' \mid s,a\right)$ $\eqref{eq:12}$ ，并化为方程组的标准形式有：

v_\pi \left(s\right) - \gamma \sum_a \sum_{s'} \pi \left(a \mid s\right) p\left(s' \mid s,a\right) v_\pi \left(s'\right) = \sum_a \pi \left(a \mid s\right)r\left(s,a\right) = \sum_a \pi \left(a \mid s\right) \sum_{s'} rp\left(s' \mid s,a\right) \label{eq:20}

$r\left(s,a\right)$ $\eqref{eq:11}$ 中，即可求得动作价值函数：

q_\pi \left(s,a\right) = \sum_{s'} p\left(s' \mid s,a\right) \left[r + \gamma v_\pi \big(s'\right)\big] \label{eq:21}

$\eqref{eq:20}$ ，先根据已知的环境模型 env 和策略 policy 参数求出系数矩阵 a 和向量 bnp.linalg.solve $ax=b$ v $\eqref{eq:21}$ 求出动作价值函数 q（ 11~14 行）。


1
def evaluate_policy(env, policy, gamma=1.0):
2
    a, b = np.eye(env.nS), np.zeros((env.nS))
3
    for state in range(env.nS - 1):
4
        for action in range(env.nA):
5
            pi = policy[state][action]
6
            for proba, next_state, reward, done in env.P[state][action]:
7
                a[state, next_state] -= gamma * pi * proba
8
                b[state] += pi * reward * proba
9
    v = np.linalg.solve(a, b)
10
    q = np.zeros((env.nS, env.nA))
11
    for state in range(env.nS - 1):
12
        for action in range(env.nA):
13
            for proba, next_state, reward, done in env.P[state][action]:
14
                q[state][action] += (proba * (reward + gamma * v[next_state]))
15
    return v, q

$\eqref{eq:19}$ $c\left(s\right),\ (s \in \mathcal S)$ $r\left(s,a\right)$ 带入到公式中，再转化为标准形式有：

\begin{equation} \begin{split} &\text{minimize} \qquad &\sum_{s \in \mathcal S} v\left(s\right) \\ &\text{over} &v\left(s\right), \qquad s \in \mathcal S \\ &\text{s.t.} &v\left(s\right) - \gamma \sum_{s'} p\left(s' \mid s,a\right) v\left(s'\right) \geq r\left(s, a\right) = \sum_{s'} rp\left(s' \mid s,a\right) \qquad s \in \mathcal S, a \in \mathcal A \end{split} \end{equation} \label{eq:22}

scipy.optimize.linprog $c\left(s\right)$ $Ax \leq b$ $A$ $b$ $\eqref{eq:22}$ $\leq$ $A$ a_ub $b$ 为 b_ub；关键字参数 bounds 指定决策变量是否有界；关键字参数 method 确定优化方法，因默认的方法不能处理不等式约束，所以这里选择了能够处理不等式约束的内点法（interior-point method）。最后求解出最优状态价值函数为 optimal_v 及最优动作价值函数为 optimal_q。


xxxxxxxxxx
16
1
def get_optimal_value_func(env, gamma=1.0):
2
    p = np.zeros((env.nS, env.nA, env.nS))
3
    r = np.zeros((env.nS, env.nA))
4
    for state in range(env.nS - 1):
5
        for action in range(env.nA):
6
            for proba, next_state, reward, done, in env.P[state][action]:
7
                p[state, action, next_state] += proba
8
                r[state, action] += (reward * proba)
9
    c = np.ones(env.nS)
10
    a_ub = gamma * p.reshape(-1, env.nS) - np.repeat(np.eye(env.nS), env.nA, axis=0)
11
    b_ub = -r.reshape(-1, )
12
    bounds = [(None, None),] * env.nS
13
    res = scipy.optimize.linprog(c, a_ub, b_ub, bounds=bounds, method='interior-point')
14
    optimal_v = res.x
15
    optimal_q = r + gamma * np.dot(p, optimal_v)
16
    return optimal_v, optimal_q

$\eqref{eq:14}$ 可以得到一种最优确定性策略，代码为：


xxxxxxxxxx
2
1
optimal_v, optima_q = get_optimal_value_func(env)
2
optimal_policy = optimal_q.argmax(axis=1)