3.chapter

第三章：有模型数值迭代

对于实际问题，由于直接求解 Bellman 期望方程和 Bellman 最优方程往往有困难（例如需要极多的计算资源），本章在动力系统完全已知的情况下，用迭代的数值方法来求解。由于有模型迭代并没有从数据中学习，所以一般不认为是一种机器学习或强化学习方法。

一、度量空间与压缩映射

有模型策略迭代的理论基础：度量空间上的 Banach 不动点定理。下面简单介绍必要的概念，并证明 Bellman 算子是压缩映射，可以用 Banach 不动点定理迭代求解 Bellman 方程。

度量 $\mathcal X$ $d: \mathcal X \times \mathcal X \rightarrow \Bbb R$ ，需满足：

$x', x'' \in \mathcal X$ $d\left(x', x''\right) \ge 0$ ；
$x', x'' \in \mathcal X$ $d\left(x', x''\right) = 0$ $x'=x''$ ；
$x', x'' \in \mathcal X$ $d\left(x', x''\right) = d\left(x'',x'\right)$ ；
$x', x'', x''' \in \mathcal X$ $d\left(x', x'''\right) \le d\left(x', x''\right) + d\left(x'', x'''\right)$ ；
度量看起来与范数很像，但其本质是不一样的，参考资料：https://www.zhihu.com/question/42312263

$(\mathcal X, d)$ 度量空间 $v(s) \; (s \in \mathcal S)$ $\mathcal V = \Bbb R^{|\mathcal S|}$ $d_\infty$ 如下：

d_\infty \left(v',v''\right)=\max_{s \in \mathcal S} \; \big|v'\left(s\right)-v''\left(s\right)\big|

$d_\infty$ $\mathcal V$ $\forall s \in \mathcal S$ 有：

\begin{split} \big|v'\left(s\right)-v'''\left(s\right)\big| &= \big|\;[v'\left(s\right)-v''\left(s\right)] + [v''\left(s\right)-v'''\left(s\right)]\;\big| \\ &\le \big|\;v'\left(s\right) - v''\left(s\right)\;\big| + \big|\;v''\left(s\right)-v'''\left(s\right)\;\big| \\ &\le \max_{s \in \mathcal S} \; \big|v'\left(s\right) - v''\left(s\right)\big| + \max_{s \in \mathcal S} \; \big|v''\left(s\right) - v'''\left(s\right)\big| \end{split}

$(\mathcal V, d_\infty)$ 是一个度量空间。

完备的 $\Bbb R$ $(\mathcal V, d_\infty)$ 度量空间也是完备的（证明：略）。

$(\mathcal X, d)$ $t:\mathcal X \rightarrow \mathcal X$ $\gamma \in (0,1)$ $x', x'' \in \mathcal X$ $d\left(\, t(x'), t(x'')\,\right) < \gamma\, d\left(x',x''\right)$ $t$ 压缩映射 $\gamma$ $t_*$ $(\mathcal V, d_\infty)$ $\eqref{eq:2} \eqref{eq:3}$ 代入到定义中使用不等式去证明，过程略）。

$\pi\left(a \mid s\right) (s \in \mathcal S,a \in \mathcal A(s))$ $t_\pi:\mathcal V \rightarrow \mathcal V$ ：

t_\pi(v)(s) = \sum_a \pi\left(a \mid s \right) \left[r\left(s,a\right) + \gamma \sum_{s'}p\left(s' \mid s,a \right) v\left(s'\right)\right], \qquad s \in \mathcal S \label{eq:2}

$t_*:\mathcal V \rightarrow \mathcal V$ ：

t_*(v)(s) = \max_{a \in \mathcal A}\left[r\left(s,a\right) + \gamma \sum_{s' \in \mathcal S}p\left(s' \mid s,a \right) v_*\left(s'\right)\right], \qquad s \in \mathcal S \label{eq:3}

$(\mathcal X, d)$ $t:\mathcal X \rightarrow \mathcal X$ $x \in \mathcal X$ $t(x)=x$ $x$ $t$ 的不动点Banach 不动点定理 $(\mathcal X, d)$ $t:\mathcal X \rightarrow \mathcal X$ $t$ $\mathcal X$ $x_{+\infty}$ 。

$\mathcal X$ $x_0$ $x_k = t(x_{k-1}) \; (k=1,2,3,...)$ $x_{+\infty}$ $k', k''$ $k' < k''$ ，由三角不等式和非负性及压缩映射可知：

\begin{split} d\left(x_{k'},x_{k''}\right) &\le d\left(x_{k'},x_{k'+1}\right) + d\left(x_{k'+1},x_{k'+2}\right) + \cdots + d\left(x_{k''-1},x_{k''}\right) \\ &\le \sum_{k=k'}^{+\infty} d\left(x_{k+1},x_k\right) \\ &= \sum_{k=k'}^{+\infty} d\left(t\left(x_k\right),t\left(x_{k-1}\right)\right) \\ \text{（利用压缩映射）} &\le \sum_{k=k'}^{+\infty} \gamma d\left(x_{k},x_{k-1}\right) \\ \text{（反复利用压缩映射）} &\le \sum_{k=k'}^{+\infty} \gamma^k d\left(x_1,x_0\right) \\ &= \lim_{n \rightarrow +\infty} \frac{\gamma^{k'} \left(1-\gamma^n\right)}{1-\gamma} d\left(x_1,x_0\right) \end{split}

$\gamma \in (0,1)$ $\gamma^k$ 的速度收敛。

有了不动点的求取方法，那么就可以用该方法求 Bellman 期望算子和最优算子的不动点。其中 Bellman 期望算子的不动点是策略价值，对应于策略迭代算法；Bellman 最优算子的不动点是最有价值，对应于价值迭代算法。

二、有模型策略迭代

各种策略迭代算法中包含以下的三个概念：

策略评估（policy evaluation）： $\pi$ ，估计策略的价值，包括动作价值和状态价值。
策略改进（policy improvement）： $\pi$ ，在已知其价值函数的情况下，找到一个更优的策略。
策略迭代（policy iteration）：综合利用策略评估和策略改进，找到最优策略。

\; \\ \; \\ \large \textbf{算法 3-1 有模型策略评估迭代算法} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ ，策略 $\pi$ 。} \\ &\text{输出：状态价值函数 $v_\pi$ 的估计值。} \\ &\text{参数：控制迭代次数的参数（例如容忍度误差 $\delta_{max}$ ，或最大迭代次数 $k_{max}$）。} \\ &\text{1.（初始化）对于 $s \in \mathcal S$ ，将 $v_0\left(s\right)$ 初始化为任意值（比如 0 ）。如果有终止状态，将终止状态初始化} \\ &\qquad \text{为 0 ，即 $v_0\left(s_{\text{终止}}\right) \leftarrow 0$ 。} \\ &\text{2.（迭代）对于 $k \leftarrow 0, 1, 2, 3, \cdots,$ 迭代执行以下步骤：} \\ &\qquad \text{2.1 对于 $s \in \mathcal S$ ，逐一更新 $v_{k+1}\left(s\right) \leftarrow \sum_a \pi \left(a \mid s \right) q_k\left(s,a\right)$ ，其中} \\ \end{split} \\ q_k\left(s,a\right) \leftarrow r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s, a\right) v_k\left(s'\right) \\ \begin{split} &\qquad \qquad \;\, \text{2.2 若满足迭代终止条件（如对 $s \in \mathcal S$ 均有 $|v_{k+1}\left(s\right) - v_k\left(s\right)| \lt \delta_{max}$ ，或达到最大迭代次数} \\ &\qquad \qquad \qquad \; \text{$k=k_{max}$），则跳出循环。} \\ &\rule[-5pt]{275mm}{0.1em} \end{split} \; \\ \; \\

$v_k\;(k=0,1,2,...)$ $v_{odd} = f\left(v_{even}\right)$ $v_{even} = f\left(v_{odd}\right)$ ，这样只需要两套存储空间就可以完成算法。

\; \\ \; \\ \large \textbf{算法 3-2 有模型策略评估迭代算法（节省空间做法）} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ ，策略 $\pi$ 。} \\ &\text{输出：$v_\pi$ 的估计值。} \\ &\text{参数：控制迭代次数的参数（例如容忍度误差 $\delta_{max}$ ，或最大迭代次数 $k_{max}$）。} \\ &\text{1.（初始化）$v_0\left(s\right) \leftarrow$ 任意值 $s \in \mathcal S$。如果有终止状态，将终止状态初始化为 0 ，即 $v_0\left(s_{\text{终止}}\right) \leftarrow 0$ 。} \\ &\text{2.（迭代）对于 $k \leftarrow 0, 1, 2, 3, \cdots,$ 迭代执行以下步骤：} \\ &\qquad \text{2.1 对于使用误差容忍度的情况，初始化本次迭代观测到的最大误差 } \delta \leftarrow 0\ ; \\ &\qquad \text{2.2 对于 $s \in \mathcal S$ ：} \\ &\qquad \qquad \text{2.2.1 计算新状态价值 } v_{\text{新}} \leftarrow \sum_a \pi \left(a \mid s \right) \left[r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s, a\right) v\left(s'\right)\right]\ ; \\ &\qquad \qquad \text{2.2.2 对于使用误差容忍度的情况，更新本次迭代观测到的最大误差 } \delta \leftarrow \max \left(\delta,\ |v_{\text{新}} - v\left(s\right)|\right)\ ; \\ &\qquad \qquad \text{2.2.3 更新状态价值函数 } v\left(s\right) \leftarrow v_{\text{新}}\ ; \\ &\qquad \text{2.3 若满足迭代终止条件（如 $\delta \lt \delta_{max}$ 或达 $k=k_{max}$），则跳出循环。} \\ \rule[-5pt]{10mm}{0.1em} &\rule[-5pt]{265mm}{0.1em} \\ \end{split} \; \\ \; \\

算法 3-2 则只使用了一套存储空间，每次扫描时，他都及时更新状态价值函数。这样在更新后续的状态时，用来更新的状态价值函数有些在本次迭代中已经更新，有些在本次迭代中还没更新，所以，算法 3-2 的计算结果和算法 3-1 的计算结果不完全相同。不过，算法 3-2 在迭代次数不限的情况下也能收敛到状态价值函数。

策略改进定理： $\pi$ $\pi'$ ，如果

v_\pi \le \sum_{a'} \pi'\left(a \mid s\right) q_\pi \left(s, a\right), \qquad s \in \mathcal S \label{eq:4}

$\pi \le \pi'$ ，即

v_\pi \left(s\right) \le v_{\pi'} \left(s\right),\ s \in \mathcal S \label{eq:5}

$\eqref{eq:4}$ $\eqref{eq:5}$ 中的不等号也是严格小于号。（证明：略）

$q_\pi\left(s,a\right) \gt v_\pi\left(s\right)$ $\pi'$ $s$ $a$ $\pi$ 一致。这样的策略改进算法也有两个版本：

\; \\ \; \\ \large \textbf{算法 3-3 有模型策略改进算法} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ ，策略 $\pi$ 及其状态价值函数 $v_\pi$。} \\ &\text{输出：改进的策略 $\pi'$ ，或策略 $\pi$ 已经达到最优的标志。} \\ &\text{1. 对于每个状态 $s \in \mathcal S$ ，执行以下步骤：} \\ &\qquad \text{1.1 为每个动作 $a \in \mathcal A$ ，求得动作价值函数 } q_\pi \left(s,a\right) \leftarrow r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s, a\right) v_\pi \left(s'\right)\ ;\\ &\qquad \text{1.2 找到使得 $q_\pi \left(s,a\right)$ 最大的动作 $a$ ，即 $\pi'\left(s\right)=\underset{a}{\arg\max}\; q\left(s,a\right)$ 。} \\ &\text{2. 对于新策略 $\pi'$ 和旧策略 $\pi$ 相同，则说明旧策略已是最优；否则，输出改进的新策略 $\pi'$。} \\ \rule[-5pt]{10mm}{0.1em} &\rule[-5pt]{265mm}{0.1em} \\ \end{split} \; \\ \; \\

算法 3-3 中，如果在后续不需要使用旧策略的情况下，可以不为新策略分配空间，由此就得到了算法 3-4 的版本。

\; \\ \; \\ \large \textbf{算法 3-4 有模型策略改进算法（节约空间的做法）} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ ，策略 $\pi$ 及其状态价值函数 $v$。} \\ &\text{输出：改进的策略（任然存储为 $\pi$ ），或策略已经达到最优的标志 $o$。} \\ &\text{1. 初始化原策略是否为最优的标记 $o$ 为 True。} \\ &\text{2. 对于每个状态 $s \in \mathcal S$ ，执行以下步骤：} \\ &\qquad \text{2.1 为每个动作 $a \in \mathcal A$ ，求得动作价值函数 } q \left(s,a\right) \leftarrow r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s, a\right) v \left(s'\right)\ ;\\ &\qquad \text{2.2 找到使得 $q \left(s,a\right)$ 最大的动作 $a'$ ，即 $a'=\underset{a}{\arg\max}\; q\left(s,a\right)$ ;} \\ &\qquad \text{2.3 如果 $\pi \left(s\right) \neq a'$ ，则更新 $\pi \left(s\right) \leftarrow a'$ ， $o \leftarrow$ False 。}\\ \rule[-5pt]{10mm}{0.1em} &\rule[-5pt]{265mm}{0.1em} \\ \end{split} \; \\ \; \\

$\pi_0$ 开始，交替进行策略评估和策略改进，其基本步骤顺序如下图所示：

对于有限 Markov 决策过程，其确定性策略数是有限的，因此迭代过程中得到的策略序列一定能收敛。策略迭代算法的两个版本如下所示：

\; \\ \; \\ \large \textbf{算法 3-5 有模型策略迭代} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ 。} \\ &\text{输出：最优策略。} \\ &\text{1.（初始化）将策略 $\pi_0$ 初始化为一个任意的确定性策略。} \\ &\text{2.（迭代）对于 $k \leftarrow 0, 1, 2, 3, \cdots$ ，执行以下步骤：} \\ &\qquad \text{2.1 （策略评估）使用策略评估算法，计算策略 $\pi_k$ 的状态价值函数 $v_{\pi_k}$ ;} \\ &\qquad \text{2.2 （策略更新）利用状态价值函数 $v_{\pi_k}$ 改进策略 $\pi_k$ ，得到改进的确定性策略 $\pi_{k+1}$ 。} \\ &\qquad \qquad \text{如果 $\pi_k = \pi_{k+1}$（即对任意的 $s \in \mathcal S$ 均有 $\pi_k \left(s\right) = \pi_{k+1} \left(s\right)$ ），则迭代完成，} \\ &\qquad \qquad \text{返回策略 $\pi_k$ 为最终的最优策略。} \\ \rule[-5pt]{10mm}{0.1em} &\rule[-5pt]{265mm}{0.1em} \\ \end{split} \; \\ \; \\

$v\left(s\right)（s \in \mathcal S）$ $\pi\left(s\right)（s \in \mathcal S）$ 来存储确定性策略，即可得到策略迭代算法 3-6 的版本

\; \\ \; \\ \large \textbf{算法 3-6 有模型策略迭代（节约空间的版本）} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ 。} \\ &\text{输出：最优策略 $\pi$ 。} \\ &\text{参数：策略评估需要的参数。} \\ &\text{1.（初始化）将策略 $\pi$ 初始化为一个任意的确定性策略。} \\ &\text{2.（迭代）迭代执行以下步骤：} \\ &\qquad \text{2.1 （策略评估）使用策略评估算法，计算策略 $\pi$ 的状态价值函数，存在 $v$ 中;} \\ &\qquad \text{2.2 （策略更新）利用 $v$ 中存储的状态价值函数进行策略改进，将改进的策略存储在 $\pi$ 。如果本次} \\ &\qquad \qquad \text{策略改进算法指示当前策略 $\pi$ 已经是最优策略，则迭代完成，返回策略 $\pi$ 为最终的最优策略。} \\ \rule[-5pt]{10mm}{0.1em} &\rule[-5pt]{265mm}{0.1em} \\ \end{split} \; \\ \; \\

三、有模型价值迭代

策略评估迭代算法利用 Bellman 期望方程迭代求解给定策略的价值函数，而价值迭代算法则是利用 Bellman 最优方程迭代求解最优策略的价值函数，并进而求得最优策略，其算法如下：

\; \\ \; \\ \large \textbf{算法 3-7 有模型价值迭代算法} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ 。} \\ &\text{输出：最优策略估计 $\pi$ 。} \\ &\text{参数：策略评估需要的参数。} \\ &\text{1.（初始化）$v_0\left(s\right) \leftarrow$ 任意值，$s \in \mathcal S$。如果有终止状态，$v_0\left(s_{\text{终止}}\right) \leftarrow 0$ 。} \\ &\text{2.（迭代）对于 $k \leftarrow 0, 1, 2, 3, \cdots,$ 迭代执行以下步骤：} \\ &\qquad \text{2.1 对于 $s \in \mathcal S$ ，逐一更新 } v_{k+1}\left(s\right) \leftarrow \max_{a} \left(r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s, a\right) v_k\left(s'\right)\right) ; \\ &\qquad \text{2.2 若满足容忍度误差（即对 $s \in \mathcal S$ 均有 $|v_{k+1}\left(s\right) - v_k\left(s\right)| \lt \delta_{max}$ ），或达到最大迭代} \\ &\qquad \qquad \text{次数（即 $k=k_{max}$），则跳出循环。} \\ &\text{3.（策略）根据价值函数输出确定性策略 $\pi_*$ ，使得：} \\ \end{split} \\ \pi_* \left(s\right) \leftarrow \underset{a}{\arg\max} \left(r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) v_{k+1}\left(s'\right)\right); \qquad s \in \mathcal S \\ \begin{split} &\rule[-5pt]{10mm}{0.1em} &\rule[-5pt]{265mm}{0.1em} \\ \end{split} \; \\ \; \\

同样，价值迭代也可以在存储状态价值函数时重复使用空间，因此有以下版本的价值迭代算法：

\; \\ \; \\ \large \textbf{算法 3-8 有模型价值迭代（节约空间版本）} \\ \begin{split} \rule[5pt]{10mm}{0.1em} &\rule[5pt]{265mm}{0.1em} \\ &\text{输入：动力系统 $p$ 。} \\ &\text{输出：最优策略。} \\ &\text{参数：策略评估需要的参数。} \\ &\text{1.（初始化）$v_0\left(s\right) \leftarrow$ 任意值，$s \in \mathcal S$。如果有终止状态，$v_0\left(s_{\text{终止}}\right) \leftarrow 0$ 。} \\ &\text{2.（迭代）对于 $k \leftarrow 0, 1, 2, 3, \cdots,$ 迭代执行以下步骤：} \\ &\qquad \text{2.1 对于使用误差容忍度的情况，初始化本次迭代观测到的最大误差 } \delta \leftarrow 0\ ; \\ &\qquad \text{2.2 对于 $s \in \mathcal S$ 执行以下操作：} \\ &\qquad \qquad \text{2.2.1 计算新状态价值 } v_{\text{新}} \leftarrow \max_{a} \left(r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s, a\right) v\left(s'\right)\right) ; \\ &\qquad \qquad \text{2.2.2 对于使用容忍度误差的情况，更新本次迭代观测到的最大误差 } \delta \leftarrow \max \left(\;\delta,\; |v_{\text{新}} - v\left(s\right)|\;\right); \\ &\qquad \qquad \text{2.2.3 更新状态价值函数 } v\left(s\right) \leftarrow v_{\text{新}}\;; \\ &\qquad \text{2.3 若满足容忍度误差（即 $\delta \lt \delta_{max}$ ），或达到最大迭代次数（即 $k=k_{max}$），则跳出循环。} \\ &\text{3.（策略）根据价值函数输出确定性策略：} \\ \end{split} \\ \pi \left(s\right) \leftarrow \underset{a}{\arg\max} \left(r\left(s,a\right) + \gamma \sum_{s'} p\left(s' \mid s,a\right) v\left(s'\right)\right) 。\\ \begin{split} &\rule[-5pt]{10mm}{0.1em} &\rule[-5pt]{265mm}{0.1em} \\ \end{split} \; \\ \; \\

四、案例：冰面滑行（FrozenLake-v0）

使用 gym 库中的冰面滑行问题（FrozenLake-v0）作为案例分析，该环境也是一个有限 Markov 决策过程，具体环境和规则可查看源代码。书上的源代码是使用算法 3-2 实现策略评估算法，使用算法 3-4 实现策略改进算法，使用算法 3-6 实现策略迭代算法来获取最优策略及其状态价值函数。

PolicyIteration $q(s,a)$ 也存储了下来，所以策略改进部分没有严格按算法实现，并且并综合修改了其他模块的部分语句，改写的代码如下：


x
1
class PolicyIteration():
2
    def __init__(self, env, gamma=0.99, tolerant=1e-6):
3
        self.env = env
4
        self.gamma = gamma
5
        self.tolerant = tolerant
6
        self.policy = np.ones((env.observation_space.n, env.action_space.n)) / env.action_space.n
7
        self.v_table = np.zeros(env.observation_space.n)
8
        self.q_table = np.zeros((env.observation_space.n, env.action_space.n))
9
        self.policy_is_optimal = False
10
11
    def v2q(self, single_state=None):
12
        if single_state is not None:
13
            q_line = np.zeros(self.env.action_space.n)
14
            for action in range(self.env.action_space.n):
15
                for proba, next_state, reward, done in self.env.P[single_state][action]:
16
                    q_line[action] += proba * (reward + self.gamma * self.v_table[next_state] * (1.0 - done))
17
            return q_line
18
        else:
19
            for state in range(self.env.observation_space.n):
20
                self.q_table[state] = self.v2q(state)
21
22
    def evaluate_policy(self):
23
        self.v_table[:] = 0
24
        while True:
25
            delta = 0
26
            for state in range(self.env.observation_space.n):
27
                v_new = sum(self.policy[state] * self.v2q(state))
28
                delta = max(delta, abs(self.v_table[state]-v_new))
29
                self.v_table[state] = v_new
30
            if delta < self.tolerant:
31
                break
32
33
    def improve_policy(self):
34
        self.v2q()
35
        actions = np.argmax(self.q_table, axis=1)
36
        policy = np.eye(self.env.observation_space.n, \
37
                self.env.action_space.n)[actions]
38
        if (self.policy == policy).all():
39
            self.policy_is_optimal = True
40
        else:
41
            self.policy = policy
42
43
    def iterate_policy(self):
44
        while True:
45
            self.evaluate_policy()
46
            self.improve_policy()
47
            if self.policy_is_optimal:
48
                break

ValueIteration $q(s,a)$ ，改写的代码如下：


xxxxxxxxxx
32
1
class ValueIteration():
2
    def __init__(self, env, gamma=0.99, tolerant=1e-6):
3
        self.env = env
4
        self.gamma = gamma
5
        self.tolerant = tolerant
6
        self.v_table = np.zeros(env.observation_space.n)
7
        self.q_table = np.zeros((env.observation_space.n, env.action_space.n))
8
9
    def v2q(self, single_state=None):
10
        if single_state is not None:
11
            q_line = np.zeros(self.env.action_space.n)
12
            for action in range(self.env.action_space.n):
13
                for proba, next_state, reward, done in self.env.P[single_state][action]:
14
                    q_line[action] += proba * (reward + self.gamma * self.v_table[next_state] * (1.0 - done))
15
            return q_line
16
        else:
17
            for state in range(self.env.observation_space.n):
18
                self.q_table[state] = self.v2q(state)
19
20
    def iterate_value(self):
21
        while True:
22
            delta = 0
23
            for state in range(self.env.observation_space.n):
24
                v_max = max(self.v2q(state))
25
                delta = max(delta, abs(self.v_table[state]-v_max))
26
                self.v_table[state] = v_max
27
            if delta < self.tolerant:
28
                break
29
        self.v2q()
30
        actions = np.argmax(self.q_table, axis=1)
31
        self.policy = np.eye(self.env.observation_space.n, \
32
                self.env.action_space.n)[actions]