第一章:初识强化学习

一、强化学习的基本概念:

二、智能体和环境交互的过程:

智能体/环境接口
动作 A
观测 O
奖励 R
*** 智能体 ***
**** 环境 ****

本人认为稍微具体点,可以展开如下:

环境
智能体
动作 A
观测 O
奖励 R
改进
有用信息
观测 O
改变至
当前状态
下一个状态
决策部分
学习部分
接收部分

以上智能体/环境接口中,智能体和环境的交互主要有三个环节:

  1. 智能体观测环境,可以获得环境的观测(observation),一般记为 O
  2. 智能体根据观测做出决策,决定要对环境施加的动作(action),记为 A
  3. 环境受智能体动作的影响,改变自己的状态(state),记为 S;并给出奖励(reward),记为 R

三、强化学习的分类:

强化学习
按任务分类
按算法分类
单/多智能体任务
回合制/连续性任务
离散/连续时间环境
离散/连续动作空间
确定性/非确定性环境
完全/非完全可观测环境
同策/异策学习
有模型/无模型学习
回合/时序差分更新
基于价值/策略
深度/非深度强化学习算法

注:同策学习(on-policy)是边决策边学习,学习者同时也是决策者。异策学习(off-policy)则是通过之前的历史(可是自己的也可以是别人的)进行学习,学习者和决策者不需要相同。