强化学习的数学基础学习笔记

马尔可夫决策过程（MDP)

马尔可夫决策过程（Markov Decision Process, MDP）和贝尔曼方程（Bellman Equation）是强化学习和动态规划中的两个核心概念，它们之间有着密切的关系。贝尔曼方程是解决MDP的关键工具。让我们详细探讨一下两者之间的关系。

MDP 是一种数学模型，用于描述决策问题。一个MDP由以下元素组成：

在MDP中，我们通常引入价值函数来表示某个状态或状态-动作对的“好坏”。

关系：状态价值函数和状态-动作价值函数

V_{\pi}(s) = \sum_{a \in A} \pi(a \mid s) Q_{\pi}(s,a)

MDP 的目标是找到一个策略 \pi，使得在长期内获得的累积奖励最大化。

我们最终要求的东西是最优策略\pi( s) ，对于每个状态s，给出了最优动作a。

怎么求这个最优策略呢？

如果我们能求出Q(s, a)，pi(s) = i belongs to A argmax(Q(s, ai))即可

那现在的问题就转化为了如何求Q(s, a)了

贝尔曼方程是一种递归定义，用于描述价值函数。贝尔曼方程为我们提供了一种方法来分解MDP中的最优值问题。通过贝尔曼方程，可以将复杂的决策问题分解为更小的子问题。

点击展开状态价值函数相关的贝尔曼方程，这里不做展开

对于任意策略 \pi，状态价值函数 V^\pi(s) 满足以下贝尔曼方程：

V^\pi(s) = \mathbb{E}_\pi \left[ R(s, a) + \gamma V^\pi(s') \right]

展开期望值，考虑状态转移概率 P 和策略 \pi：

V^\pi(s) = \sum_{a \in A} \pi(a \mid s) \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma V^\pi(s') \right]

对于最优策略 \pi^*，状态价值函数 V^*(s) 满足以下贝尔曼最优方程：

V^*(s) = \max_a \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma V^*(s') \right]

状态-动作价值函数 Q^\pi(s, a) 满足以下贝尔曼方程：

Q^\pi(s, a) = \mathbb{E} \left[ R(s, a) + \gamma Q^\pi(s', a') \right]

展开期望值，考虑状态转移概率 P：

Q^\pi(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma \sum_{a' \in A} \pi(a' \mid s') Q^\pi(s', a') \right]

对于最优策略 \pi^*，状态-动作价值函数 Q^*(s, a) 满足以下贝尔曼最优方程：

Q^*(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma \max_{a'} Q^*(s', a') \right]

Q贝尔曼最优方程是如何推导的？
A: pi(a'| s')在最优之后，变成了一个”指示函数“，即只有在特定动作下会取1