本书是对强化学习算法的综合性讲解书籍,内容包括主要的强化学习算法的实现思路讲解,以及主要的优化方法的原理讲解。本书介绍的每个算法都分为原理讲解和代码实现两部分,代码实现是为了通过实验验证原理部分的可行性。通过本书的学习,读者可以快速地了解强化学习算法的设计原理,掌握强化学习算法的实现过程,并能研发属于自己的强化学习算法,了解各个算法的优缺点,以及各个算法适用的场景。 本书共18章,分为强化学习基础篇(第1章和第2章)介绍了强化学习中的基本概念。强化学习基础算法篇(第3~6章)介绍了QLearning算法、SARSA算法、DQN算法、Reniforce算法。强化学习高级算法篇(第7~12章)介绍了AC演员评委算法、A2C优势演员评委算法、PPO近端策略优化算法、DDPG深度确定性策略梯度算法、TD3双延迟深度确定性策略梯度算法、SAC柔性演员评委算法、模仿学习算法。多智能体篇(第13章和第14章),介绍了在一个系统中存在多智能体时,各个智能体之间的合作、对抗等关系,以及各个智能体之间的通信策略。扩展算法篇(第15~17章)介绍了CQL离线学习算法、MPC环境学习算法、HER目标导向算法。SB3强化学习框架篇(第18章),介绍了强化学习框架SB3的使用方法。 本书将使用最简单浅显的语言,带领读者快速地了解各个主要的强化学习算法的设计思路,以及实现过程。通过本书各个章节的学习,读者可以掌握主流的强化学习算法的原理和实现方法,能够让读者知其然也知其所以然,做到融会贯通。