【强化学习笔记】什么是强化学习

## 强化学习

“强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.”

强化学习是一种从无到有的学习过程，强化学习算法有一个虚拟老师，会给机器人的行为打分，分数导向性。可以看出在强化学习中, 一种行为的分数是十分重要的. 所以强化学习具有分数导向性. 我们换一个角度来思考.这种分数导向性好比我们在监督学习中的正确标签.

监督学习

监督学习：已有数据，已有对应的正确标签（人为对数据进行筛选设置）。

而强化学习在环境中尝试，自行获取”规律（经验）”，通过学习到的规律，来选择高分行为。

强化学习的分类

1.不理解环境的强化学习和理解当前环境的强化学习

p style=”background: #fafafa”>Model-free 和 Model-based

Model-free代表不理解当前环境，Model-based代表理解当前环境。

“Model-free 的方法有很多, 像 Q learning, Sarsa, Policy Gradients都是从环境中得到反馈然后从中学习. （类似于自动化系统中的PID闭环控制）

而 model-based RL 只是多了一道程序, 为真实世界建模, 也可以说他们都是 model-free 的强化学习, 只是 model-based 多出了一个虚拟环境, 我们不仅可以像 model-free 那样在现实中玩耍,还能在游戏中玩耍, 而玩耍的方式也都是 model-free 中那些玩耍方式, 最终 model-based 还有一个杀手锏是 model-free 超级羡慕的. 那就是想象力.”

2.基于价值和基于改了选择

基于概率，所有动作都可能发生，只是概率不同罢了：Policy Gradients

基于价值，只会选择价值高，得分高的动作：Q learning Sarsa

3.单步更新与回合更新

Monte-carlo learning 和基础版的 policy gradients 等
都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新. 有的强化学习问题并不属于回合问题.