## 强化学习
“强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.”
强化学习是一种从无到有的学习过程,强化学习算法有一个虚拟老师,会给机器人的行为打分,分数导向性。可以看出在强化学习中, 一种行为的分数是十分重要的. 所以强化学习具有分数导向性. 我们换一个角度来思考.这种分数导向性好比我们在监督学习中的正确标签.
监督学习
监督学习:已有数据,已有对应的正确标签(人为对数据进行筛选设置)。
而强化学习在环境中尝试,自行获取”规律(经验)”,通过学习到的规律,来选择高分行为。
强化学习的分类
1.不理解环境的强化学习和理解当前环境的强化学习
<
p style=”background: #fafafa”>Model-free 和 Model-based
Model-free代表不理解当前环境,Model-based代表理解当前环境。
“Model-free 的方法有很多, 像 Q learning, Sarsa, Policy Gradients都是从环境中得到反馈然后从中学习. (类似于自动化系统中的PID闭环控制)
而 model-based RL 只是多了一道程序, 为真实世界建模, 也可以说他们都是 model-free 的强化学习, 只是 model-based 多出了一个虚拟环境, 我们不仅可以像 model-free 那样在现实中玩耍,还能在游戏中玩耍, 而玩耍的方式也都是 model-free 中那些玩耍方式, 最终 model-based 还有一个杀手锏是 model-free 超级羡慕的. 那就是想象力.”
2.基于价值和基于改了选择
基于概率,所有动作都可能发生,只是概率不同罢了:Policy Gradients
基于价值,只会选择价值高,得分高的动作:Q learning Sarsa
3.单步更新与回合更新
Monte-carlo learning 和基础版的 policy gradients 等
都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新. 有的强化学习问题并不属于回合问题.
### 4.在线学习与离线学习
在线学习:必须是本人在场,必须是本人自己玩,自己总结经验
离线学习:可以从过往的历史数据中积累经验,可以是任何人的经验,可以看别人玩。
最典型的在线学习就是 Sarsa 了, 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda, 最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network.
转载请注明:燕骏博客 » 【强化学习笔记】什么是强化学习
赞赏作者微信赞赏支付宝赞赏