快使用Ctrl+D收藏本站!本站早已不再维护,择期将关闭本站!!本站资源已全部失效,请勿打赏!!PLC培训创业官网 苏州实操派科技-点击访问-

【强化学习笔记】什么是强化学习

网络技术 π³朱子文 5026℃ 0评论

## 强化学习

“强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.”

强化学习是一种从无到有的学习过程,强化学习算法有一个虚拟老师,会给机器人的行为打分,分数导向性。可以看出在强化学习中, 一种行为的分数是十分重要的. 所以强化学习具有分数导向性. 我们换一个角度来思考.这种分数导向性好比我们在监督学习中的正确标签.

 

监督学习

监督学习:已有数据,已有对应的正确标签(人为对数据进行筛选设置)。

而强化学习在环境中尝试,自行获取”规律(经验)”,通过学习到的规律,来选择高分行为。

 

强化学习的分类

 

1.不理解环境的强化学习和理解当前环境的强化学习

<

p style=”background: #fafafa”>Model-free Model-based 

Model-free代表不理解当前环境,Model-based代表理解当前环境。

 

Model-free 的方法有很多,  Q learning, Sarsa, Policy Gradients都是从环境中得到反馈然后从中学习. (类似于自动化系统中的PID闭环控制)

 

model-based RL 只是多了一道程序, 为真实世界建模, 也可以说他们都是 model-free 的强化学习, 只是 model-based 多出了一个虚拟环境, 我们不仅可以像 model-free 那样在现实中玩耍,还能在游戏中玩耍, 而玩耍的方式也都是 model-free 中那些玩耍方式, 最终 model-based 还有一个杀手锏是 model-free 超级羡慕的. 那就是想象力.

 

2.基于价值和基于改了选择

基于概率,所有动作都可能发生,只是概率不同罢了:Policy Gradients

基于价值,只会选择价值高,得分高的动作:Q learning Sarsa

 

3.单步更新与回合更新

 

 Monte-carlo learning 和基础版的 policy gradients
都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新. 有的强化学习问题并不属于回合问题.

 

### 4.在线学习与离线学习

在线学习:必须是本人在场,必须是本人自己玩,自己总结经验

离线学习:可以从过往的历史数据中积累经验,可以是任何人的经验,可以看别人玩。

 

最典型的在线学习就是 Sarsa , 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda, 最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network.

转载请注明:燕骏博客 » 【强化学习笔记】什么是强化学习

赞赏作者

微信赞赏支付宝赞赏

喜欢 (281)or分享 (0)

如果您喜欢本站文章,感觉本站的资源对您有帮助,请狠狠点击下面

每累计赞助40元,即可让本站按最低配置运行一个月,感谢您的支持!

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址