深度强化学习与机器人控制.pptx

资源ID：299111 资源大小：163.95MB 全文页数：16页
资源格式： PPTX 下载积分：5金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

深度强化学习与机器人控制.pptx

深度强化学习与机器人控制深度强化学习与机器人控制强化学习（REINFORCEMENT LEARNING, RL）Agent通过与环境交互学习一个从环境状态到行为的映射，学习的目标是使累积折扣奖赏最大。可用Markov决策过程描述，四个元素：S、A、P、R深度强化学习（DEEP REINFORCEMENT LEARNING, DRL）从感知到控制结合深度学习的感知能力和强化学习的决策能力，直接从高维原始数据学习控制策略。解决了强化学习的1.函数逼近器：连续状态到连续动作空间映射问题；2.end to end:高维数据直接到动作的映射发展：Q-learningDQNPolicy Gradient: end to endDeep Deterministic Policy GradientAction network, Critic network1 Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning Nature 518.7540 (2015) 深度强化学习能干什么(棋类)游戏自动驾驶飞行器控制机械臂操作多足行走640深度强化学习能干什么（对于我们）动目标捕获（在轨服务，工业，娱乐）自主装配（在轨构建，工业）自动驾驶、导航（星表探测）多目标识别（在轨监测）设计师助手DRL应用于机器人控制的步骤1.设计算法2.编写程序3.训练4.应用1.设计算法以动目标抓捕任务DQN方法为例明确任务，确定输入输（状态、动作）1.设计算法制定奖赏规则1.设计算法更新Q值函数传统上采用查表的方式计算Q值函数，为了计算方便，可以利用上一周期的值用Bellman方程等更新Q值：由于状态动作空间巨大，我们训练一个深度递归网络（Deep Recurrent Neural Network, RNN）来拟合Q值表。( , )( , )max( , )( , )aQ s aQ s arQ s aQ s a -L max( , )( , )( , )arQ s aQ s aQ s a 21max( , )( , )2aLrQ s aQ s a1.设计算法( )=argmax( , )asQ s a2.编写程序环境：Linux、Mac、Win架构：TensorFlow等语言：Python伪代码：0s 0;0;ss0;r rmax( , )( , )( , )arQ s aQ s aQ s a( , )( )Q s aDRNNa=argmax( , )aaQ s aa r0s 0;0;ss0;r rmax( , )( , )( , )arQ s aQ s aQ s a( , )( )Q s aDRNNa=argmax( , )aaQ s aa r3.训练两种训练方式：模拟训练：搭建模拟器、模拟训练、移植OpenAI Gym，MuJoCo，rllab, DeepMind Lab, TORCS, PySC2等一系列优秀的平台MuJoCo（Multi-Joint dynamics with Contact）是一个物理模拟器，可以用于机器人控制优化等研究。TensorFlow等均集成了OpenAI Gym，MuJoCo实物训练：单机；多机经验共享3.训练实物训练模拟训练+移植4.应用经过长时间训练，算法收敛，性能满足要求后可应用于真实场景DRL顶尖成果(左：DEEPMIND 右：SIGGRAPH小组)总结深度强化学习为决策类问题（包括机器人控制）带来有效的解决方案，在某些领域可达到优于人的效果。对于我们来说在机器人抓捕、装配、规划、导航、行走方面皆可利用，服务于在轨服务、深空探测、辅助设计、民用市场开拓等领域。但DRL（人工智能）不是什么都适合干，不是什么都能干。我们应该斟酌其可利用的领域，不能为了赶时髦而盲目代入。AlphaGo战胜人类的意义确实是划时代的，借用两位人类棋手的话结尾：“人类千年的实战演练进化，计算机却告诉我们，人类全都是错的”柯洁围棋九段“机器人永远不能像人类那样理解这个游戏的美妙。”李世石围棋九段

注意事项

本文（深度强化学习与机器人控制.pptx）为本站会员（王**）主动上传，优知文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知优知文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。