首页 南方天气预报正文

红绿灯,向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文,rear

admin 南方天气预报 2019-05-06 331 0

郭一璞 发自 凹非寺

深度强化学习,能够用来学走路了。

Agility Robotics的双足机器人Cassie,这个没有上半身的机器人,就靠着深度强化学习学会了更灵敏的运用自己身体的唯二器官:左腿,和右腿。

看,它能够正常的往前走。

还能大步快走,差点就跑起来了。

作为一个传送带运动爱好者,假如踩到了传送带的边际也不会两脚劈叉,而是稳稳的持续前行。

乃至,倒着走也相同稳。

或许学习一下螃蟹,胡作非为。

这种时分,不怀好意的人类就开端欺压它了,拿木棍戳它的小肚腩。

站的稳稳地,Cassie没有一点点要倒下的意思。

已然戳肚子正前方没有反应,那咱们换个视点,戳肚子的旁边面,大概是“腰子”的方位。

稍稍歪了一下,但影响不大,Cassie该怎么走仍是怎么走。

肚子看来搅扰不了,那就搅扰脚底,放一块木板,绊倒它。

惋惜如意算盘没能完成,Cassie一脚踩在木板上,略微晃了晃,仍然稳步前行,乃至还回踩了一脚。

学走路进行时

新的行走技术,要归功于加拿大不列颠哥伦比亚大学计算机系和俄勒冈州立大学动力机器人试验室两所组织。

让Cassie学会行走,需求用到强化学习仿照学习(Imitation Learning)

强化学习处理马尔可夫决议计划进程( Markov Decision Process, MDP)的最优战略,需求用到战略梯度算法;而仿照学习则需求处理参数战略问题。

之后,需求用到要害算法DASS来搞定数据集。每次接连规划迭代时从头界说奖赏函数,用确定性举动随机状况(Deterministic Action Stochastic State,DASS)元组来表征战略。

之后,将DASS于强化学习、仿照学习结合在一起,为机器人设定战略。

现在需求在Cassie机器人上试验了。

Cassie双足机器人身高大约1米,体重31千克,两条腿上有杂乱的传动机制,赤色箭头都是自动关节,黄色的箭头都是被迫关节。

需求在神经网络上进行参数化战略优化,这儿用到了actor-critic算法和MuJoCo模拟器。

战略规划进程则是依托四个依据追寻的战略的起始点。 DASS样本依据箭头的方向,从一个战略传递到下一个战略。

实际操作中,需求先练习几个初始战略,之后参阅机器人的运动状况和需求到达的运动速度进行调整,这儿只需求5~10k的小数据集就能完成变速行走战略。

最终,就能够让机器人跑起来了。Cassie机器人需求和计算机联网,操作进程中研讨者们用到了Ubuntu体系和PyTorch结构来履行学习战略。

试验之后,能够看出运用更大的神经网络,就能够更快的产出更安稳的战略,比方图中的蓝色线条要显着优于赤色和绿色。

传送门

最终,假如你需求了解更具体的过程,能够阅览这项研讨的论文。

论文:

Iterative Reinforcement Learning Based Design of Dynamic Locomotion Skills for Cassie

Zhaoming Xie, Patrick Clary, Jeremy Dao, Pedro Morais, Jonathan Hurst, Michiel van de Panne

https://arxiv.org/abs/1903.09537

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
雷火电竞版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

最近发表

    lol雷火电竞_雷火电竞app下载_雷火电竞登录

    http://www.jpod11.com/

    |

    Powered By

    使用手机软件扫描微信二维码

    关注我们可获取更多热点资讯

    雷火电竞出品