您的位置: 首页 >资讯 >

在强化学习中建模中心模式生成器的新方法

2019-06-04 16:33:19 编辑: 来源:
导读 中央模式发生器(CPG)是生物神经电路,可以产生协调的节奏输出,而不需要节奏输入。CPG负责在生物体中观察到的大多数节律性运动,例如步行,

中央模式发生器(CPG)是生物神经电路,可以产生协调的节奏输出,而不需要节奏输入。CPG负责在生物体中观察到的大多数节律性运动,例如步行,呼吸或游泳。

在给定心律失常输入时有效建模节律输出的工具可以在各种领域中具有重要应用,包括神经科学,机器人和医学。在强化学习中,用于建模机车任务的大多数现有网络,例如多层感知器(MLP)基线模型,在没有节奏输入的情况下不能产生节奏输出。

最近的研究已经提出使用可以将网络策略分解为线性和非线性组件的体系结构,例如结构化控制网(SCN),它们被发现在各种环境中胜过MLP。SCN包括用于本地控制的线性模型和用于全局控制的非线性模块,其输出被组合以产生策略动作。在先前使用递归神经网络(RNN)和SCN的基础上,斯坦福大学的一组研究人员最近设计了一种新的方法来模拟强化学习中的CPG。

“CPG是生物神经回路,能够在没有节奏输入的情况下产生节奏输出,”进行这项研究的研究人员之一Ademi Adeniji告诉Tech Xplore。“在强化学习中建模CPG的现有方法包括多层感知器(MLP),一个简单的,完全连接的神经网络,以及结构化控制网络(SCN),它具有用于局部和全局控制的独立模块。我们的研究目标是通过允许模型捕获先前的观察结果来改进这些基线,使其不易受输入噪声的影响。“

由Adeniji及其同事开发的循环控制网(RCN)采用SCN的架构,但使用香草RNN进行全局控制。这允许模型获取本地,全局和时间相关的控制。

“像SCN一样,我们的RCN将信息流分为线性和非线性模块,”进行这项研究的研究人员之一Nathaniel Lee告诉TechXplore。“直观地,线性模块,实际上是线性变换,学习局部相互作用,而非线性模块学习全局相互作用。”

SCN方法使用MLP作为其非线性模块,而研究人员设计的RCN用RNN替换该模块。结果,他们的模型获得了过去观察的“记忆”,由RNN的隐藏状态编码,然后它用于生成未来的行动。

研究人员评估了他们在OpenAI Gym平台上的方法,这是一个强化学习的物理环境,以及与合同(Mu-JoCo)任务的多关节动力学。他们的RCN在所有测试环境中匹配或优于其他基线MLP和SCN,有效地学习局部和全局控制,同时从先前序列获取模式。

“CPG负责大量有节奏的生物模式,”参与这项研究的另一位研究人员Jason Zhao表示。“模拟CPG行为的能力可以成功地应用于医学和机器人等领域。我们也希望我们的研究能够突出本地/全球控制的有效性,以及用于强化学习中心模式生成建模的循环架构。”

研究人员收集的研究结果证实了SCN样结构对CPG模型进行强化学习的潜力。他们的研究还表明,RNN对于建立机车任务特别有效,并且分离线性和非线性控制模块可以显着提高模型的性能。

“到目前为止,我们只使用进化策略(ES)训练我们的模型,这是一种非梯度优化器,”参与该研究的研究人员之一Vincent Liu说。“在未来,我们计划在通过近端策略优化(PPO)(一种梯度优化器)进行训练时探索其性能。此外,自然语言处理的进步表明卷积神经网络是递归神经网络的有效替代品,两者都是因此,我们可以考虑尝试一种延时神经网络架构,该架构沿着过去观察的时间轴应用一维卷积。“


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。