国际象棋和围棋上击败世界顶尖棋手的人工智能程序

2020-04-07 15:48:23 编辑：来源：

导读第一批在国际象棋和围棋上击败世界顶尖棋手的人工智能程序，至少得到了人类的一些指令，最终证明，新一代人工智能程序无法与之匹敌，这些程序完全靠自己通过反复试验来学习。深度学习和强化学习算法的结合，使电脑在国际象棋和围棋等富有挑战性的棋盘游戏、包括吃豆人在内的越来越多的电子游戏，以及包括扑克在内的一些纸牌游戏中取得了主导地位。但是，尽管有了这些进步，电脑仍然会因为游戏中隐藏的信息、多玩家、持续的游戏、

第一批在国际象棋和围棋上击败世界顶尖棋手的人工智能程序，至少得到了人类的一些指令，最终证明，新一代人工智能程序无法与之匹敌，这些程序完全靠自己通过反复试验来学习。

深度学习和强化学习算法的结合，使电脑在国际象棋和围棋等富有挑战性的棋盘游戏、包括吃豆人在内的越来越多的电子游戏，以及包括扑克在内的一些纸牌游戏中取得了主导地位。但是，尽管有了这些进步，电脑仍然会因为游戏中隐藏的信息、多玩家、持续的游戏、短期和长期的奖励等因素，使得计算最优策略变得异常复杂，而越来越接近现实生活。

为了克服这些障碍，人工智能研究人员正在探索辅助技术，以帮助机器人代理人学习，模仿人类获取新信息的方式，不仅从我们自己，而且从我们周围的人、报纸、书籍和其他媒体获取新信息。麻省理工学院- ibm沃森人工智能实验室开发的集体学习策略提供了一个有前途的新方向。研究人员发现，当两个机器人智能体学会利用彼此不断增长的知识时，它们学习一个简单的导航任务所花费的时间可以减少50%甚至更多。

该算法教这些代理何时寻求帮助，以及如何根据到目前为止所学到的知识调整它们的建议。该算法的独特之处在于两个代理都不是专家;每个人都可以自由地扮演学生-老师的角色，要求并提供更多的信息。本周，研究人员将在夏威夷举行的AAAI人工智能大会上展示他们的研究成果。

这篇论文的合著者之一、麻省理工学院航空航天系教授乔纳森•豪(Jonathan How)获得了AAAI最佳学生论文的荣誉奖;Shayegan Omidshafiei曾是麻省理工学院的研究生，现在在Alphabet的DeepMind工作;麻省理工学院的Kim Dong-ki;刘淼，Gerald Tesauro, Matthew Riemer，和IBM的Murray Campbell;以及东北大学的克里斯托弗·阿马托。

加拿大皇家银行(Royal Bank of Canada)旗下研究机构Borealis AI的研究主管马修·e·泰勒(Matthew E. Taylor)表示:“这种提供行动以最大程度地提高学生学习效果的想法，而不仅仅是告诉学生该做什么，可能会非常有影响力。”泰勒没有参与这项研究。“虽然这篇论文关注的是相对简单的场景，但我相信学生/老师的框架可以扩展，并在dota2、机器人足球或灾难恢复场景等多人视频游戏中发挥作用。”

目前，专业玩家在Dota2和其他有利于团队合作和快速战略思考的虚拟游戏中仍有优势。(尽管Alphabet的人工智能研究部门DeepMind最近在即时战略游戏《星际争霸》(Starcraft)中击败了一名职业玩家，成为新闻。)但随着机器在动态环境中的操控能力越来越强，它们可能很快就会为现实世界中的任务做好准备，比如管理大城市的交通或协调地面和空中的搜救队伍。

“机器缺乏我们小时候养成的常识，”刘说，他曾是麻省理工学院的博士后，现在在麻省理工学院- ibm实验室工作。这就是为什么他们需要观看数百万的视频画面，花费大量的计算时间，学习如何玩好一款游戏。即便如此，他们也缺乏有效的方法将自己的知识传递给团队，或将自己的技能推广到新游戏中。如果我们能训练机器人向他人学习，并将它们的学习推广到其他任务中，我们就能开始更好地协调它们之间以及与人类之间的互动。”

MIT-IBM团队的关键洞见是，通过划分和征服来学习一项新任务的团队——在这种情况下，他们可以移动到房间的另一端，并同时触及墙壁——将学习得更快。

他们的教学算法分为两个阶段。在第一种情况下，学生和老师根据他们对下一步行动的信心，或他们即将给出的建议，来决定是否要求或给出建议，从而使他们更接近自己的目标。因此，学生只向老师寻求建议，而老师只在补充的信息可能会提高他们的表现时才给予建议。对于每个步骤，代理将更新各自的任务策略，流程将继续，直到它们达到目标或超时为止。

每一次迭代，算法都会记录学生的决定、老师的建议，以及他们的学习进度，并以游戏的最终分数来衡量。在第二阶段，深度强化学习技术使用之前记录的教学数据来更新两个建议策略。“每一次更新，老师都会在正确的时间给出正确的建议，”麻省理工学院的研究生Kim说。

在AAAI研讨会上讨论的一篇后续论文中，研究人员改进了算法的能力，以跟踪代理学习底层任务(在本例中是一个推箱子任务)的情况，从而提高代理提供和接收建议的能力。这是该团队朝着参加机器人世界杯(RoboCup)的长期目标又迈进了一步。机器人世界杯是由学术人工智能研究人员发起的年度机器人竞赛。

“我们需要扩大到11个代理，才能玩足球游戏，”IBM研究员特索罗表示。他开发了第一个掌握西洋双陆棋游戏的人工智能程序。“还需要做更多的工作，但我们充满希望。”

进一步探索

这篇文章由麻省理工学院新闻(web.mit.edu/newsoffice/)转载，这是一个涵盖麻省理工学院研究、创新和教学新闻的热门网站。

标签：国际象棋