Alphabet的DeepMind掌握Atari游戏

2020-04-07 15:48:05 编辑：来源：

导读为了更好地应对21世纪第三个十年即将到来之际的复杂挑战，Alphabet Inc 开发了可以追溯到上世纪80年代的电子游戏。谷歌的母公司本周报告称，其旗下的DeepMind科技人工智能部门已经成功学会了如何玩雅达利(Atari)的57款视频游戏。而且电脑系统比任何人都好。雅达利是上世纪70年代第一批成功的电子游戏《乒乓》(Pong)的创造者，他将许多早期的经典电子游戏推广到了90年代。视频游戏

为了更好地应对21世纪第三个十年即将到来之际的复杂挑战，Alphabet Inc.开发了可以追溯到上世纪80年代的电子游戏。

谷歌的母公司本周报告称，其旗下的DeepMind科技人工智能部门已经成功学会了如何玩雅达利(Atari)的57款视频游戏。而且电脑系统比任何人都好。

雅达利是上世纪70年代第一批成功的电子游戏《乒乓》(Pong)的创造者，他将许多早期的经典电子游戏推广到了90年代。视频游戏通常用于人工智能项目，因为它们挑战算法，让它们在面对不断变化的场景、威胁和奖励的同时，导航越来越复杂的路径和选项。

Alphabet的人工智能系统被称为AGENT57，它探测了57款领先的雅达利(Atari)游戏，涵盖了大范围的难度级别和不同的成功策略。

“游戏是构建自适应算法的绝佳试验场，”研究人员在DeepMind博客页面上的一份报告中表示。“它们提供了一套丰富的任务，玩家必须开发复杂的行为策略才能掌握，但它们也提供了一个简单的进度指标——游戏分数——来优化。

报告称:“最终目标不是开发擅长游戏的系统，而是将游戏作为开发系统的垫脚石，学习如何在各种挑战中脱颖而出。”

2016年，DeepMind的AlphaGo系统在围棋战略比赛中击败世界冠军李世石(Lee Sedol)，赢得广泛认可。

在雅达利目前的57款游戏中，有四款被认为是人工智能项目特别难以掌握的:Montezuma的《复仇》(Revenge)、《陷阱》(Pitfall)、《Solaris》和《滑雪》(Skiing)。前两个游戏构成了DeepMind所称的复杂的“探索-利用问题”。

“一个人应该继续执行他知道有效的行为(利用)，还是应该尝试新的东西(探索)来发现可能更成功的新策略?”DeepMind问道。例如，你应该总是在当地的餐馆点他们最喜欢的菜，还是应该尝试一些新的、可能会超越旧口味的菜?探索包括采取许多次优的行动来收集必要的信息，以发现最终更强大的行为。”

另外两款具有挑战性的游戏在挑战和奖励之间设置了较长的等待时间，使得人工智能系统更难成功分析。

之前用人工智能控制这四款游戏的努力都失败了。

报告说，仍然有改进的空间。首先，长时间的计算仍然是个问题。此外，尽管承认“训练时间越长，得分越高”，但DeepMind的研究人员希望人工智能做得更好。他们希望同时掌握多个游戏;目前，它一次只能学习一款游戏，每次重启游戏都必须经过训练。