2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
DeepMind AI已经获得了国际象棋冠军。英国广播公司称,谷歌的DeepMind部门在与Stockfish 8的比赛中打了100场比赛并赢得或者全部赢了。
英国广播公司表示,arXiv公布的详细信息表明,算法 AlphaZero在获得国际象棋规则后仅4小时就能胜过干鱼,并被告知通过模拟自身来学习。
描述这项工作的团队文件是关于arXiv的。他们报告说软件已经普及并且能够学习其他游戏。
作者写了关于AlphaZero算法实现的结果,“tabula rasa,在许多具有挑战性的领域中的超人表现”,而不仅仅是国际象棋。除了游戏规则之外没有任何其他知识,该算法在24小时内完成了作者所说的“国际象棋,日本国际象棋”和“围棋”中的“超人”级游戏,并令人信服地在每种情况下击败了世界冠军计划。 “
“使用通用强化学习算法通过自我游戏掌握国际象棋和将棋”是该论文的标题,该文件于12月5日提交。
然而,值得注意的是,超越了国际象棋的胜利。詹姆斯·文森特在The Verge发现了真正卓越的壮举,“在不到24小时内,同样的计算机程序能够教会自己如何在超人的水平上玩三个复杂的棋盘游戏。这对人工智能世界来说是一个新的壮举。” [去,国际象棋,将棋。]
英国广播公司引用了牛津大学的Michael Wooldridge教授的话。“DeepMind的总体发展轨迹似乎是解决一个问题,然后证明它可以真正提高性能,这非常令人印象深刻。” 与此同时,伍德里奇观察到三场比赛相当“封闭”,因为他们有一套有限的规则来应对。“在现实世界中,我们不知道拐角处是什么,”他解释道。“当你不知道将要发生什么时,应对更加复杂,当DeepMind转向更开放的问题时,事情会变得更加激动。”
AlphaZero并非专为下棋而设计。詹姆斯·文森特在The Verge:“在每一种情况下,都给出了一些基本的规则(比如骑士如何在国际象棋中移动等等)但是没有其他策略或策略编程。只是通过一遍又一遍地玩自己变得更好加快步伐 - 一种训练AI的方法,称为“强化学习”。
作者说,AlphaZero算法是在Go的上下文中引入的AlphaGo Zero算法的“更通用的版本”。“它用深度神经网络和白板强化学习算法取代了传统游戏程序中使用的手工知识和特定领域的增强。”
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)