MuZero：重新发明了围棋的AI

majer @ 2019.11.29 , 12:00 下午

当初谷歌DeepMind的阿尔法狗横空出世，使人类领教到了现代AI的恐怖潜力。从那时起，每隔几个月DeepMind就会推出一篇重磅论文，从阿尔法狗到阿尔法零，进步之速令观者咋舌。

或许正是因为DeepMind的AI技术阶段性突破频繁，逐渐令大众产生了审美疲劳。几天前，谷歌又搞出了一个MuZero，而关心者人数就已不及当初。

症结或许在这里：在棋艺上，阿尔法狗已经完虐人类了，之后阿尔法零又完虐了狗，以后肯定又会出现新的AI完爆阿尔法零……如此以往，没啥新意啊。此外，超越人类是一个坎，至于之后又胜过人类上万倍还是百万倍，都难以对公众形成刺激。

好吧，说了这么多，MuZero到底有啥特殊之处呢，值得单独拿出来说一说？

简单梳理一下。

最开始的阿尔法狗向人类学习围棋，最终超越了人类。我们或许可以将它看做是人类围棋的顶峰。

随后，阿尔法零在仅仅知道规则的情况下，自己演化围棋棋理，最终超越了狗。它是第一位真正意义上的AI围棋大师，所取得的成就与人类围棋的历史毫无关系。

到MuZero，它压根不知道什么围棋！就是在棋盘上胡乱摆放棋子，工程师在几个节点稍微诱导一下，使它产生偏向性。最终，MuZero发明了围棋！

除了发明围棋外，它还以更快的速度发展出更加高明的棋理。它是AI世界中的围棋创造者。

直观上，MuZero具有内部驱动力——精确设计游戏规则的动力。

正如DeepMind研究人员所解释的那样，强化学习的一种形式——模型是MuZero和AlphaZero的核心技术，其中的奖励系统将AI带向目标。

MuZero与阿尔法零对弈，前者的搜索步数更少却更加精妙，因为它对围棋的理解更深。它不仅比阿尔法零更强大，而且在架构上更简单，更高效。

DeepMind认为，现实生活中的许多问题(如股票，军事行动)都没有明确的规则，或者规则随时变动。所以，需要未来的决策AI自行摸索。这就是他们的研发方向。

本文译自 venturebeat，由 majer 编辑发布。

[ 广告 ]

赞一个 (29)

煎蛋