蒙特卡洛树搜索加冕《指环王》! 游戏越复杂，AI越厉害

新智元 06-21 273

前言：

而今兄弟们对“蒙特卡洛树搜索mcts”大致比较重视，小伙伴们都想要知道一些“蒙特卡洛树搜索mcts”的相关文章。那么小编也在网摘上搜集了一些对于“蒙特卡洛树搜索mcts””的相关知识，希望你们能喜欢，同学们一起来了解一下吧！

来源：arxiv

编辑：David

【新智元导读】AI又来征服游戏了，这次的目标是《指环王》！这是一款以团队协作为中心的经典卡牌游戏。新模型基于蒙特卡洛树搜索 (MCTS) 算法，游戏难度越高越厉害！

AI再次入侵游戏领域！

与之前的即时策略类、对战类游戏不同，这次的目标是在国外非常流行的卡牌游戏《指环王》。

说起来，自从AlphaGo横空出世，击败人类最优秀的职业围棋手之后，AI开始在越来越多战略游戏中与人类对战。

机器学习算法和其他计算工具开始变得越来越先进，许多计算机科学家开始通过训练他们在不同的游戏中与人类竞争来测试他们的能力。

实际上，在过去10年左右的时间里，开发人员已经训练了许多模型在战略游戏、棋盘游戏、电脑游戏和纸牌游戏中与人类对战。其中一些AI取得了显著成果，击败了公认的人类冠军和游戏专家。

比如，Deepmind的AlphaStar模型就在《星际争霸2》中超过了99.8%人类玩家水平，达到了最高的宗师级段位。

近日，华沙理工大学的研究人员最近着手开发一种基于蒙特卡洛树搜索 (MCTS) 算法的技术，可以玩由 Fantasy Flight Games 于 2011 年发布的《指环王》 (LotR) 经典纸牌游戏。

MCTS 算法是一种通用的启发式决策方法，可以在随机游戏（playouts）中来优化给定游戏或场景中的搜索解决方案空间。研究人员在 arXiv 的一篇最新论文中介绍了他们的 MCTS 技术。

“我们是《指环王》游戏的粉丝，但我们发现没有现有AI可以玩这个游戏，”进行这项研究的两位研究人员 Bartosz Sawicki 和 Konrad Godlewski 表示。“尽管如此，我们还是发现了树搜索方法在类似的纸牌游戏中的应用，比如万智牌或《炉石传说》。”

《指环王》为什么之前没有AI来尝试呢？

主要原因是开发这款游戏的AI具有很高的挑战性。这是一款合作纸牌游戏，游戏策略的解决方案空间巨大，逻辑结构复杂，并且有随机事件发生的可能性。这些特点使得游戏的规则和策略很难通过计算方法获得。

“2016 年围棋人机大战，是人类玩家有机会和 AI 竞争的最后时刻。”Sawicki 和 Godlewski 解释说。“我们论文的目标是为《指环王》游戏寻找蒙特卡洛树搜索的代理。”

与其他著名的纸牌游戏，如《炉石传说》和万智牌相比，《指环王》的游戏模式有着很大的不同。事实上，《指环王》的中心策略是团队合作，而不是与其他玩家竞争。

游戏中的决策过程非常复杂，游戏玩法包括多个阶段，其中大部分玩法策略要取决于前一阶段的结果。

尽管面临这些挑战，Sawicki 和Godlewiski 还是能够开发出一种可以玩 LotR 的基于 MCTS 的方法。然后，他们在游戏模拟器上进行了一系列测试，评估了他们开发的技术。

“我们的 MCTS 玩家的胜率明显高于基于规则的人类专家级玩家，”Sawicki 和 Godlewski 说。“此外，我们的方法将领域知识添加到扩展策略和 MCTS 中，进一步提高了模型的整体效率。”

这一成果证明，通过结合不同的人工智能和计算技术，AI模型可以实现复杂和协作式的策略游戏的精通。尽管如此，采用MCTS 来处理这些复杂的游戏也有很大的局限性。

“主要问题是 MCTS 将游戏逻辑与AI 算法相结合，所以在构建游戏树时必须知道合法的走法，不过，调试具有显著分支因素的游戏树是一场噩梦。

在很多情况下，程序可以运行顺利，但游戏胜率为零，我们不得不手动检查整个游戏树。” Sawicki 和 Godlewski 解释道。

未来，这项技术可以被《指环王》游戏爱好者与 AI 合作玩游戏。还可以激发其他人工智能工具的开发，这些工具可以玩复杂的、战略性、多阶段的游戏。

另外，这项研究未来还打算探索《指环王》游戏中训练的深度强化学习 (RL) 代理的潜力和性能。

研究人员表示：“目前的工作重点是使用强化学习来进一步提高 AI 在游戏中的性能。给定一个游戏状态，神经网络返回一个由环境（即游戏模拟器）执行的动作。

这很困难，因为不同状态下动作的数量不同，而策略网络只能有一个固定的数量输出。到目前为止，我们的结果很有希望。”

参考链接：

自学围棋的AlphaGo Zero，你也可以用PyTorch造一个｜附代码