龙空技术网

麻将AI超越99%人类玩家:专业十段,学习能力堪比阿法狗

金台资讯 127

前言:

眼前你们对“麻将ai胡牌算法”都比较着重,兄弟们都需要知道一些“麻将ai胡牌算法”的相关知识。那么小编同时在网摘上汇集了一些有关“麻将ai胡牌算法””的相关资讯,希望看官们能喜欢,咱们快快来了解一下吧!

钱江晚报

从最早的AI(人工智能)在国际象棋中战胜人类开始,中国象棋、德州扑克、围棋等智力游戏相继沦陷,在DOTA、星际争霸等电子游戏中也表现亮眼,但是AI在麻将领域却一直没有突破。

近日,微软发布了一份关于麻将AI“Suphx(意为Super Phoenix,超级凤凰)”的修订版预印本文件,介绍说Suphx是一个专业十段水平的“选手”,超越了99%人类玩家,这是计算机程序首次超过麻将中大多数顶级人类玩家。

一个高手麻将AI

拥有强大算力远远不够

据这份公开资料显示,Suphx于2019年3月登陆日本专业的麻将竞技平台Tenhou(天凤),在短短几个月内,Suphx在该平台上与人类选手展开了5000余场四人麻将对局,达到了十段,这是目前为止,世界上第一个也是唯一一个达到10段水平的人工智能。据悉,天凤是世界上最大的麻将社区之一,拥有超过35万活跃用户,其中不乏大量的专业麻将选手。天凤平台自2006年推出以来,四人麻将达到过十段的选手约有180位,而现役的十段人类选手也不过十几位。

麻将被称为不完全信息博弈,每位玩家手中最多有13张别人不可见的牌。牌墙中的14张牌对所有玩家都不可见。此外,牌桌中央还有70张牌。只有被玩家打出时,这部分牌才可见。

虽然136张麻将的排列组合结果和围棋相比要小得多,但难点在于同一玩家两次出牌之间,夹杂了其他3位玩家的出牌、自己的摸牌,而且还有“吃、碰、杠”都会让牌局产生动态变化。在这种规则下,玩家每做出一个选择,接下来的牌局就可能出现10个以上的走向。

另外,麻将游戏的“胡牌”方式非常多。因此,想要打造一个高手麻将AI,只有强大的算力是不够的,更需要让AI具有直觉、预测、推理和模糊决策的能力,这也正是建立麻将人工智能模型的难点所在。

5000余场完胜的Suphx

十段功力究竟是怎么修炼的

那么,Suphx是怎么解决这些问题,从而战胜人类的呢?

据介绍,开始阶段研究员们利用天凤平台的公开数据得到一个初始模型,并在模型基础上用自我博弈的方式进行强化学习训练。研究员开发了丢牌模型、立直模型、吃牌模型、碰牌模型以及杠牌模型等五大模型,专门训练“超级凤凰”的打牌策略。这五大模型都基于深度残差卷积神经网络,并一一应对麻将复杂的决策类型。甚至,Suphx还有一个基于规则的赢牌模型,决定在可以赢牌的时候要不要赢牌。

随后,针对非完美信息博弈的挑战,Suphx创新性地尝试了先知教练技术来提升强化学习的效果。

最后,再针对麻将复杂的牌面表达和计分机制,研究团队利用全盘预测技术搭建起每局比赛和8局终盘结果之间的桥梁。这个预测器通过精巧的设计,可以理解每局比赛对终盘的不同贡献,从而将终盘的奖励信号合理地分配回每一局比赛中,以便对自我博弈的过程进行更加直接有效的指导,并使得Suphx可以学会一些具有大局观的高级技巧。

为什么智力游戏

是AI研究者的最佳实验田

从最早的AI在国际象棋中战胜人类开始,AI先后攻克了中国象棋、德州扑克、围棋、DOTA、星际争霸等多种游戏,为什么AI研究者都喜欢挑战游戏领域呢?

在去年的世界人工智能大会上,时任微软全球副总裁的沈向洋表示,游戏一直是人工智能研究的最佳试验田,训练游戏AI的过程可以不断提升人工智能的算法和人工智能处理复杂问题的能力。在现实世界中,金融市场预测、物流优化等很多问题与麻将游戏有着相同的特点,包括复杂的操作、奖励规则、信息的不完全性等等。

浙江大学人工智能研究所所长吴飞也表示,很多AI的研发都是针对某个领域或某个具体任务进行的研究,这些AI诞生的目的当然不仅仅在某个游戏胜过人类这么简单,都是为了应用到我们实际生活中去。

吴飞告诉记者:“微软这款麻将AI所采取的策略其实和围棋当中的Alphago是类似的,框架还是基于强化学习、深度学习和蒙特卡洛树搜索。只不过它是针对麻将这个具体问题进行优化,如针对麻将中不同出牌的策略专门进行学习。

在吴飞看来,AI战胜人类在大部分棋牌类游戏中都可以实现,但这不代表现在的AI就比人类厉害了,因为人类行为不是单一问题的集合,实际的应用场景比游戏要复杂得多。

“比如现在大家关注度比较高的自动驾驶、城市大脑,这些场景更加复杂,没有足够多的数据,也没有足够准确的机器语言去描述,因此目前的人工智能在实际使用中还很局限。不过这类AI的出现对我们解决序贯决策问题还是很有帮助的,比如对经济活动调整的预测和分析,来帮助经营者作出更好的决策;在交通、物流领域进行效率优化、降低成本提高收益等。”

标签: #麻将ai胡牌算法