ai在多人扑克里超越人类的表现,为ai与博弈理论发展树立了新的里程碑。

  六人无限德州扑克是世界上最流行的扑克形式。日前,卡内基梅隆大学与facebookai合作开发的人工智能程序“pluribus”,击败了六人无限德州扑克的职业选手。

  在一项包含13名职业选手的实验中,pluribus一次对战5名职业选手,共进行了10,000手牌,并最终取得胜利。这些职业选手都曾在扑克竞技游戏里赢得超过100万美元。

  在另一项实验中,每位职业选手要对阵5个pluribus。在5000手牌的对阵中,pluribus击败了扑克专家darrenelias和chris“jesus”ferguson——他们前者保持着世界扑克巡回赛冠军最多的纪录,后者赢得了6项世界扑克系列赛冠军。

  当地时间7月11日,《科学》杂志发表了描述这一成就的论文(doi:10.1126/2400)。

  pluribus由卡内基梅隆大学计算机教授tuomassandholm与facebookai部门科学家noambrown共同开发。

  tuomassandholm依托过去16年在卡内基梅隆大学实验室开发的战略推理技术,创立了两家公司——strategicmachine和strategyrobot。前者将这些技术应用于扑克、游戏、商业和医学领域,而后者则将它们应用于国防和智能领域。

  noambrown在facebookai工作的同时在卡内基梅隆大学攻读了计算机学博士学位。二人早前开发了双人扑克ailibratus,在2017年击败了四名扑克职业选手。

  多人博弈里程碑

  “pluribus在多人扑克里超越人类的表现,将成为ai与博弈理论领域公认的里程碑,”pluribus开发者sandholm说,“目前为止,策略推理中的超人ai里程碑仅限于两方竞争。在如此复杂的游戏中击败其他五名选手的能力为使用ai解决各种现实问题开辟了新的机会。”

  为什么科学家总是喜欢让ai在各种棋牌类游戏里进行突破?这是因为棋牌游戏自古以为都被认为是人类智力活动的象征,模仿人类的ai自然要以此为目标。

  不过根据棋牌规则,不同棋牌类型的游戏的博弈难易各不相同。根据信息的公开程度,我们可以将棋牌博弈分为“完全信息类”和“不完全信息类”。

  “完全信息类”博弈包括国际象棋、围棋等,它们的盘面信息都是公开的,对弈双方接收到的信息完全。在此类博弈中,ai每次只需要根据当前盘面,搜索计算各种情况下自己的胜率。为了提高搜索效率,一般需要对搜索过程中产生的“博弈树”进行广度和深度剪枝。就是我们平常下棋时常说的算多远和算多准。

  “非完全信息类”博弈包括德州扑克、桥牌、麻将等游戏。以德州扑克为例:每个玩家有2张牌作为“底牌”,同时还有5张公共牌。玩家选择5张公共牌里的3张,与手里的2张底牌组合,最后以期得到最好的5张牌的组合。按照“cardranking”决定最后的胜者。

  由于游戏中每个人无法看到对手手里的牌,这要求参与者具备更复杂的推理能力,不仅要看对手打了什么牌,还要猜测对手手里有什么牌,并根据对手行动暗示出的信息,来计算自己的最优出牌法。这给ai带来了更严峻的挑战。ai不仅要学会根据不完全信息进行复杂决策,还要应付对手的虚张声势、故意示弱等招数。游戏的人数的也将改变ai的应对难度。

  实验中使用的扑克游戏界面。图片来源:facebook

  在所有双人游戏里,“表现过人”的ai都是通过近似纳什均衡实现的。在纳什均衡里,只要另一位玩家的策略保持不变,任何人都不能从改变策略中获益。虽然ai的策略只能保证比赛结果不比平局更差,但如果ai的对手犯了错误而无法维持均衡时,ai将取得胜利。

  在两人以上的比赛中,采取纳什均衡将是一种失败的策略。因此pluribus摒弃了理论上成功的保证,采取了一种新的能一直击败对手的策略。

  人类做不到的策略

  “进行六人游戏,而不是一对一,这需要ai对游戏策略进行根本改变,”pluribus开发者brown表示,“我们为pluribus的表现感到高兴,并相信它的一些比赛策略甚至可能改变职业选手的比赛方式。”

  pluribus的算法在其策略中创造了一些令人惊讶的特征。例如,大多数人类选手会避免“反主动下注(donkbetting)”——它通常被视为一种没有战略意义的弱势举动。但pluribus比被它击败的职业选手更频繁地使用这一策略。

  “pluribus的主要优势在于它能运用混合策略,”职业选手elias表示,“这与人类试图做的事情是一样的。对于人类,这是执行问题——以完全随机的方式做到这一点并且持续这样做。大多数人都做不到。”

  曾在扑克职业生涯里获得了近200万美元的收入的gagliano在与pluribus比赛后说:“有些策略是人类根本就不会去做的,尤其包括它的投注规模。”

  pluribus在具有统计意义的情况下取得了稳固的胜利令gagliano尤其印象深刻:“机器人不只是和一些职业选手对垒。它已经成为世界上最好的选手之一。”

  有限前瞻搜索算法

  进一步剖析pluribus会了解到,它的各种策略是基于一种新的有限前瞻算法,这正是它能够打败多个人类扑克玩家的原因。这是完全信息博弈的标准方法,但在非完全信息博弈中却极具挑战性。

  pluribus首先通过和6个它自己的副本玩的场景来计算一个“蓝图”策略,这让它能在第一轮下注。之后,pluribus将在更细粒度的博弈抽象中更详细地搜索可能的变动。这时,它会展望未来的几步,由于计算量的限制,它并不会推演到博弈的最后。

  具体来说,在子博弈的叶子上,ai考虑了每个对手和自己可能会在剩下的比赛中采用的五个可能的延续策略。可能的延续策略的数量很多,但研究人员发现他们的算法只需要考虑每个叶子的每个选手的五个延续策略来计算强大、平衡的整体策略。

  pluribus也试图变得不可预测。例如,如果人工智能拥有最好的一手牌,那么投注就有意义,但是如果人工智能只有在拥有最好的一手牌时才投注,那么对手就会很快赶上来。因此,pluribus计算出各种可能,并在所有可能性中保持平衡的策略。

  尽管德州扑克是一种极其复杂的游戏,但pluribus有效地利用了计算。最近在游戏中取得里程碑式进展的ai使用了大量服务器和gpu;双人扑克ailibratus需要大约1500万个小时来开发策略,在实时游戏中使用了1400个cpu核心小时。而pluribus仅使用了12,400个核心小时就计算出了蓝图策略,并且在现场游戏中仅使用了28个核心小时。

  面对ai技术的不断突破,很多人会顾虑ai发展对人类的威胁,然而把握技术应用大门的钥匙仍掌握在人类自己手中,正如爱因斯坦所说:“科学,究竟是给人带来幸福还是带来灾难,全取决于人自己。”
为更好的阅读体验,本站章节内容基于百度转码进行转码展示,如有问题请您到源站阅读, 转码声明
八零电子书邀请您进入最专业的小说搜索网站阅读数学大帝,数学大帝最新章节,数学大帝 顶点小说!
可以使用回车、←→快捷键阅读
本站根据您的指令搜索各大小说站得到的链接列表,与本站立场无关
如果版权人认为在本站放置您的作品有损您的利益,请发邮件至,本站确认后将会立即删除。
Copyright©2018 八零电子书