AlphaGo算法或将击溃德州扑克线上作弊无破绽

2016-2-19 12:27| 发布者: 红色violin| 查看: 981| 评论: 0|来自: 新浪体育

摘要: 几周前，谷歌宣布他们的人工智能围棋以5比0的比分打败了三届欧洲冠军樊麾职业二段。围棋是一个极难被电脑攻克的棋类游戏，所以看到一个实力强劲的棋手被AlphaGo打败时，我们是应该庆贺、震惊还是两者都有。对于扑克 ...

线上德州扑克面临严峻考验

　　新浪体育讯　　几周前，谷歌宣布他们的人工智能围棋以5比0的比分打败了三届欧洲冠军樊麾职业二段。围棋是一个极难被电脑攻克的棋类游戏，所以看到一个实力强劲的棋手被AlphaGo打败时，我们是应该庆贺、震惊还是两者都有。对于扑克玩家来说，或许会担心面对扑克人工智能将会败下阵来。

　　什么是Go？

　　Go是世界上最古老的棋盘游戏（围棋）的英文名字，围棋起源于中国，同样流行于日本（称为igo）和韩国（称为Baduk）。俩个人轮流在棋盘上落子，一个用黑棋另一个用白棋。目标是围住对方的棋子，当对方的棋子被完全围住时即被抓获。游戏结束时比较双方占领棋盘的面积来分出胜负。

　　围棋规则非常简单-远远超过其他抽象的策略游戏，但它们的含义很复杂。对于电脑，难度源于游戏空间的大小。国际象棋有一个固定的初始设置，而围棋却不同；因此国际象棋只能使用8*8的棋盘，而围棋则可以在不改变规则的情况下任意缩放棋盘大小。现在正式使用的围棋盘是19*19，以前也曾用过17*17的棋盘。或许未来有一天将会考虑使用21*21的棋盘，当原有的19*19棋盘不能满足职业水平的时候。

　　大的棋盘意味着围棋相对于国际象棋来说每步棋都有更多的落子选择，由于每步棋都可能有上百个选择，所以这不能靠蛮力。这使得围棋对人工智能来说是一个有趣的挑战。

　　无上限德州扑克，另一个困难的游戏

　　扑克和围棋一样，对电脑来说很难攻克。阿尔伯塔大学的迈克尔·鲍林（Michael Bowling）教授和同事对有上限德州扑克进行了“弱解决”——他们能得知在起始情况下，怎么样能保证必不败。但是人类仍能在无上限德州扑克击败人工智能。

　　想要了解为什么会这样，你需要扑克游戏中每个时刻的变量。在有上限德州扑克中，动作从来不超过三个：开牌前可选择跟牌或下注，面对跟注时可选择弃牌、跟牌或加注。然而在无上限德州扑克中，下注额度可以从最下值到全压。人脑可以简化思考游戏的步骤，有几个标准的赌注大小（无论是百叶窗或百分比）但目前的人工智能则需要分别思考每一条街（德州扑克术语）如何下注，而不是把它看成一个整体操作。

　　此外，因为扑克是一种不完善信息游戏，无上限德州扑克加注次数与数量没有限制。当任意额度下注被允许，那么扑克游戏的极限爆炸，使无上限扑克变成比围棋更“大”的游戏。

　　神经网络与机器学习

　　这里的人工智能，字面上更偏向于“智能”这部分，而不是开发专门的算法去解决特定的问题。神经网络的研究试图模仿人类大脑的低级别的操作，希望有一天能够训练这样的程序，来执行任何给定的任务。

　　再次重申，细节不是非常重要，除非这是你感兴趣的领域，但有几件事你需要了解。首先，该算法起初不“知道”如何做任何任何事，但可以纠正自己在某些方面的局限性。它需要在一些方便的格式输入，并初步产生随机输出。然后，它的输入数据（例如，围棋棋谱记录或扑克记录），随后输出（比如判断谁赢得了游戏等）。然后比较其输出到输出目标和调整其内部参数，试图将两个紧密联系在一起。在许多许多次的迭代后，它的输出开始与所需的解决方案匹配的越来越紧密。就像是一个成长中的孩子犯了错误，得到老师和父母的反馈，从而慢慢改掉错误。

　　其次，有点令人担忧的事实是，这些学习算法一旦被训练成功，他们的创造者可能并不知道他们如何工作。他们理解学习过程本身，但最终的决策涉及整个网络的整体方式。想通过检查低级别的代码来了解它的“逻辑”是没有意义的，就相当于通过一个单一的神经元来解人的大脑。这是近期阻碍神经网络进展的原因之一。当人工智能的工作不尽如人意，它几乎无法告诉你错在什么地方。

　　组合方法

　　除了在调试中所涉及的困难，神经网络的大弱点是一般原则，即倾向广度则会牺牲深度，反之亦然。一个通用的解决方案很难成为最优方案，所以虽然神经网络可以应用于任何挑战，具体的问题用手工算法会得到较好的解决。

　　对于任何给定的问题，一个专门的算法应该比一个神经网络的表现会更好。但是写这样的算法需要程序员在理论上知道如何解决这个问题。然而，当谈到人类直觉的问题时，我们对大脑的探索还极其有限：当职业棋手无法预见最终的场面时，那他是如何判断出他已经赢了？只能说这是一种“经验”。

　　正是混合的方法令AlphaGo如此令人难以置信的强大。它的核心是一种类型树搜索算法，它通过蛮力穷举展现出所有可能的下法。但是以前的人工智能在每一种可能下法上都花费相同的时间，或者依靠明确的、人类编码的启发来告诉它们去哪里找。而AlphaGo有两个神经网络，其中一个给它提供建议，基于它学过的基本策略，另一个神经网络则会通过借鉴历史对局告诉AlphaGo在哪里落子可以赢得比赛。在这两种神经网络的结合下，这些引导它通过游戏树，并确保它花更多的处理器功率更深入地阅读最有前途的分支。

　　完善VS不完善信息：不同的技术

　　这个对比可能不是非常准确，因为围棋和扑克之间有一个根本区别。那就是围棋不存在概率和隐藏信息的问题，而扑克则存在着两种因素，随机的底牌和未知的对手手牌。这使得在这两个游戏在解决问题时会使用截然不同的方法。在完善信息游戏中完美的策略是“绝对”，比如围棋。

　　这意味着理论上围棋的每一个局面下都有一个正解，你的对手可以接收到和你相同的信息。在不完善信息游戏中，完美的策略是典型的“混合”，比如扑克。这意味这牌手会在几种选择中权衡概率。例如，在一个给定的情况下机器给出的理想策略是弃牌占30%，加注占70%。一定量的不可预测性是必要的，以避免给对手的传达信息。

　　在人类的分析方面，不完善信息的游戏通常会使用传统的博弈论，它起源于经济学的一个分支。另一方面，完善信息的游戏，我们更偏向于使用组合博弈论，这属于数学的一个分支。涉及到一种叫做“超现实”的东西，它只适用于信息完善的游戏，不含随机性或不确定性。

　　同样，人工智能研究领域一直被拆分为不同的类型，比如围棋和扑克。这些阵营中的每一个都有自己的技术，各种各样的树搜索适用于完善信息游戏；极大极小或遗憾最小化适用于率略和隐藏信息的游戏。如果你不是一个人工智能研究人员，就没有必要了解这些术语是什么意思，你只需了解它们是完全不同的，并且对于某一类游戏的技术通常不适用于其他类。

　　对德州扑克的威胁

　　如果神经网络可以应用于任何问题，且AlphaGo已经证明他们可以有效地结合更专业的算法，那么没有理由不相信我们将会看到“神经复杂化”的扑克人工智能。

　　首先，目前最好的扑克人工智只能独立的处理每一副牌，而不是去适应对手的打法和习惯。一个神经杂化的扑克人工智能可以被用于整个比赛，而不只是针对个人的操作进行分析。这样，这个扑克人工智能就可以对水平较弱的玩家进行诈唬，而对水平较强的玩家采用更加平衡的策略，就像一个真正的顶级牌手一样。

　　除了神经杂化的人工智能将比传统的GTO机器人带来更大的收益，这是显而易见的事实。除此之外，更危险的是使用这种机器人将极难被发现。目前大多数机器人的弱点是他们从不会调整，从不会感到疲惫或心烦意乱，也不会有侵略性。扑克网站可以通过数据统计和对牌手的倾向分析出哪些玩家有问题，但是如果一个机器人可以根据对手进行调整，找到它的破绽就变得非常困难。

　　即便是现在，各种迹象表明，扑克网站正在检测机器人。去年，一个俄罗斯奥马哈机器人在PokerStar（美国最流行的线上扑克网站）上作弊就没有被察觉，直到有一天一个玩家在为自己的记录做统计时才发现了这个异常。现在，该网站已经开始要求某些特定的玩家在比赛时录制自己操作的视频，一边证明他们没有使用机器人助手。这也表明即使有怀疑，安全小组也很难确定是否真的作弊。

　　我指出这个不是针对PokerStar，只是想说作为世界上最大的扑克网站，你只能期待他们拥有最好的安保人员；一旦都连他们陷入挣扎，你可以想象其他扑克网站的境遇。如果将来，每个人都试图用一个神经杂化的人工智能来玩线上扑克，那么你就无法抓住作弊的人了。

　　　AlphaGo vs 李世石

　　对AlphaGo实力的了解仅限于去年10月AlphaGo与樊麾的五番棋。樊麾，“三届欧洲冠军”听起来确实很厉害。但围棋在亚洲以外的国家并不是那么流行，而且所有的顶级棋手都集中在三国国家：中国、日本和韩国。击败樊麾，就像击败芬兰国家篮球队一样，可以肯定的是这确实是一个令人印象深刻的壮举，但这绝不意味着你可以和NBA级别的篮球队抗衡。

　　下个月，AlphaGo将面临真正的考验，与韩国传奇李世石九段的五番棋对决，胜者将获得一百万美元的奖金。就像预料到的一样，计算机界对AlphaGo持乐观态度，但是棋手认为李世石至少在未来的一到两年内不会被人工智能打败。

　　不幸的是，有些难评估alphago真正的力量，因为它并不试图摧毁它的对手，而是最大限度地发挥其获胜概率。有时，在与樊麾的对局中，它似乎过于保守，不过它仍然5比0零封对手；这就好比说樊麾的表现没有激发出AlphaGo的真正实力。所以这让我有些犹豫，不过目前为止我还是谨慎看好李世石能取胜。有一件事是确定的，那就是无论结果如何，我都会对此持续关注。如果你也对扑克的未来有所担忧，你也该关注此事。

　　（原载PtP 文森特译）

烂柯围棋手机版全新上线，下围棋、看直播，来烂柯围棋，边读新闻边打谱。

安卓手机扫描下方二维码下载：