洞見 | 就算是輸給AI，也不能說人類丟掉了德州撲克的陣地

本文作者：谷磊

2017-04-06 20:01

導語：亞洲首度德州撲克人機大戰——“冷撲大師V.S.中國龍之隊”巔峰表演賽已經在海南生態軟件園傳奇智力運動館開始，獲勝方將獲得200萬人民幣獎勵

雷鋒網4月6日消息，亞洲首度德州撲克人機大戰——“冷撲大師V.S.中國龍之隊”巔峰表演賽已經在海南生態軟件園傳奇智力運動館開始，獲勝方將獲得200萬人民幣獎勵。首日上半場，中國龍之隊順利按進度完成3600手牌，冷撲大師暫時領先中國龍之隊14145籌碼。因為每人單副手牌重置后的籌碼量就有20000，所以這個差距非常的小。

冷撲大師和中國龍之隊的介紹詳見雷鋒網報道：亞洲首度德州撲克人機對戰即將開賭！| 附李開復演講全文

比賽時間：4月6日~10日上午8：00~13：00；下午16：00~21：00。現場畫面將滯后2小時。

直播傳送門：騰訊PC直播

騰訊app直播

看了上面的介紹我們知道，所謂的“冷撲大師”其實就是今年1月30日在匹茲堡戰勝4位頂尖人類玩家的Libratus。那么同是人機對戰，這次的看點在哪里呢？

看點

1、玩家

昨天的發布會上，從主辦方公開的龍之隊資料看，很多隊員都有深厚的計算機專業背景。比如：杜悅、許朝軍、張淮都曾就讀于清華的計算機系。用李開復的話說就是：

匹茲堡之戰中被擊敗的職業棋手確實都是德撲的頂尖職業牌手，但他們并不懂計算機原理，而此次龍之隊都是學霸，全部擁有計算機領域的從業經驗，會讓比賽還保留懸念。

2、名人賽與名人點評

據悉，4月6日至10日期間，表演賽將以轉播形式邀請多位愛好撲克的名人，遠程在各大直播平臺展開系列精彩點評，海泉基金創始人胡海泉、著名專欄作家王小山、360人工智能研究院院長顏水成、樂視云CEO吳亞洲、追夢者基金創始人朱波、英諾基金創始人李竹等將擔任專家評論員。

同時，據主辦方介紹，在4月10日賽事最后一天晚間，將有包括李開復在內的36位來自科技圈、投資圈、媒體圈的名人大咖組成六支戰隊來挑戰冷撲大師。

比賽規則

隨著比賽的開始，除了昨天雷鋒網報道的規則外，更加詳細的規則也浮出水面：

1、分組

龍之隊成員分別在兩個房間與冷撲大師進行1V1比賽。

ROOM1（A隊）：杜悅、朱亞希、童舟；

ROOM2（B隊）：許朝軍、張淮、王天健。

德州撲克一張臺面至少2人，最多22人，一般有2-10個玩家參與。目前冷撲大師還無法參與多人的牌局，這多少讓人感覺不那么刺激和熱鬧。

2、發牌

每個人類玩家同時打兩手牌，比賽采用復式發牌，也就是說A隊人類拿到的手牌，是B隊電腦的手牌，A隊電腦的手牌是B隊人類的手牌。而且是隨機分配到某個牌手，并非一一對應。

據雷鋒網了解，冷撲大師采用完全數學的模型和算法，后臺的計算機群計算量很大，所以人類同時打兩手牌時間上也是來得及的。

3、籌碼

在每一手牌開始，牌手和AI均有20000的籌碼，小盲注100，大盲注200。一手牌打完之后，無論結果如何，下一手牌雙方的籌碼都要重置回20000。

目前冷撲大師還不能在雙方不同籌碼的情況下與人類比賽，因為這在模型的建立上要更加復雜，而這無疑是降低了人機對抗時AI的難度。

德州撲克AI Libratus與圍棋AI AlphaGo有何不同？

2016年3月，自從 AlphaGo 以4:1的成績戰勝職業九段李世乭以后，圍棋AI的厲害為大眾所熟知。不論是在專業的學術期刊還是社交網絡，人們都展開了深入和廣泛的討論。但是對于德州撲克AI，大眾還所知甚少。那么德州撲克AI與圍棋AI有何不同？

AlphaGo是用大量的棋譜和自對弈做訓練，而Libratus則是用隨機生成的牌局（隨機產生公共牌、底池籌碼、玩家拿牌概率）和嘗試性的動作帶來的結果（在隨機生成的輸入情況下模擬玩家跟牌后的結果）作為訓練數據。

“一對一無限注德州撲克”就是兩個人玩的賭博游戲，因為事先會給每位玩家分發 2 張底牌，所以對方的“底牌信息”你是不知道的，對于計算機來說，就是在處理一種“非完整信息博弈”。而AlphaGo 玩圍棋，對弈雙方的信息是完整的、對稱的，并沒有隱藏的信息。

Facebook 人工智能研究院研究員田淵棟之前剖析過：

非完整信息博弈更難，體現在：
一方面是因為對于同樣的客觀狀態，各個玩家看到的信息不同，因此增加了每個玩家狀態空間的數目和決策的難度；
另一方面即使在同樣的狀態下，解非對稱信息游戲所需要的內存也要比解對稱信息要多得多，這個主要是對于對稱信息博弈來說，只要記得當前局面并且向下推演找到比較好的策略就可以了；但對非對稱信息博弈，只記得當前（不完整的）局面是不夠的，即使盤面上的情況相同，但對手之前的各種招法會導致事實上局面不同，只有把它們全都羅列出來進行分析，才能保證想出的應對策略不被別人利用。
同時，非對稱信息博弈的實用價值更大些。因為非對稱信息博弈的應用范圍非常廣泛，涵括我們每天遇到的所有決策，上至國家戰略，下至日常瑣事，全都可以以同樣的方法建模。

所以Libratus在德州撲克上AI取得了進步，是具有重要意義的。

據田淵棟近期在AI科技評論上所做的分享，CMU 的Libratus，也就是現在的冷撲大師有三個特點：

一是沒有使用深度學習，而是用到了End-game solver。因為德撲一局時間比較短，幾個回合就結束了，所以可以從下往上構建游戲樹。這樣的好處是，最下面節點游戲樹的狀態是比較容易算出來的，用這個反過來指導設計上面的游戲樹。
二是像AlphaGo一樣也采用了蒙特卡羅方法，標準的CFR（Counterfactual Regret Minimization）在每次迭代的時候，要把整個游戲樹都搜一遍，這個對于稍微復雜一點的游戲來說是不可接受的。因為是指數級的復雜度，所以用蒙特卡羅方法，每次選一些節點去更新它上面的策略。
第三，一般來說我們在做游戲的時候往往會想到怎么去利用對方的弱點，但其實不是這樣的。更好的方法是，我盡量讓別人發現我的弱點，然后據此我可以去改進它，變得越來越強。用術語來講，就是去算一下對手的最優應對（Best response），讓對手來利用你的弱點，然后用這個反過來提高自己的水平。

德州撲克AI Libratus有無弱點？

經過AlphaGo和Libratus分別在圍棋和德撲領域幾次三番對人類頂尖玩家形成碾壓，也許很多人已經對人類獲勝不報期望。本次賽前發布會上，龍之隊隊長杜悅告訴媒體，這次他們僅有10%的獲勝希望。

其實或許不必如此悲觀，Libratus在兩個月前的匹茲堡人機對抗中并非贏的一帆風順，甚至還被人類玩家發現了破綻。這點或許我們可以從近期著名撲克牌雜志Card Player 對 Libratus 的創始成員 Brown 博士的專訪中窺見一二。此前雷鋒網已將專訪進行翻譯，詳情請戳：德州撲克算法幕后研發者CMU博士Brown專訪：AI如何打敗頂級人類牌手？

洞見 | 就算是輸給AI，也不能說人類丟掉了德州撲克的陣地

↑ 冷撲大師的創造者之一：Brown在現場（站著）

Card Player ：

在人類玩家緊追比分，對戰進入白熱化的時候，你是不是在想對手可能已經找到了Libratus的弱點，還是說仍舊很有信心？

Brown：

第一周比賽快要結束時，雙方幾乎打成平局。人類選手也在第一周對Libratus會如何調整打法、它的強項在哪里等做出了一系列推測。他們沒有和我詳談他們認為戰局將會如何發展，但從我聽到的來看，他們應該是想從數據中尋找Libratus的套路，分析它的弱點和優勢。所以，大體上我不怎么擔心。他們認為AI在一些方面有缺陷，但實際上并沒有。

比如，在有一天的比賽中，他們80%都是再加注（ three-betting ），因為從數據來看，他們認為AI 對特定的三倍打法（ three-bet size）不太擅長。但我不認為那是缺陷，只是他們的數據中存在噪音。他們在比賽進程中獲得的數據導致他們得出了這樣的結論。

但他們確實看到了里面存在的一些問題。比如Libratus對特定的開局下注的大小對應不好。比賽前我們認為這不是什么大問題，但事實證明，這個弱點很要命。好在AI還留有一手——趁當天晚上對手睡覺的時候，AI就開始連續不斷地進行訓練，彌補自己的不足以防止對手以后再次利用這一缺陷。所以你看到，從第二周局勢就開始轉變了。

雖然Brown博士在采訪中一開始回應Libratus沒有弱點，但是后來又改口說Libratus對特定的開局下注的大小對應不好是個很要命的弱點。而就像前面介紹的，這次龍之隊的成員大多為擁有計算機專業背景的學霸，但愿他們能夠及早發現“冷撲大師”的弱點并善加利用，這多少將給我們增添幾分人類獲勝的希望。

總結

從比賽規則的制定中可以看出，不管是要求1V1的單挑，還是單局手牌后的籌碼重置，人類玩家都需要對AI “遷就”很多。所以即便是“冷撲大師”取得本次人機大賽的勝利，也不能說人工智能在德州撲克上完全戰勝了人類。但是對于“非完整信息博弈”的人工智能研究課題而言，冷撲大師的勝利將有重大的意義。當然，比賽才剛剛開始，大獎花落誰家尚未可知，讓我們拭目以待。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。