時隔一年卷土重來，強化版AlphaGo的制勝棋藝能再續輝煌嗎？

本文作者：奕欣

2017-04-11 20:40

導語：時隔一年，AlphaGo 將在圍棋的發源地——中國，迎來它的第二次圍棋世紀對決。

時隔一年，AlphaGo 將在圍棋的發源地——中國，迎來它的第二次圍棋世紀對決。

4 月 10 日，雷鋒網從第一線了解了「中國烏鎮·圍棋峰會」的最新動態，中國圍棋協會、浙江省體育局、谷歌三方共同宣布將在 5 月份聯合舉辦這一盛會，屆時 AlphaGo 將與柯潔正式對決。而今天，DeepMind 也在官網宣布了 AlphaGo 的下一場征戰。

賽制介紹

根據官網信息，在 5 月 23-27 日，AlphaGo 將進行三種不同形式的比賽，包括：

配對賽：任意兩位棋手（古力、連笑）分別與 AlphaGo 組隊比賽，最大亮點在于從以往的人機純對戰轉變為人機協作與另一人類棋手對決，人類又將如何與計算機合作？
團隊賽：由五位中國棋手（時越、羋昱廷、唐韋星、陳耀燁和周睿羊）一同群戰 AlphaGo，考驗的是人類的多方協作是否能做出更好的決策。
常規挑戰賽：AlphaGo 與柯潔的對弈。

值得一提的是，本次的常規挑戰賽賽制在去年的基礎上做了不少改進，主要集中于三個方面：

首先最明顯的變化是從原來的五番棋變成了三番棋。
其次是計時方式上，從每方兩小時、另有五次一分鐘讀秒轉變為每方三小時、另有五次一分鐘讀秒。
再者是將常規賽的時段延長至隔天一局而非原來的一天一局。

一名業內人士向雷鋒網表示，這樣的機制更能保證人類在充分思考的情況下完成比賽。他指出，在 AlphaGo 化名「Master」在騰訊野狐圍棋平臺橫掃 60 局的不敗神話中，其實有 59 局是每方的 30 秒快棋，而與聶衛平對戰一局則是每方 60 秒快棋。「自然，人類在擁有更長時間考慮的情況下，出錯率會更少。人很難避免情緒、心理壓力等因素的干擾，而機器不會。」

AlphaGo的“修煉大法”

毫無疑問，AlphaGo 對棋局的計算能力遠超人類。Facebook 研究員田淵棟在地平線大牛講堂發表題為《深度學習如何進行游戲推理？》時也提及了 AlphaGo 所用的神經網絡包括策略網絡和值網絡，主要實現的是兩個方面的功能：

? 給出一個局面后，可以決定下哪些位置；
? 給出一個關鍵局面時，判斷它們的值，到底是白優還是黑優。

具體到算法層面，包括 Policy Network（決定下一步怎么走）和 Value Network（決定當前局面分數多少）兩大神經網絡。此外，在前兩者返回速度比較慢的時候，采用 High quality playout/rollout policy 在微秒級的快速走子預測下一步。

那么這個神經網絡是如何訓練出來的呢？

首先要通過人類棋譜進行訓練，讓神經網絡掌握初步的圍棋章法；其次采用蒙特卡羅樹搜索選擇勝率更高的節點探索，得到最后的勝負結果后，再回溯剛才探索的過程，并更新路徑上的節點勝率。

蒙特卡羅樹搜索在保證靈活的前提下，也很容易漏掉一些妙招，因此還需要值網絡的配合，進行自我對弈的「左右互搏」。DeepMind 表示，AlphaGo 是采用了 3000 多萬場這樣的游戲訓練而不斷提升的。它的數據收集過程是這樣的：

首先讓算法采樣通過監督學習學得的策略網絡；
其次通過人為操作更多的棋局形式豐富系統理解棋局的適用面。
而當前棋局在人為操作某一步后，再用強化學習增強的策略網絡計算后續的下一步招式，并以此得到最后的輸贏結果。完成這個步驟后，系統能夠得到一個當前狀態到輸贏結果間的樣本點，再以此訓練策略網絡。

根據田老師的演講介紹，目前 AlphaGo 在快速走子的情況下能夠達到 2 微秒的判斷速度，同時也能達到比較好的精確度。

雙方實力對比

去年 3 月，AlphaGo 在以 4：1 戰勝人類棋手李世石后，它將在 2017 年復出，與中國頂尖棋手柯潔對決的傳聞不絕于耳。

不過，諱莫如深的 DeepMind 一度否認這一消息，直至去年 11 月，DeepMind 創始人 Demis Hassabis 才松了口，表示 AlphaGo 近一年來正在提升棋藝水平，將在 2017 年再次挑戰人類棋手。而「職業陪練」樊麾當時也在同一天證實了這一消息。

而繼李世石之后，人們也將焦點放在了將與 AlphaGo 單挑的柯潔身上。但鑒于去年 AlphaGo 把李世石虐得太慘，導致目前輿論大方向都認為 AlphaGo 會贏得最終的勝利。

三歲開始學棋的柯潔目前等級排名世界第一，DeepMind 評價他「以精湛且善于平衡的棋風為人所稱道，且具有良好的策略性，知道何時要大膽出招，何時要謹慎行事。」

但在年初的在線圍棋比賽中，柯潔兩局都不敵 AlphaGo 的「Master」，而柯潔在微博了也放言「來啊」，并在賽前預熱會上表示，希望自己能「不惜一切代價去爭取勝利」。

不過不可否認的是，人類要感謝 AI 的地方在于，棋手在博弈的過程中招式也變得更加聰明靈活了。

圍棋，不論是從「起手九式」到「入門必學定式」，雖然強調以不變應萬變，但慣用的招式通常是前輩屢試不爽的必殺，因此誠然值得反復研習。而 AlphaGo 不按常理出牌的招式，看似毫無邏輯，實際上卻是草蛇灰線般的精心謀慮，而這也是圍棋的魅力，也是人機大戰值得關注和追隨的一大亮點。

九段棋手周睿羊在訪談中提及，「你會覺得 AlphaGo 的招式非常自由，而且有著一切皆可能的靈動性。現在每位棋手都會想著嘗試走一些自己不曾嘗試過的棋法。」AlphaGo 的橫空出世，讓圍棋高手們變得更加聰明了，也更具創造力。

DeepMind想挑戰的，遠不只圍棋

DeepMind 表示，五月份的這次賽事能夠更好地對 AlphaGo 進行探索，了解它是如何在這項古老的游戲中不斷創新的。「而 AlphaGo 背后所隱含的機器學習及人工智能技術，也能夠幫助人類更好地解決全球未來可能面臨的挑戰。」

而就像 DeepMind 創始人 Demis Hassabis 在被《Nature》評選為“2016年度10大影響力人物”時曾表示，「在圍棋界的勝利還遠遠不夠。我更想要向世界展示的是，機器學習技術在人類的生產和生活中擁有更強大的潛力，可以幫助人類解決更多棘手的全球性問題。」

目前，AlphaGo 背后的機器學習技術已經應用于非常多的領域，雷鋒網此前做過大量的報道和覆蓋，比如：

利用 AI 平衡英國電力供需問題；
與英國國家醫療服務體系 NHS 旗下基金會 Royal Free London 簽訂了為期五年的合同，致力視網膜研究、訓練 AI 識別健康組織及癌變組織的頭頸部癌癥圖像。

此外，DeepMind 還與母公司谷歌有著密切合作，比如用機器學習技術在 Google Photo 上幫助人們找到圖片中的特定物體；或是提升 Google Translate 的翻譯水平。

DeepMind 表示，「在下一場人機大戰中，我們對它可能帶來的討論及影響感到興奮非常，而所帶來的挑戰也能夠帶給我們更多的啟發——不論是圍棋，還是其它的領域。」讓我們一同期待五月的 AlphaGo 世界之戰，雷鋒網也將持續關注。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

奕欣

初心者

掃描關注作者微信

發私信

當月熱門文章