AI 決策能力再突破,騰訊絕藝登頂日本麻將平臺

導讀 原標題:AI 決策能力再突破,騰訊絕藝登頂日本麻將平臺 7 月 1...

原標題:AI 決策能力再突破,騰訊絕藝登頂日本麻將平臺

7 月 11 日,騰訊宣布自研棋牌類 AI “絕藝 LuckyJ” 在國際知名麻將平臺“天鳳”上達到十段水平,刷新了 AI 在麻將領域的最好成績。“絕藝 LuckyJ” 展現了在非完美信息博弈游戲中的優秀決策水平,進一步提升了 AI 解決現實世界問題的能力。

日本在線麻將競技平臺“天鳳”創建于 2006 年,擁有體系化的競技規則和專業段位規則,受到職業麻將界的廣泛認可。截至目前,天鳳平臺活躍人數 23.8 萬,而能達到十段的僅 27 人(含 AI),不到萬分之一。

相比其他麻將 AI 和人類玩家,“絕藝 LuckyJ”不僅穩定段位更高,從零開始達到十段所需的對戰局數也明顯更少,僅需要 1321 局。這體現了騰訊 AI Lab 在決策 AI 方向上世界領先的技術實力。

統計意義上看天鳳穩定段位 bootstrap 的分布,絕藝 LuckyJ 顯著強于之前最強的兩個日本麻將 AI(Suphx,NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。

騰訊 AI Lab 研究員表示,現實世界中充滿了需要在非完美信息狀態下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統等。在游戲環境中推進決策 AI 的能力,最終是希望 AI 能從虛擬走向現實,解決真實世界的復雜問題。

過去半個世紀以來,游戲在人工智能技術的演進中發揮了重要的作用。游戲多樣化的情境為 AI 的訓練和學習提供了便利的研究場景,從國際象棋到圍棋,再到德州撲克、王者榮耀等游戲,AI 不斷在游戲場景中拓展能力邊界。

圍棋、象棋都屬于完美信息博弈,參與競技雙方的每次決策,都可以看到全局的信息。AI 能夠通過強大的計算力來枚舉各種可能性,從而找到致勝策略。而麻將無法看到對手的手牌,加上還有大量未揭開的牌,存在大量的隱藏信息,是典型的非完美信息博弈。

據介紹,麻將一共有 136 張牌,每一位玩家只能看到很少的牌,包括自己的 13 張手牌和所有人打出來的牌。牌局開始時,另外三位玩家的手牌以及墻牌都是看不到的,面對如此多的隱藏未知信息,麻將玩家的每一個決策都需要兼顧進攻和防守。

此外,在麻將的對戰中,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都會改變摸牌的順序,這一過程也涉及了大量的決策。

如上圖所示,橫坐標信息集數目表示可觀察狀態的多少,即牌面的信息。縱坐標信息集平均大小表示隱藏信息的多少,即其他所有對手的手牌的可能性。麻將所包含的隱藏信息要遠遠大于德州撲克。

為了更好地解決麻將游戲中存在的大量隱藏信息的難題,提升 AI 的決策能力,騰訊 AI Lab 基于強化學習和遺憾值最小化的自我博弈技術,使得 AI 能從零開始自我學習和提高,并最終收斂到一個最強的混合策略,讓 AI 在實際對戰的過程中擁有更加平衡的策略能力。

同時,考慮到傳統的非完美信息搜索算法在麻將面前很難發揮太大的作用,騰訊 AI Lab 基于樂觀價值估計的思想,提出了一種高效的非完美搜索方法,使得 AI 在有海量隱藏信息的游戲狀態中,仍可以實時調整當前策略,從而更好地應對多變的戰局。

相比人類,“絕藝 LuckyJ“在麻將游戲中,擁有更加平衡的策略,對局勢的計算更精確,其中包括打每張牌的期望收益、未來可能胡哪些番型等等,通過這樣的“策略”訓練,也為 AI 走入更多行業打下了基礎。

天鳳平臺開發公司 C-EGG 的 CEO 角田真吾表示:“這是麻將 AI 的又一次突破,LuckyJ 進一步拓寬了麻將 AI 的能力邊界。令人感到興奮的是,在特上房包括人類玩家在內的對戰 1000 局以上的所有玩家中,LuckJ 的穩定段位排名第一”。

在網上對 LuckyJ 歷史對局有深入研究的天鳳十段玩家、日本麻將戰術研究家 yousei 評價,LuckyJ 給人的印象是在每張牌上看到“攻擊、防守的參數”,總體上,LuckyJ 看起來“完全沒有漏洞”,一方面通過保留安全牌等策略降低事故率。另一方面,即使手牌中同時存在多個和牌方向,LuckyJ 也可以在這些復雜的分支中順利進行下去。

值得一提的是,“絕藝 LuckyJ“在國標麻將中也有亮眼表現,在線下職業選手邀請賽中擊敗六位職業選手,成為首個戰勝國標麻將頂尖職業選手的麻將 AI。

圖注:對戰數據顯示,在近 2000 場對局中,絕藝 LuckyJ 的平均贏番達到 1.76 番,這里番為國標麻將的結算單位,數值越大,說明贏得越多。

曾與絕藝 LuckyJ 對局的棋手們,也對它做出了高度評價。“雀友杯”2014 年世界麻將大師邀請賽冠軍,騰訊麻將錦標賽年度總決賽(2018,2019)冠軍成海華提到,AI 在攻防兩端都表現得都十分出色,充分體現了計算上的優勢,讓他刮目相看。

國標麻將職業選手,標榜麻將運動協會會長楊磊也有相同的感受:“經過數月與騰訊麻將 AI 的對抗測試,通過分析 AI 對局,AI 無論在進攻還是防守都讓我印象深刻。我們通常所謂的妙手、靈光一現,甚至基于經驗和感覺做出的置之死地而后生的選擇,對于 AI 來說可能算是常規操作。”

國標麻將及日本麻將職業選手黃林說,在與 AI 的上千次對戰中,他一直驚嘆于 AI 強大的牌效和精準的讀牌,形容它“在攻防兩端都做到了極致”。

決策與生成是當前人工智能發展的兩大主線,也是研究通用人工智能的必由之路。在模擬真實世界的虛擬游戲中,AI 學會快速分析、決策與行動,就能執行更困難復雜的任務并發揮更大作用。從 2017 年開始,騰訊 AI Lab 自研的絕藝、絕悟兩款決策 AI,借助棋牌、MOBA 等多類游戲場景,探索用 AI 解決現實中的復雜問題。

現實生活中存在大量的隱藏信息和不確定的因素,麻將游戲中復雜的決策過程和帶有隨機性的博弈,比圍棋這樣的完美信息游戲更加接近真實的現實生活。“絕藝 LuckyJ” 在專業領域的突破,體現了騰訊 AI Lab 的深度強化學習智能體不斷進化,正逐漸向解決更復雜更多樣化的問題遷移。對非完美信息游戲的研究,將有助于我們開發出適用于真實生活場景的更加“智能”的 AI 系統。

免責聲明:本文由用戶上傳,如有侵權請聯系刪除!