騰訊宣布其人工智能球隊獲首屆谷歌足球Kaggle競賽冠軍

2021-04-24 07:54:37

導讀 12月30日騰訊宣布其人工智能球隊摘得了首屆谷歌足球Kaggle競賽冠軍。這是一場由Google Research與英超曼城俱樂部在Kaggle平臺上聯合舉

12月30日騰訊宣布其人工智能球隊摘得了首屆谷歌足球Kaggle競賽冠軍。這是一場由Google Research與英超曼城俱樂部在Kaggle平臺上聯合舉辦的足球AI比賽經過多輪角逐騰訊AI Lab研發的絕悟WeKick版本以1785.8的總分成為冠軍球隊。

創立于2010年的Kaggle是全球最大的數據科學社區和數據科學競賽平臺今年也是Kaggle首次針對足球AI領域發布賽題。

比賽使用Google Research Football強化Learning環境基于開源足球游戲Gameplay Football開發采取11vs11的賽制參賽團隊需要控制其中1個智能體與10個內置智能體組成球隊。

WeKick的比賽場景該賽事發布后吸引了來自世界頂級院校和研究機構的1100多支隊伍參加而騰訊此次派出的隊伍其實是11月底剛剛升級為完全體的“絕悟” 當時騰訊“絕悟”首次精通了王者榮耀所有英雄的所有技能此次參加足球賽就是在其基礎上進行了一些針對足球的調整。

AI如何踢足球？

Google Football（on Kaggle）以流行的足球游戲為模型就像是一款由AI操作的FIFA游戲智能體控制足球隊中的一個或所有足球運動員學習如何在他們之間傳球并設法克服對手的防守以進球。其競賽規則與普通足球比賽類似比如目標都是將球踢入對方球門以及越位、黃牌和紅牌規則。

不同于常見足球視頻游戲的統一調控式NPC球隊在本次Kaggle競賽中每個球員都各由一個單獨的智能體控制而參賽的AI模型則根據比賽情況控制其中一個智能體與其他10個內置智能體配合。這要求每個球員不僅需要觀察對手的行為還需要留意己方隊員的情況背后需要非常復雜的團隊協作和競爭策略作為支撐。

比如當對方球員控球時己方智能體不僅要根據球場上雙方球員的分布位置預測控球球員的下一步動作還需要與己方其他球員協同如何合規地奪取足球的控制權。且由于球場動態瞬息萬變因此高速的實時決策能力也是必需的。

此外從零開始完全采用強化學習方法來訓練完整的足球AI實際上也相當困難。與MOBA游戲中不斷有經濟、血量、經驗等實時學習信號不同足球的游戲激勵非常稀疏基本只能依靠進球而稀疏激勵一直是目前強化Learning一大難題。

“絕悟”的冠軍之路

據騰訊方面介紹絕悟WeKick版本首先采用了強化學習和自博弈（Self-Play）來從零開始訓練模型并部署了一種異步的分布式強化學習框架。雖然該異步架構犧牲了訓練階段的部分實時性能但靈活性卻得到顯著提升而且還支持在訓練過程中按需調整計算資源使其能適應 11 智能體足球游戲訓練環境。

由于MOBA游戲和足球游戲任務目標的差異絕悟WeKick版本還采用了生成對抗模擬學習（GAIL）與人工設計的獎勵結合在特征與獎勵設計上進行了擴展和創新。

該方案利用了生成對抗訓練機制來擬合專家行為的狀態和動作分布使得絕悟WeKick版本可以從其它球隊學習。然后再將 GAIL 訓練的模型作為固定對手進行進一步自博弈訓練進一步提升策略的穩健性。

但這種通過自博弈強化學習得到的模型有一個天然的缺點：很容易收斂到單一風格。在實際比賽的時候單一風格的模型很容易發生由于沒見過某種打法而表現失常最終導致成績不佳的情況。因此為了提升策略的多樣性和穩健性絕悟還采用了針對多智能體學習任務的League（若干策略池）多風格強化學習訓練方案。

這種League多風格強化學習訓練方案的主要流程可簡單總結為先專精后綜合。

首先訓練一個具備一定程度競技能力的基礎模型比如運球過人、傳球配合、射門得分；

接著基于基礎模型訓練出多個風格化模型每個模型專注一種風格打法在風格化模型訓練的過程中會定期加入主模型作為對手避免過度堅持風格丟失基本能力；

最后基于多個基礎模型訓練一個主模型主模型除了以自己的歷史模型為對手以外還會定期加入所有風格化對手的最新模型作為對手確保主模型能夠適應風格完全不同的對手。

最終基于絕悟完全體的架構遷移定制化的框架改進加上關鍵性的生成對抗模擬學習（GAIL）方案和 League （若干策略池）多風格強化學習訓練方案使得絕悟實現了優于其它競爭AI球隊的優勢成就了冠軍之路。責任編輯:pj

免責聲明：本文由用戶上傳，如有侵權請聯系刪除！

標簽：

三晉生活網