據外媒報道,麻省理工學院(MIT)的研究人員開發出一種全新深度學習算法,可對所接收的測量數據和輸入建立健全的“懷疑”機制,幫助機器在真實、不完美的世界中導航。
文章首席作者及麻省理工學院航空與航天系博士后Michael Everett表示:“盡管目前基于深度神經網絡的系統在許多機器人任務中都算很前沿,但在安全關鍵領域中,由于深度神經網絡系統的網絡魯棒性沒有正式的保障,所以仍然很危險。一旦傳感器輸入受到小擾動(如噪聲或對抗性實例)通常會改變基于網絡的決策,如自動駕駛汽車會因此變換車道。
鑒于上述危險,研究人員已根據這些對抗性輸入開發出很多算法建立防御機制。部分對抗性輸入還可提供正式的魯棒性保證或證明。此項工作利用了經驗證的對抗魯棒性,進而為深度強化學習算法開發可靠的在線魯棒算法。
由于存在潛在對抗和噪音,輸入空間可能會出現最糟糕的偏差,因此提出的防御措施會在識別和選擇魯棒操作執行期,需要計算狀態操作值的保證下限。而且,即使驗證者可能因干擾不了解真實狀態和最佳操作,最終策略仍可具備解決方案品質保證。”
該研究團隊將強化學習算法與深度神經網絡相結合,構建出新方法:CARRL,即深度強化學習的認證對抗性魯棒性(Certified Adversarial Robustness for Deep Reinforcement Learning)。研究人員在不同場景中對該方法進行了測試,如碰撞仿真測試和視頻游戲Pong,發現即使存在不確定性和對抗性輸入,CARRL也比標準的機器學習技術表現地更好,不僅成功避免碰撞,且在Pong游戲中多次獲勝。
Everett還表示:“在出現對抗性時,用戶總是認為有人入侵其電腦,但有可能只是傳感器性能不佳或測量工具有誤,這都很常見。我們的新算法可解決這一問題并做出安全決策。任何需要極高安全性的地方都應該考慮采用該算法。”
可能的現實:為了使AI系統能夠抵抗對抗性輸入,研究人員曾為監督學習采用防御措施。通常情況下,會通過訓練神經網絡使其將標簽或動作與給定輸入相關聯。例如,曾接收過大量被標記為貓、房屋和熱狗圖像的神經網絡可以正確標記新圖像為貓。
在強大的AI系統中,相同的監督學習技術可使用稍作更改的圖像版本測試。如果網絡對每張圖片的標記標簽均為“貓”,無論是否更改,該圖片很有可能確實是貓,則該網絡對于任何對抗性影響都具有較強的魯棒性。但瀏覽所有圖像是不可能的,且很難應對高時效性任務,如避免碰撞。此外,如果網絡較不穩定性,且一些經修改的貓圖片會被標記為房屋或熱狗,那么現有方法無法標識圖像標簽或確定采取何種措施。
研究人員Bj?rn Lütjens表示:“為了在對安全性要求高的場景下使用神經網絡,我們必須知道如何在最壞情況下做出實時決策。”
該團隊希望以強化學習為基礎。強化學習是機器學習的另一種形式,不需要將標記的輸入與輸出相關聯,而是旨在強化對某些輸入做出的響應動作。這種方法通常用于訓練計算機競技類游戲,如象棋和圍棋。采用強化學習的前提是,假設輸入正確。Everett及其同事們稱此次研究是首次在強化學習中給不確定、對抗性的輸入帶來“可驗證的魯棒性”。
他們所采用的方法CARRL使用現有的深度強化學習算法來訓練深度Q網絡或DQN(一種多層神經網絡,最終將輸入與Q值或獎勵水平相關聯)。該方法采用輸入(例如帶有單個點的圖像),并考慮對抗性影響或實際上可能在點周圍的區域。基于麻省理工學院研究生Tsui-Wei“Lily” Weng博士研發的技術,該點在所處區域內的每個可能位置都由DQN連通,發現關聯舉動,從而引起最佳最壞情況發生。
對抗的世界:在視頻游戲Pong的測試中,兩名玩家手持屏幕兩側的球拍來回傳遞乒乓球。研究人員在游戲中加入了一個“對手”,將球拉得比實際球高得多。他們發現,隨著對手的影響力不斷增強,CARRL比標準技術的獲勝率更高。
Everett表示:“如果預設測量值不完全值得信任,且乒乓球可能在固定區域內的任何地方,那么使用該方法通知計算機將球拍置于該區域的中間,從而確保在最壞偏差下擊中乒乓球。”
該方法在碰撞測試中同樣具有魯棒性。在碰撞測試中,該團隊模擬了一個藍色和橙色代理,試圖在不發生碰撞的情況下切換位置。當團隊擾亂橙色代理對藍色代理位置的觀察時,CARRL將橙色代理引導到另一個代理周圍,隨著對手越強大,泊位越寬,藍色代理的位置變得越不確定。
CARRL的保守變化使得橙色代理會假設另一種代理可能在其附近的任何地方,作為回應,可能會錯過了目的地。Everett稱,這種極端保守的做法很有用,研究人員可以將其用作調整算法魯棒性的限制。比如,該算法可能會考慮較小的偏差或不確定性區域,這仍將允許代理獲得較高的報酬并到達其目的地。Everett還稱,除克服傳感器缺陷外,CARRL可能是幫助機器人安全處理現實世界中不可預測的交互作用的開始。
Everett表示:“人類是有對抗性的,如站在機器人前面阻礙傳感器或與它們進行交互,但不一定是出于最佳意圖。機器人如何思考人們可能會嘗試做的所有事情?如何設法避免它們發生?我們要防御哪種對抗模型? 這就是我們正在考慮的方法。”福特公司作為MIT的盟友,也對該項研究提供了部分支持。