所有語言
分享
原文來源:學術頭條
圖片來源:由無界 AI生成
只需要幾分鐘,就可以成功模仿專家行為,並記住所有學過的知識,Google DeepMind 研發的 AI Agent,登上了 Nature 子刊。
據介紹,在 3D 模擬中,該智能體能夠在第一次見到的任務中實時模仿專家,並從第三人稱視角實時可靠地獲取來自人類搭檔的知識。
雖然該智能體之前從來沒有見過人類,但它可以在各種有挑戰性的導航問題中從人類和 AI 專家中快速學習。例如,它可以在包含大量障礙的複雜地形中穿梭。
相關研究論文以“Learning few-shot imitation as cultural transmission”為題,已發表在 Nature 子刊 Nature Communications 上。
研究團隊認為,該研究結果是對具身 AI 實現快速知識傳播的一次概念驗證,是朝着人類-AI 互動的開放式文化演變邁出的第一步。
另外,AI 從業者可以從人類社會學習中汲取靈感,構建出適應當下人類夥伴的具身 AI 智能體,並妥善保護隱私。此外,具備社會學習能力的 AI 智能體或許還可以為研究人類文化能力發展提供全新的建模工具。
具備實時文化傳播能力
文化傳播(Cultural transmission)是一項通用技能,使人們能夠在社交中實時獲取和使用信息,同時具備高度的準確度和記憶力。在人類社會中,文化演化使得技能、工具和知識代代相傳,並在這些過程中不斷積累和完善。
在這項工作中,研究團隊通過應用智能體-環境共適應(agent environment co-adaptation)的方法,成功生成了一個具備實時文化傳播能力的 AI 智能體。
如上圖,為實現這一目標,他們引入了一個虛擬的 3D 任務空間,每個任務都包含由程序生成的地形、障礙物和目標球。
在每個任務中,AI 智能體需要按照特定的循環順序訪問目標球以獲取獎勵,而這個順序是在任務開始時隨機確定的。然而,AI 智能體並不知道正確的順序,所以它必須通過實驗或從專家那裡學習來弄清楚。不過,這個任務空間設計得很複雜,可以通過調整世界的大小、障礙物的數量、地形的崎嶇程度以及目標球的數量等參數來改變導航的難度。
研究人員通過精心設計的實驗發現,AI 智能體文化傳播的出現需要一組最小而充分的訓練要素,被命名為 MEDAL-ADR,包括函數逼近、記憶、專家共同參与者、專家丟失、對專家的注意偏向以及自動領域隨機化。
圖|MEDAL-ADR 要素
其中,記憶通過 LSTM 網絡實現,專家共同參与者是硬編碼的機器人,而自動領域隨機化有助於訓練 AI 智能體在多樣化的任務中展現出更好的行為。
這些組件的巧妙組合構成了一個強大的 AI 智能體,其文化傳播能力在回憶(recall)、泛化(generalisation)和保真度(fidelity)三個方面均表現出色。
回憶評估了智能體在沒有專家在場的情況下複製演示的能力,泛化衡量了智能體是否能夠在未知任務上進行文化傳播,而保真度則計算了智能體選擇與專家演示者的一致性程度。
最引人注目的是,這個 AI 智能體的“大腦”神經元展現出了強大的解釋力,專門負責編碼社交信息和目標狀態。這一方法不僅使 AI 智能體在訓練分佈之外實現了泛化,而且在專家離開后的單一情境內依然能夠回想起演示,為實際應用場景提供了更多可能性,尤其是在人類數據收集困難、任務變化多樣且隱私至關重要的情況下。
一些局限性
儘管該研究提出的 MEDAL-ADR 方法可以使 AI 智能體在開放式學習中適應多樣的文化環境。
但是,研究者團隊也指出了評估方法上的一些局限性。
首先,研究沒有從多個人中測試文化傳播,而是選擇了研究團隊內的一個單一參与者。因此,研究無法對跨越人群的強大性做出統計顯著的斷言。
其次,導航任務對合理的人類行為的多樣性有一定的限制。為了更深入地了解通用的文化傳播,研究需要具有更廣泛和深度策略的任務。
最後,研究人員並未明確區分訓練過的智能體是否記住了地理路徑,以及是否記住了正確球體順序。
MEDAL-ADR 在 GoalCycle3D 任務空間之外是否更為通用?答案可能是有條件的“否”。
GoalCycle3D 是一個龐大的、程序生成的任務空間,其作用類似於更廣泛類別任務的導航代表。這些任務涉及到需要反覆進行戰略選擇序列的活動,比如烹飪、導航和問題解決。
然而,該方法需要一些環境條件,包括專家的可見性、退出和程序生成。如果在某個環境中無法創建近似條件,那麼該方法就無法應用。
此外,研究人員並不認為 MEDAL-ADR 方法是人類文化傳播發展的直接模型。但是,他們鼓勵未來的研究者進行更多實驗證明,如比較 MEDAL-ADR 的模型與不同階段兒童或非人動物的行為,以及在實驗室環境中研究人類和 AI 的文化積累。這種實證研究有望加深對文化傳播、元學習和開放式學習相關問題的理解。
研究團隊表示,他們期待未來 AI 和文化進化心理學領域的跨學科交流。
論文鏈接: