所有語言
分享
原文來源:機器之心
圖片來源:由無界 AI生成
大模型的出色能力有目共睹,而如果將它們整合進機器人,則有望讓機器人擁有一個更加智能的大腦,為機器人領域帶來新的可能性,比如自動駕駛、家用機器人、工業機器人、輔助機器人、醫療機器人、現場機器人和多機器人系統。
預訓練的大型語言模型(LLM)、大型視覺 - 語言模型(VLM)、大型音頻 - 語言模型(ALM)和大型視覺導航模型(VNM)可以被用於更好地處理機器人領域的各種任務。將基礎模型整合進機器人是一個快速發展的領域,機器人社區最近已經開始探索將這些大模型用於感知、預測、規劃和控制等機器人領域。
近日,斯坦福大學和普林斯頓大學等多所大學以及英偉達和 Google DeepMind 等多家企業的一個聯合研究團隊發布了一篇綜述報告,總結了基礎模型在機器人研究領域的發展情況和未來挑戰。
團隊成員中有很多我們熟悉的華人學者,包括朱玉可、宋舒然、吳佳俊、盧策吾等。
在範圍廣泛的大規模數據上預訓練的基礎模型在微調之後可以適用於多種多樣的下游任務。基礎模型已經在視覺和語言處理方面取得了重大突破,相關模型包括 BERT、GPT-3、GPT-4、CLIP、DALL-E 和 PaLM-E。
在基礎模型出現之前,用於機器人的傳統深度學習模型的訓練使用的都是為不同任務收集的有限數據集。相反,基礎模型則是會使用大範圍多樣化數據進行預訓練,在其他領域(比如自然語言處理、計算機視覺和醫療保健)的應用證明了其適應能力、泛化能力和總體性能表現。最終,基礎模型也有望在機器人領域展現出自己的潛力。圖 1 展示了基礎模型在機器人領域的概況。
相比於針對特定任務的模型,從基礎模型遷移知識有可能減少訓練時間和計算資源。尤其是在機器人相關領域,多模態基礎模型可以將從不同傳感器收集的多模態異構數據融合和對齊成緊湊的緊湊同質表徵,而這正是機器人理解和推理所需的。其學習到的表徵可望用於自動化技術棧的任何部分,包括感知、決策和控制。
不僅如此,基礎模型還能提供零樣本學習能力,也就是讓 AI 系統有能力在沒有任何示例或針對性訓練的前提下執行任務。這能讓機器人將所學知識泛化到全新的用例,增強機器人在非結構化環境中的適應能力和靈活性。
將基礎模型整合進機器人系統能提升機器人感知環境以及與環境交互的能力,有可能實現上下文感知型機器人系統。
舉個例子,在感知領域,大型視覺 - 語言模型(VLM)能夠學習視覺和文本數據之間的關聯,從而具備跨模態理解能力,從而輔助零樣本圖像分類、零樣本目標檢測和 3D 分類等任務。再舉個例子,3D 世界中的語言定基(language grounding,即將 VLM 的上下文理解與 3D 現實世界對齊)可以通過將話語與 3D 環境中的具體對象、位置或動作關聯起來,從而增強機器人的空間感知能力。
在決策或規劃領域,研究發現 LLM 和 VLM 可以輔助機器人規範涉及高層規劃的任務。
通過利用與操作、導航和交互有關的語言線索,機器人可以執行更加複雜的任務。比如對於模仿學習和強化學習等機器人策略學習技術,基礎模型似乎有能力提升數據效率和上下文理解能力。特別是語言驅動的獎勵可通過提供經過塑造的獎勵來引導強化學習智能體。
另外,研究者也已經在利用語言模型來為策略學習技術提供反饋。一些研究表明,VLM 模型的視覺問答(VQA)能力可以用於機器人用例。舉個例子,已有研究者使用 VLM 來回答與視覺內容有關的問題,從而幫助機器人完成任務。另外,也有研究者使用 VLM 來幫助數據標註,為視覺內容生成描述標籤。
儘管基礎模型在視覺和語言處理方面具備變革性的能力,但對於現實世界的機器人任務來說,基礎模型的泛化和微調依然頗具挑戰性。
這些挑戰包括:
1) 缺少數據:如何為機器人操作、定位、導航等機器人任務獲取互聯網規模級的數據,以及如何使用這些數據執行自監督訓練;
2) 巨大的差異性:如何應對物理環境、實體機器人平台和潛在的機器人任務的巨大多樣性,同時保持基礎模型所需的通用性;
3) 不確定性的量化問題:如何解決實例層面的不確定性(比如語言歧義或 LLM 幻覺)、分佈層面的不確定性和分佈移位問題,尤其是閉環的機器人部署引起的分佈移位問題。
4) 安全評估:如何在部署之前、更新過程中、工作過程中對基於基礎模型的機器人系統進行嚴格測試。
5) 實時性能:如何應對某些基礎模型推理時間長的問題 —— 這會有礙基礎模型在機器人上的部署,以及如何加速基礎模型的推理 —— 這是在線決策所需的。
這篇綜述論文總結了當前基礎模型在機器人領域的使用情況。他們調查了當前的方法、應用、挑戰,並建議了解決這些挑戰的未來研究方向,他們也給出了將基礎模型用於實現機器人自主能力的潛在風險。
基礎模型背景知識
基礎模型有數以十億計的參數,並且使用了互聯網級的大規模數據進行預訓練。訓練如此大規模和高複雜性的模型需要極高的成本。獲取、處理和管理數據的成本也會很高。其訓練過程需要大量計算資源,需要 GPU 或 TPU 等專用硬件,還需要用於模型訓練的軟件和基礎設施,這些都需要資金。此外,需要基礎模型還需要很長的時間,這也會導致高成本。因此這些模型往往是作為可插拔模塊使用的,即將基礎模型整合進各種應用中,而無需大量定製工作。
表 1 給出了常用基礎模型的細節。
這一節將主要介紹 LLM、視覺 Transformer、VLM、具身多模態語言模型和視覺生成模型。還會介紹用於訓練基礎模型的不同訓練方法。
他們首先介紹了一些相關的術語和數學知識,其中涉及 token 化、生成模型、判別模型、Transformer 架構、自回歸模型、掩碼式自動編碼、對比學習和擴散模型。
然後他們介紹了大型語言模型(LLM)的示例和歷史背景。之後重點說明了視覺 Transformer、多模態視覺 - 語言模型(VLM)、具身多模態語言模型、視覺生成模型。
機器人研究
這一節關注的是機器人決策、規劃和控制。在這一領域,大型語言模型(LLM)和視覺語言模型(VLM)都有潛力用於增強機器人的能力。舉個例子,LLM 可以促進任務規範過程,讓機器人可以接收和解讀來自人類的高級指令。
VLM 也有望為這一領域做出貢獻。VLM 擅長分析視覺數據。要讓機器人做出明智的決策和執行複雜的任務,視覺理解能力是至關重要的。現在,機器人可以使用自然語言線索來增強自己執行操作、導航和交互相關任務的能力。
基於目標的視覺 - 語言策略學習(不管是通過模仿學習還是強化學習)有望通過基礎模型獲得提升。語言模型還能為策略學習技術提供反饋。這個反饋循環有助於持續提升機器人的決策能力,因為機器人可以根據從 LLM 收到的反饋優化自己的行動。
這一節關注的是 LLM 和 VLM 在機器人決策領域的應用。
這一節分為六部分。其中第一部分介紹了用於決策和控制和機器人策略學習,其中包括基於語言的模仿學習和語言輔助的強化學習。
第二部分是基於目標的語言 - 圖像價值學習。
第三部分介紹了使用大型語言模型來規劃機器人任務,其中包括通過語言指令來說明任務以及使用語言模型生成任務規劃的代碼。
第四部分是用於決策的上下文學習(ICL)。
接下來是機器人 Transformer。
第六部分則是開放詞彙庫的機器人導航和操作。
表 2 給出了一些特定於機器人的基礎模型,其中報告了模型的大小和架構、預訓練任務、推理時間和硬件設置。
感知
與周圍環境交互的機器人會接收不同模態的感官信息,比如圖像、視頻、音頻和語言。這種高維數據對機器人在環境中的理解、推理和互動而言至關重要。基礎模型可以將這些高維輸入轉換成容易解讀和操作的抽象結構化表徵。尤其是多模態基礎模型可讓機器人將不同感官的輸入整合成一個統一的表徵,其中包含語義、空間、時間和可供性信息。這些多模態模型需要跨模態的交互,通常需要對齊不同模態的元素來確保一致性和互相對應。比如圖像描述任務就需要文本和圖像數據對齊。
這一節將關注與機器人感知相關的一系列任務,這些任務可使用基礎模型來對齊模態,從而獲得提升。其中的重點是視覺和語言。
這一節分為五部分,首先是開放詞彙庫的目標檢測和 3D 分類,然後是開放詞彙庫的語義分割,接下來是開放詞彙庫的 3D 場景和目標表徵,再然後是學習到的功能可供性,最後是預測模型。
具身 AI
近段時間,有研究表明 LLM 可以成功用於具身 AI 領域,其中「具身(embodied)」通常是指在世界模擬器中的虛擬具身,而非具有實體機器人身體。
這方面已經出現了一些有趣的框架、數據集和模型。其中尤其值得一提的是將 Minecraft 遊戲用作訓練具身智能體的平台。舉個例子,Voyager 使用了 GPT-4 來引導智能體探索 Minecraft 環境。其能通過上下文 prompt 設計來與 GPT-4 互動,而無需對 GPT-4 的模型參數進行微調。
機器人學習方面的一個重要研究方向是強化學習,也有研究者在嘗試通過基礎模型來為強化學習設計獎勵。
使用基礎模型輔助機器人執行高層規劃自然也早有研究者嘗試。此外也有研究者在嘗試將基於思維鏈的推理和動作生成方法用於具身智能體。
挑戰和未來方向
這一節會給出將基礎模型用於機器人的相關挑戰。該團隊也會探索可望解決這些挑戰的未來研究方向。
第一個挑戰是克服訓練用於機器人的基礎模型時的數據稀缺問題,其中包括:
1. 使用非結構化遊戲數據和未標註的人類視頻來擴展機器人學習
2. 使用圖像修復(Inpainting)來增強數據
3. 克服訓練 3D 基礎模型時的缺少 3D 數據的問題
4. 通過高保真模擬來生成合成數據
5. 使用 VLM 進行數據增強
6. 機器人的物理技能受限於技能的分佈
第二個挑戰則與實時性能有關,其中關鍵的是基礎模型的推理時間。
第三個挑戰涉及到多模態表徵的局限性。
第四個挑戰則是如何量化不同層級的不確定性的問題,比如實例層面和分佈層面,另外還涉及到如何校準以及應對分佈移位的難題。
第五個挑戰涉及到安全評估,包括部署之前的安全測試和運行時的監控和對分佈外情況的檢測。
第六個挑戰則涉及到如何選擇:使用現有的基礎模型還是為機器人構建新的基礎模型?
第七個挑戰涉及到機器人設置中的高度可變性。
第八個挑戰是如何在機器人設置中進行基準評估以及保證可復現性。