所有語言
分享
原文來源:未來科技力
作者|薛良Neil
圖片來源:由無界 AI生成
隨着大模型熱潮洶湧進入一個新階段,有關 AI Agent 的討論逐漸多了起來。簡單來說,AI Agent 可以翻譯成智能體或者代理,研究者和科學家們設想,AI Agent 可以代替人處理更複雜的任務,甚至摒棄掉 prompt 和基於大模型多重複雜的指令。
即使是同大模型本身比較起來,有關 AI Agent 的設想也頗具顛覆性,如果智能體真的能很好地理解和代替人來執行指令,那麼它的應用場景幾乎是沒有窮盡的,它可能比所有一切技術都更接近 AGI,也就是通用人工智能。
在大模型技術上領先的 OpenAI同樣對AI Agent 十分感興趣,它們的首席科學家Ilya Sutskever不止一次表達過OpenAI 對 AI Agent 技術的關注,事實上這一點頗為有趣,按照Ilya Sutskever自己的說法, 強如OpenAI,在 AI Agent 技術方面也是同所有研究組織站在同一條起跑線上。
這對所有人來說都意味着巨大的機會和增長空間,尤其是在中國。硅星人在 10 月 31 日未來科技力 100 人系列專題直播對話的主題也由此確定。我們邀請到了瀾碼科技創始人兼CEO周健、億鑄科技創始人熊大鵬和Hugging Face工程師王鐵震三位嘉賓共同探討和 AI Agent 有關的一切。
其中,瀾碼科技是國內最早致力於 AI Agent 相關技術和應用研發和落地的公司,億鑄科技則聚焦於存算一體新架構的 AI 算力芯片,Hugging Face 這不必多說,儘管還是個所謂“初創公司”,但它已經成為全球著名的大模型託管平台和技術討論社區了。
瀾碼科技創始人兼CEO周健:從超級自動化平台的視角談論了 AI Agent 的巨大潛力。
“AI Agent 和大模型是什麼關係?過去的系統負責感知,大模型是個知識系統,AI Agent 更像是個行動系統,它像一個神經中樞,跟真實環境交互,並且能夠把任務進行拆解實現。”
“AI Agent 會有規劃模塊、記憶模塊、執行模塊,並且因為需要適配上下文,它還要有一個很強的配置模塊。”
“AI Agent 的自動化和過去的做法比起來最大的差別是什麼呢?過去的 RPA低代碼很多時候比較僵硬,不能利用已有數據。而大語言模型提供了極其便宜的自然語言理解能力,也提供了一定的邏輯推理、思考能力。標準流程因此變得可執行了。這一輪AI 大模型革命可以給企業內部自動化帶來顛覆性的變化,從過去解決重複勞動問題轉向解決業務質量問題,初級的員工能夠在專家賦能的 AI Agent 幫助下,去做更高級、高質量的工作,從而提高整體行業的水平。”
億鑄科技創始人熊大鵬分享了大模型浪潮對算力提出的巨大挑戰,這種挑戰在 AI Agent 興起的大背景下顯得越發嚴峻。
“實際決定芯片有效性能的不僅僅是計算單元和核心,以及工作頻率到底有多高,還包括了在同一個計算單元裏面用於數據搬運和讀寫所花費的時間到底是多少。特別是對於 AI 芯片來說,數據搬運和讀寫所佔的百分比達到了 90%甚至更多,這就意味着即使我們用更好的工藝堆疊更多的核心,如果不解決帶寬和時延問題,算力的提升還是很有限的。從整個系統來看也是一樣的原理,不管是哪個公司的板卡,組成一個大的集群后,它的真實有效算力能夠提高到什麼程度,很大程度上也取決於整個網絡的帶寬和時延,而不僅僅是 AI 加速卡本身的問題。”
“存算一體架構的芯片,它避免了大量的數據搬運,這樣使得端到端時延大大減少,在整個矩陣計算中,參數也沒有任何搬運的需求,這意味着相比目前的芯片架構,存算一體芯片理論上數據搬運量減少了一萬倍以上,帶來了巨大的好處。同樣工藝和功耗情況下,億鑄科技的存算一體 AI 加速芯片裸算力相比傳統的馮·諾依曼架構的芯片提升約 20 倍以上,有效算力提升達10 倍以上,這樣大模型構建初期有關的投入和運營成本將會大幅減少。”
Hugging Face工程師王鐵震
我覺得針對什麼是 AI Agent,現在也沒有形成一個非常明確的共識。我個人想法就是說拿人類做一個類比,比如人類去思考一個事情,就是腦中想一下,然後出來一個答案。這個過程可能就跟prompt一下,大模型輸出一個結果是一樣的。但我們都知道,一些深思熟慮的想法不是靈光一閃就有答案的,你需要工具,比如拿筆把它記錄下來;你需要有很多人大家一起去聊等等,經過這些過程才有一個非常好的結果。
我覺得AI Agent也是一樣,你只是通過prompt,大模型的答案可能不夠好,如果你把一堆大模型弄到一起,用工具去做一些事情,從各個角度把問題拆解,可能是比大模型本身去思考更智能的一種做法,我覺得AI Agent就是這種。
AI Agent讓大模型變得更聰明。
瀾碼科技創始人兼CEO周健
AI Agent 是一個很長期的賽道,瀾碼現在做的叫Task Oriented Agent,有更多自主性、多樣性、新穎性的 AI Agent 應用,比如 AI for science、自動駕駛,以及我們過去有所討論的具身智能等,它們也屬於 AI Agent,但不是現在這種框架可以解決的了。
總的來說,現在還是一個非常初級的階段,我覺得未來還有很長的路要走,但可能性和想象空間是很大的。
億鑄科技創始人熊大鵬
我想 AI Agent 和通用智能大模型是相輔相成的,好的 AI Agent 可以讓通用智能大模型更聰明,某種程度上我覺得 AI Agent 是通用智能大模型的延伸,它可以針對某個具體的應用、具體的功能做得非常深,擁有比通用智能更專精的能力。
Hugging Face工程師王鐵震
20 年前大家覺得做一個網頁就是寫幾個 html 代碼,完全想象不到現在做一個網頁可以如此複雜,包含這麼多的框架、代碼和交互。
AI Agent 也是如此,它和基礎模型之間的關係有時候是混合的,只是用戶能不能感知到而已。比如當你去調用 ChatGPT 的時候,其實你不只是在調用一個大模型,而是它背後有很多不同的模型,有不同的工具,然後讓它們組合在一起給你了一個答案。
OpenAI 正明顯在往這個方向走去,它把所有的 plug-ins 功能都打開了,你調用大模型的時候,它隨時可以去調去各種各樣的能力。因此並不一定說要把大模型和 AI Agent 這兩個概念區分開變得非常獨立,大模型首先需要強大到能夠利用 AI Agent 能力,然後通過它的能力在其他維度上擴充功能。
瀾碼科技創始人兼CEO周健
我覺得AI Agent 會像是《鋼鐵俠》里的賈維斯,長遠來看它肯定會走到那一步的,也就是說,它的交互形式將會是多信道的。就像人和人之間的交流,用微信是一種方式,用語音是一種方式,用視頻或者面對面等有各種方式。
人們為什麼需要面對面聊天?因為面對面包含了更多的信道,就比如我在說話的時候,動作、表情會傳遞許多不一樣的信號。AI的發展長遠來看也會做到這一點,它將包括非常多的信息通道。
AI Agent是最近大家才會抽象出來指代一些事情的詞,之前業界更多會用copilot來形容,包括討論UI界面的變化,現在到底會變成 language UI 還是 conversation UI ?其實還不確定,但可以肯定的是它絕不僅僅局限在對話上,因為AI Agent是有能力去生成代碼、生成表單的,從這個意義上來說,它代表了UI下一步的一種進化。
當然,它發展的過程中會遇到很多的困難。我們最近有一個內部的討論,其中有一點我想可以拿出來和大家分享,那就是大語言模型訓練的時候用到的很多語料是關於 “what” 和“why”的,很少有人會在互聯網上寫“How”,也就是說大家很少把分析的過程寫出來,而往往只是給到結果。相比之下,只有代碼這部分比較好地寫出了“how”,所以從這個意義上來講,目前大模型能力上還有很多缺失的部分。
億鑄科技創始人熊大鵬
具有通用智能特性的完整大模型在雲端,相當於人的大腦,而中腦和小腦,也就是AI Agent會落在本地,它可能是一個經過裁剪之後的大模型,能夠和雲端的完整大模型協同和互動,具體執行的時候則依靠自己本地的算力。
也就是說,算力可能在邊緣設備,也就是端側設備上同樣出現暴漲。
Hugging Face工程師王鐵震
我覺得遊戲場景是一個非常典型的應用,把多個智能體放進去,每個智能體有自己的想法,可以進行交互。這比用一個大模型生成整個完整的遊戲體驗可能效果會好很多。當然我們需要注意多樣性的問題,如果每個模型都大差不差的話,可能最終的體驗並不會特別好。
總的來說,AI Agent 實際上是大模型的一個延伸,現在用大模型做的不好的事情,將來用 AI Agent 可能會更好。比如寫代碼,現在 ChatGPT 能寫出大概 10 行、20 行的無錯代碼,但最近我們看到比如 ChatDev 這樣的 AI Agent,它用一個完整的模擬人類開發流程的方式分工合作去生成代碼,同樣是用 ChatGPT,協作之後寫出來的代碼它更符合人類的要求,bug 更少。這就是 AI Agent 的應用場景,從這個角度講,現在所有運用大模型的地方,只要滿足算力的需求我們其實都可以用 AI Agent 來代替,它將有非常廣闊的前景。
瀾碼科技創始人兼CEO周健
我們的精力主要集中在To B端,現在看下來。即使是GPT4在通用性上還有很多問題,但在一個限定的、具體的領域,比如出差場景,無非就是調用日曆、郵箱、微信、機票和酒店等,讓AI Agent做你的差旅安排其實是容易的。
目前在限定的場景中,ToB端的專業場景它是會比人強的。更遠一些的東西我想可能需要一些時間。
Hugging Face工程師王鐵震
現在很多開源模型做 AI Agent 效果是比較差的,因為訓練大模型的過程,更多的是為了“生成”這個目的,這與AI Agent的目的——分析理解問題、拆解然後處理的邏輯是整個不一樣的。
生成的內容出現一些錯誤是很正常的現象,但如果你把一個任務、一個問題拆解錯了,那它最後給到的結果可能完全就跑偏了,這裏面包含的控制難度實際上是非常不一樣的。
不同公司對這些方向有不同的選擇,但有一種意見是,使用工具的能力或許比生成一個故事更能代表智能的本質,實際上OpenAI就是這種思路,因此才把所有的工具都集合在了ChatGPT中。
如果一個模型,一方面它參數足夠多,具備強大的推理和分析能力;另一方面它又能有很好的算力支持,成本足夠低。我覺得這個世界的未來將會變得很不一樣。