所有語言
分享
文章來源:硅星GenAI
作者|周一笑,丸丸柚貝
編輯|王兆洋
可媲美Sora的中國文生視頻模型,就這麼來了。
4月27日上午,在2024中關村論壇上,生數科技聯合清華大學發布中國首個長時長、高一致性、高動態性視頻大模型——Vidu,它所展示的效果立刻刷屏。
據生數科技,Vidu支持一鍵生成16秒、1080P分辨率的視頻內容。而從視頻來看,Vidu的一致性、運動幅度都達到了Sora水準,雖然時長還比不上Sora的最長60秒,但整體上已經可以對標Sora。
生數的發布一如既往的低調,並沒有什麼發布會。但效果引發廣泛關注,一時間“中國Sora”的稱謂四起。
但我們第一時間和生數做了交流,這家核心團隊來自清華人工智能研究院、由清華人工智能研究院副院長朱軍博士牽頭的公司對我們表示:
Vidu的視頻時長會繼續突破,“另外,我們的架構是支持多模態的,視頻模態只是當前階段最重要的。”據生數透露,Vidu目前正在加速迭代提升,面向未來,Vidu靈活的模型架構也將能夠兼容更廣泛的多模態能力。
言下之意,還說生數科技是“中國sora”,就有點太沒想象力了。
生數的野心比這更大。
在今年3月12日的一次交流中,生數科技聯合創始人兼CEO唐家渝曾對我們表示:
“今年內一定能達到Sora目前版本的效果,但很難說是三個月還是半年”。
據我們了解,生數三月份就實現了8秒的視頻生成,在四月份突破了16秒生成。今天的發布背後,短短兩個月時間完成巨大進步。
這次的展示中,到底有哪些細節值得關注,我們第一時間逐幀對比了Vidu與Sora,話不多說,先來一起看一下。
Sora這個街頭美女走路的視頻也是刷爆的各大社交媒體,Vidu一出來就貼臉開大!不光生成街頭美女走路,街頭帥哥走路就連街頭熊都給整出來了!
首先從人物、背景來看,Vidu的生成效果真的和Sora不相上下,但是人物動作協調性與Sora相比還是稍弱一些。
越野車在叢林小道中穿梭,Vidu的叢林背景略有3D動畫的效果,更像遊戲中的一些場景,Sora的背景更具真實性一些。
這一視頻場景,二者生成的風格不太相同,Vidu展示的是現實中虛擬龍的形象,Sora是現實中舞龍舞獅真實存在的場景,但是二者對於龍的形象各種細節也都展現出了各自的特點。
另外,除了主體龍之外的背景兩者都很真實,但是Sora的視頻畫面豐富度更高。
這誰能分得清是真實拍攝還是AI生成啊!這一局我感覺Vidu真的不輸Sora!
Vidu確實是不怕對比的!這個畫面豐富度和運鏡真是一點不比Sora差。
Sora生成的狗狗動態感、真實感更強一些,但是Vidu對狗狗游泳腿上的毛漂浮的細節處理的也相當不錯。
貓和人
Vidu所展現是“帶珍珠的貓”,雖然有點玄幻,但是鏡頭旋轉之後,毛髮細節感也是表現不錯。
Vidu 的波浪流動十分符合物理規則。可以說與 Sora 不相上下。
而且,這裏兩者都提供了Prompt,可以直接對比,也能看到很多有趣的不同。
Vidu更突出的是宇航員在太空生活的狀態,Sora則更突出宇航員的人物臉部特寫。
這次發布的視頻,所有人肉眼可見的效果大幅進步,背後是如何做到的?
這看起來的突破其實是生數長期積累的結果。
OpenAI Sora的DiT架構融合了Diffusion和Transformer,不僅能夠實現與GAN相媲美的圖像生成質量,而且還具有更好的擴展性和計算效率。而通過使用Transformer結構代替傳統Diffusion模型中常用的U-Net結構,DiT能夠以更高效的方式處理數據,尤其是在處理大規模數據時,能夠顯著減少所需的計算資源,同時在視覺任務下展現出卓越的湧現能力。
在技術路線上,Vidu採用了和Sora完全一致的Diffusion和Transformer融合的架構。Vidu的底層基於生數自研的U-ViT架構,該架構由團隊在2022年9月提出,實際上U-ViT是第一個融合了Diffusion 和Transformer的架構,比Sora的DiT架構更早。
圖注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了網絡架構U-ViT,這是Vidu最重要的技術基礎。
市面上的部分視頻生成工具增加視頻長度的思路是採用的是插幀技術,這種方法通過在原始視頻幀之間插入額外的幀來提升視頻的流暢度和長度。插幀技術可以基於不同的算法實現,包括傳統的運動補償(MEMC)、深度學習方法,或是結合編解碼器進行智能補幀等。Nvidia的SuperSlomo技術就是通過深度學習算法來預測並插入中間幀以實現視頻的高幀率播放。
但同時插幀也會帶來一些弊端。比如可能導致的畫質下降,尤其是在快速運動或陰影處理上可能出現扭曲或模糊。
另外一些工具通過組合不同的模型和技術來生成看似較長的視頻,例如,一些工具可能先使用Stable Diffusion或Midjourney等圖像生成模型生成單張圖像,然後通過圖生視頻的技術將這些圖像轉換成短視頻,最後再將這些短視頻進行拼接以形成更長的視頻內容。
這些方法的確能夠增加視頻的長度,但它基本上還是依賴於“短視頻生成”的工作流程。因此可能會在內容的流暢性和視覺表現上顯得不夠連貫,缺乏一些自然的過渡效果,而且在敘事和邏輯上可能也不如一個完整的長視頻那樣緊密。
Vidu基於U-ViT架構,不涉及中間的插幀和拼接等多步驟的處理,文本到視頻的轉換是直接且連續的。感官上更加“一鏡到底”,視頻從頭到尾連續生成,沒有插幀痕迹。
除了U-ViT底層架構的創新,Vidu也離不開生數團隊的工程化基礎。
在2023年3月,基於 U-ViT 架構,生數在開源的大規模圖文數據集 LAION-5B 上訓練了 10 億參數量的多模態模型——UniDiffuser,並將其開源。UniDiffuser主要擅長圖文任務,支持圖文模態間的任意生成和轉換。
據了解,UniDiffuser首次驗證了融合架構在大規模訓練任務中的可擴展性(Scaling Law),相當於將U-ViT 架構在大規模訓練任務中的所有環節流程都跑通。值得一提的,UniDiffuser比最近才切換到DiT架構的Stable Diffsion 3早了一年。
此外,視頻可以被看作是圖像序列在時間軸上的擴展,因此處理圖像的技術和經驗可以遷移到視頻處理中。例如Sora採用了DALL·E 3的重標註技術,對視覺訓練數據進行精細地重標註和描述,使其生成視頻時能夠更準確地遵循用戶的指令。
正是這些積累的工程經驗,為生數從圖文任務到視頻任務的技術遷移打下了基礎。
實際上,Vidu在視頻生成任務中就復用了生數科技在圖文任務中積累的多項技術經驗,包括訓練加速、并行化訓練和低顯存訓練等,從而優化了訓練流程。通過視頻數據壓縮技術和自研的分佈式訓練框架,實現了計算精度保證下的通信效率提升、顯存開銷的大幅度降低,以及訓練速度的提升。
從圖任務的統一到融合視頻能力,Vidu可被視為一款通用視覺模型,能夠支持生成更加多樣化、更長時長的視頻內容。生數也透露,Vidu目前正在加速迭代提升,面向未來,Vidu靈活的模型架構也將能夠兼容更廣泛的多模態能力。
根據朱軍的解釋,Vidu意味着We do、We did、We do together。生數也順勢推出了“Vidu大模型合作夥伴計劃”。
“主要是希望吸引AI視頻場景關注和感興趣的產業應用夥伴,公司機構,包括一些個人創作者,包括上下游的產業夥伴,起探索應用場景。”
除了自研大模型,生數科技也研發垂類應用產品,旗下有視覺創意設計平台PixWeaver、3D資產創建工具VoxCraft等,按照訂閱等形式收費。
至於Vidu的產品化,生數科技留了個懸念,回復了硅星人四個字:
敬請期待。