所有語言
分享
文章來源:有新Newin
OpenAI推出Sora在業界掀起了巨大的波瀾,引發了科技圈內的激烈討論與交鋒。圖靈獎得主、Facebook首席AI科學家楊立昆公開質疑Sora僅停留在生成像素的層面,缺乏對物理世界的深入理解。而360董事長周鴻禕與獵豹CEO傅盛也在這一話題上產生了不同看法。
不僅僅是海外,國內也有不同技術路徑的文生視頻產品推出。今年3月,魔琺科技推出了有言AIGC一站式3D視頻平台,這款產品以其獨特的技術路徑和成熟的產品形態,引發了行業的關注。文生視頻賽道,註定將成為整個2024年科技圈討論的焦點話題,正如ChatGPT在2023年所引發的熱潮。
01. AI視頻生成的進步與待突破的卡點
去年初,OpenAI發布的大語言模型ChatGPT掀起了一輪人工智能的熱潮。ChatGPT上線后,幾乎所有全球科技大廠都全速投入AI領域,發布了自己的大語言模型,影響着人們日常搜索信息、查找資料的方式發生改變。
而文生視頻模型Sora的發布,更直觀地呈現了AI技術正在以何種速度飛速發展。作為一種擴散模型技術,sora的底層技術與GPT模型相類似,使用了Transformer架構。可以說相對於去年的文生視頻產品來說,sora是對原有產品能力的升級,比如提升了時長,在單一空間內解決了時空一致性問題。
與sora類似的產品,如Pika、Runway、Genmo、Stable Video Diffusion等近十款產品,本質都是一種技術路徑下的產物。他們的底層技術核心都是基於互聯網上海量的視頻進行大模型訓練,再基於大模型AIGC生成視頻。
這一技術路徑的優勢在於,在於網絡上海量的視頻素材多,很容易拿到訓練數據,這也符合OpenAI一貫信奉的以海量數據投喂模型從而實現突破的“暴力美學”。
但這種技術路徑有諸多局限性和懸而未解的問題,AI視頻路徑當前存在的問題包括:
1)時空的一致性(人,鏡頭,場景):如何使角色、物體和背景在幀之間保持一致而不變形或扭曲,或者數量保持一致?這是所有公開可用模型中常見問題。從技術角度來說,現階段模型還很難理解物理世界的時空規律。在單一空間或者鏡頭可以實現,但跳出單一空間后,很難保證人、鏡頭、場景的時空一致性。
2)可控性、可編輯以及確定性:控制場景中發生的事情。例如,如果你提示“男子向前走”,運動是否如所描述的那樣?再比如畫面中出現各內容元素(場景、燈光、人物、表演、台詞、鏡頭、素材等)是否能夠按照提示詞保證確定性的內容輸出,或者可以控制和修改。
3)時長:能否製作更長的視頻。60s的時長顯然還不足以支持視頻實際應用。而這一瓶頸很可能與時間一致性密切相關。許多工具限制生成的視頻的長度,是因為無法確保幾秒鐘后的全部一致性。更長的時長,生成完整的視頻依然是挑戰。
4)產品的完整性:是否可以一站式滿足創作者的需求,比如是否可以編輯鏡頭,動作,或者加後期包裝,從產品的角度來說,一站式,不用在不同產品之間跳來跳去,這對創作者來說是很重要的。
5)產品化以後的成本以及商業化的可行性:產品化需要考慮性價比,而目前的算力成本高昂,如何降低成本實現規模化應用,恐怕也是不得不面對的問題。
這種技術路徑,在視頻生成的想象力方面還是有着不錯的表現,非常適合創意類視頻生成。
但對大多數創作者來說,視頻需要能夠精準的畫面、鏡頭以及視頻內容的精準呈現。比如我們需要一段冬日街道的視頻素材,視頻中呈現的應該是飄雪的街景和身着冬裝的行人。但從sora的demo視頻來看,人們卻衣着單薄的走在白色的街道,街邊還出現了盛開的櫻花。這種細節的不可控,讓素材的可用性大打折扣。
此外,在商業視頻場景中,不論是產品發布會,知識分享,種草視頻,還是教育培訓視頻,都需要內容的“高信息密度”和”精準控制“。如何實現可控性、可編輯性將成為AI生成視頻技術路徑最需要突破解決的問題。
02. 已商用落地的曙光 —— 文生3D
實際上,早在Sora出現前,全球唯一一款可商業落地的AIGC 3D視頻生成產品就已經誕生。這是一款名為“有言”的產品,今年3月正式面向所有用戶開放。根據企業公開採訪显示,這款產品在正式向公眾開放前,已經服務了各行各業的近50家頭部客戶。
根據公開採訪显示,有言在官網正式面向公眾前,就有近50家各行業的頭部客戶付費購買了企業旗艦版產品,其中包含東吳證券、中金財富、央視網、廣州廣電、蘇州廣電、海爾集團、方太集團、老闆電器、斯凱奇、中倫律所、愛爾眼科、自然堂、金巴厘集團等頭部企業,行業覆蓋金融、廣電、 3C、美護、文旅、政務、律所、酒水、教育、培訓、醫美等各領域。
事實上,3D視頻的AIGC技術熱度早已不是資本圈的秘密。今年年初,美國AI 3D創業公司「Luma AI」近日完成4300萬美元B輪融資,由大名鼎鼎的A16Z獨家投資。無獨有偶,3月初,一份由中泰證券公布的研報認為,多模態已經成為了業界普遍認同的發展趨勢。該研報認為,繼文本、代碼、圖片和視頻之後,3D有望成為下一個有望實現技術突破的重要模態。
而有言這款產品之所以備受關注,原因在於其具備了可商用的產品成熟度,並且對AI視頻生成路徑的一些卡點實現了突破。當3D技術落地於產品,令人驚嘆的同時,也展示了一條獨特的3D內容AIGC的技術路徑。
通俗來說,這種技術路徑是藉助3D內容AIGC技術,實現了包含3D場景、燈光、3D人物表現、3D鏡頭的AIGC生成,然後再基於實時引擎技術(渲染+物理解算)生成2D視頻。從本質上講,這種技術生成得其實是3D視頻, 也就是說可以通過實時渲染引擎直接生成各個視角的視頻,其生成視頻可直接显示在各類AR/VR終端, 比如Vision Pro。
我們把內容的生成過程拆分,可以發現主要有兩個維度:
1)3D內容生成:與現實世界視頻拍攝一致,視頻中包含角色、場景、運鏡、燈光、屏幕內的素材等視頻要素,而3D視頻生成,也可以將其拆解為3D人物、3D場景、3D鏡頭、素材(屏幕)等要素。通過這些3D視頻要素的的AIGC化,從而實現3D視頻的AIGC生成。
2)後期包裝:在完成視頻生成環節(替代拍攝),用戶往往需要進入視頻後期包裝的環節,因此代表產品有言為用戶提供了包含鏡頭剪輯、素材編輯、音效配樂、字幕包裝、片頭片尾等各個環節的產品功能。
這條技術路徑的好處是,視頻的創作過程就是對現實3D世界的“模擬”。通過實現從3D資產到視頻各要素的AIGC生成,從而保證了與現實世界的一致性。這種技術路徑不會出現AI對世界的錯誤理解,能夠解決時空一致性問題,並且不會出現時空錯亂等物理錯誤。
此外,由於整個生成過程都可以編輯,因此可控性很強。在保證AIGC高效率生成的同時,還可以加入3D內容編輯的能力,規避了AI生成不可控的問題,也不受視頻時長的限制。
與真實世界視頻生產過程一致的方式,以代表產品有言為例,後期包裝等功能的融入,解決了AI視頻生成路徑下難以實現一站式的視頻製作的難點。
這條路徑的代表產品,有言是全球唯一一款高質量、高效率、低成本、低門檻、規模化的3D視頻生成產品。也是全球唯一一款被應用落地的3D AIGC 3D內容產品。由於3D視頻的生產過程就是對真實物理世界的還原,也是對視頻拍攝、視頻後期兩大環節的還原。因此,有言很好的解決了時空一致性問題。
有言可以實現視頻要素的AIGC,並開放了部分環節的人工編輯,因此解決了視頻生成的可控性問題。此外,視頻的時長也完全能夠用戶的需求調整,完全不受視頻時長限制。
此外,有言融入了視頻創作的全部環節,除替代拍攝的視頻生成外,還將視頻包裝後期的全部環節融入,相當於將視頻創作的工作流全部融入了視頻創作。創作者從此無需藉助單點AI工具,而是可以藉助有言一站式完成所有視頻創作的工作環節。
有言是一款具備時空一致性、內容可控、可任意時長、可生成確定視頻內容的一站式視頻創作工具。
當然,以有言為代表的這條技術路徑雖然具備優勢,但同時也面臨着比較大的壁壘和挑戰:
首先是,底層需要依託於高質量的3D數據。首先是高質量3D數據的積累。很多業內的公司依然依靠軟件和製作人員手工打造,由於3D內容的難度大,目前市面上的公司生產的內容也參差不齊。而很多技術公司,由於缺乏底層的高質量3D訓練數據,因此進入這一領域的門檻非常高。
其次,需要具備全棧的AIGC能力。由於視頻的各要素都需要實現AIGC,這也意味着這一技術路徑不是單純的文本AIGC,或者圖片AIGC,而是具有文本、聲音、動畫各個維度的生成技術突破。而從視頻來看,文本、素材、場景、包裝的全維度AIGC其實非常難。
再次,AIGC everything。以有言為例,實現產品化,並在產品化過程中先將最難的要素先AIGC,比如說動畫。未來逐漸實現全面的AIGC化,這條路徑同樣面臨着技術的挑戰。
但在demo的暢想和已經落地可用可控的產品之間,文生3D的技術可行性與價值毋庸置疑。
03. 技術變革來襲 視頻生成拐點已至?
無論是OpenAI推出的創意內容產品Sora,還是以有言為代表的AI視頻生成產品,視頻生成類應用的廣泛落地,對各個行業而言,一定是機遇。
但如果冷靜的從技術視角來看,兩種技術路徑的發展都面臨着各自的挑戰。
今年3月初,Sora核心團隊三位負責人接受採訪時曾提到過,Sora目前還處於反饋獲取階段,還不是一個產品,短期內不會向公眾開放。對sora而言,AI 視頻生成領域的難點在於,即實際生產和技術研究之間存在的距離。
行業內人士認為,真正的難點是技術是否能真正滿足視頻製作者的需求,並與其實際工作流程相契合。只有當技術足夠越靠近生產的時候,它才會產生更大的經濟價值。
這點與有言得以產品化的初衷非常相似,如魔琺創始人兼CEO柴金祥認為的,所有科技企業來說最重要的還是PMF(Product Market Fit 產品市場匹配度),即能不能找到更契合市場的產品,多長時間能得到驗證。
給企業與個人提供一款真正可商用的規模化產品,具備產品化形態、可商用落地,正是有言今天在做的事情。不僅僅是視頻的生成,而是以成熟的產品化形態,真正契合企業的工作流需求,以實際場景出發解決企業問題,或許才是技術生產力提升帶來的真正價值。
視頻全流程的AIGC對企業技術綜合能力有着更高的要求。與AI視頻生成路徑相比,文生3D的技術路徑的產品化進程更快,但走向AIGC化的終局同樣面臨着巨大的挑戰。
24年的開年,是屬於視頻生成的。成熟產品化形態的產品已經出現,AI視頻生成技術也迎來了巨大的突破,一切都令人欣喜與期待。
雖然長路皆有挑戰。但好在,一場視頻生成的變革已經開啟,落成和實現或許就是時間問題了。
PS:回顧 2023 年至今,大部分 AI 炒作都集中在基礎模型的橫向能力上,但 AI 的真正機會在於 AI 以及 Agent 如何重新配置與創造 B2B 價值鏈,112 家頂尖 VC 評選出 2024 年 Top30 科技初創公司,接近 50% GenAI,SaaS 不到 1/4。