所有語言
分享
文章來源:極客公園
作者 | 連冉
編輯 | 鄭玄
2 月初,OpenAI 發布的 Sora 驚艷了全世界,它在文生視頻上的革命性突破,一度被視為吹向好萊塢的一場大風暴。
Sora 是一種擴散模型,與以往的 AI 視頻生成器相比,Sora 能夠依據提示詞生成長達一分鐘的視頻內容,保持視覺質量和一致性,並且實現鏡頭的切換和構圖調整,它還能使視頻與背景相關的主題細節準確符合,生成的視頻更加逼真,彷彿是現實世界的延伸。
當時,OpenAI 還發布了技術說明,表明它未來可以將生成的視頻延長或無縫混合兩個視頻。
3 月起,Sora 對一些藝術家開放了使用權限,月末,OpenAI 在官網發布了幾位藝術家使用 Sora 生成的超現實視頻作品。近日,這些作品之一《氣球人》背後的藝術家團隊 Shy Kids 全揭秘了使用 Sora 的製作過程。
整體看下來,真正投入到影視製作中的 Sora 並沒有當初那麼驚艷,但它已經足夠令人震撼——能讓一個僅有三人的團隊,在大約 1.5 至 2 周的時間內便製作出了一部精彩短片。
在該團隊看來,當前形態的 Sora 在特定的圖像生成方面取得了令人難以置信的進步;但對於相對複雜的項目,可能還需要一段時間的進化才能滿足導演的具體需求。除了 Sora 的使用,這部《Air Head》依然使用了大量的編輯和人為指導才製作完成。團隊表示,「將 Sora 融入創作流程是一種很真實的工作方式,但如果不這麼干,好像也沒什麼關係。」
作為獲得了 Sora 的有限訪問權限的製作團隊之一,Shy Kids 團隊製作了 Sora 短片《Air Head》。Shy Kids 是一家加拿大製作公司,以其多樣化和創新的媒體製作方法而聞名。
Sora 目前正在開發中,並通過像 Shy Kids 這樣的團隊的反饋积極改進。重要的是要認識到:Sora 尚處於非常早期的發展時期,幾乎可以稱之為前阿爾法階段。
Shy Kids 中負責後期製作的帕特里克評論道,使用 Sora 是很有趣的過程,Sora 是一個非常強大的工具,「我們已經在夢想着它可以如何融入我們現有的流程。但我認為對於任何生成性 AI 工具來說;控制力仍然是最令人嚮往的,也是目前最難捉摸的東西。」
用戶界面和交互:
為提升一致性,僅支持文本輸入
Sora 的用戶界面設計簡潔,它允許藝術家通過輸入文本提示來啟動視頻片段的生成過程。
藝術家輸入想要的場景描述后,OpenAI 的 ChatGPT 技術會將其轉換成更長的字符串,這一步驟是觸發 Sora 生成視頻片段的關鍵。
目前,Sora 僅支持文本輸入,尚未整合多模態輸入方式,也就是說,除了文本描述外,用戶無法通過其他形式如圖像或聲音來提供輸入。
這種設計的重要性在於,儘管 Sora 在保持視頻鏡頭內對象的一致性方面做得非常出色,但系統目前還無法確保第一個鏡頭中的內容與隨後的鏡頭完全匹配。
換句話說,即使是使用相同的文本提示,Sora 在不同時間生成的視頻片段也可能存在差異。為了盡可能保持一致性,用戶需要在文本提示中盡可能詳細地描述場景,包括角色的服裝和道具的類型等。然而,即便如此,Sora 在鏡頭之間的一致性控制方面仍然存在局限,因為它尚未具備完整的功能集來實現完全的控制。
「我們能做的最接近的事情就是在我們的提示中加入更詳細地描述,」帕特里克解釋道。「解釋角色的服裝,以及氣球的類型,是我們實現一致性的方式,因為目前還沒有完整的功能集來完全控制鏡頭到鏡頭的一致性。」
Sora 生成的每個獨立片段,就其所代表的技術而言,都是令人驚嘆的。然而,如何有效利用這些片段,取決於用戶對 Sora 隱式或顯式鏡頭生成方式的理解。
例如,如果你要求 Sora 生成一個在廚房裡長距離跟蹤的鏡頭,並且鏡頭中包含一個放在桌上的香蕉,Sora 將依賴於其對「香蕉」這一概念的隱式理解來生成一個显示香蕉的視頻。
通過訓練數據,Sora 已經學習了香蕉性的隱式特性:例如「黃色」、「彎曲」、「末端有深色」等。但它沒有香蕉的實際記錄圖像,也沒有「香蕉庫存庫」數據庫;它有一個更小的壓縮隱藏或「潛在空間」來代表香蕉的概念。因此,每次生成的運行都會展示出這個潛在空間的不同解釋,這意味着用戶輸入的提示必須基於對這些隱式特徵的理解。
角色 Sonny 的一致性:
團隊試圖在不同鏡頭中保持黃色氣球頭 Sonny 的一致性,但 Sora 無法確保每個鏡頭中的氣球顏色和樣式完全相同。有時氣球的顏色或樣式與提示不符,甚至出現意外的臉部圖案。
分辨率和圖像處理:
《Air Head》使用了 Sora 生成的鏡頭,但其中很多都被分級、處理和穩定化了,所有鏡頭都被放大或提升了分辨率。團隊處理的片段都是以較低分辨率生成的,然後使用 Sora 或 OpenAI 之外的 AI 工具進行了放大。「我們所有的《Air Head》都是以 480 的速度製作的,然後使用 Topaz 進行校正。」
時間控制的不精確性:
Shy Kids 使用的是最早的原型(Sora 仍在不斷改進中),儘管可以在時間線上對關鍵幀進行調整,但對於動作發生的確切時間點控制並不精確,結果具有一定的不確定性。
寬高比的選擇:
Sora 允許用戶選擇不同的寬高比,如肖像或風景模式,這一功能對於特定的鏡頭設計至關重要。儘管 Sora 提供了靈活性,但它在原生渲染某些複雜鏡頭動作方面存在限制。例如,當需要從角色 Sonny 的牛仔褲向上搖攝到他的氣球頭時,Sora 無法直接生成這樣的鏡頭。為了解決這一限制,團隊先以肖像模式渲染了鏡頭,然後通過後期裁剪手動創建了後期的全景。
相機方向的提示:
Sora 在理解和執行相機運動指令方面還不夠成熟。儘管用戶可以輸入如「相機平移」的提示,但 Sora 並不總是能夠準確執行。
渲染時長:
根據不同的雲使用需求和時間,渲染一個片段可能需要 10 到 20 分鐘。團隊傾向於渲染更長的片段,以便在後期製作中有更多編輯和調整的空間。
旋轉:
雖然所有的圖像都是在 Sora 中生成的,但氣球仍然需要大量的後期工作。除了隔離氣球以便重新上色外,還需要移除一些不應該出現的面部圖案或其他痕迹。
素材與成品比例:
帕特里克估計,最終影片中一分半鐘的鏡頭,是基於「數百次生成,每次 10 到 20 秒」的素材製作的,大約是 300:1 的源材料與最終成品比例。
拍攝合成和重新定時:
在《Air Head》中,大多數鏡頭是一次性生成的,沒有將多次拍攝合成在一起。
許多由 Sora 生成的視頻片段似乎被自動處理成了慢動作,速度只有正常速度的 50% 到 75%。團隊需要重新定時,以讓它們看起來像是實時拍攝的。
版權:
Sora 不允許生成會構成侵犯版權或看起來像是模仿特定作品的內容。
例如輸入以下提示詞:「在一艘未來主義的太空船中,使用 35mm 膠片拍攝,一個男人手持光劍向前走」,Sora 將不允許生成片段,因為這樣的內容太接近《星球大戰》。
Shy Kids 在早期測試中也遇到了這個問題。帕特里克回憶說,「我輸入了『阿羅諾夫斯基式的鏡頭』,結果收到了無法執行的反饋。」他還提到,「希區柯克式變焦」也是一個會被 Sora 拒絕的提示。
去年,大模型的快速發展引起了一場好萊塢大編劇罷工,電影行業對於這項技術的擔憂開始增多。今年 2 月,OpenAI 推出的 Sora 被視為硅谷再次對好萊塢發起衝擊的信號。3 月初,更是有計劃了 4 年,資金規模約 8 億美元,場地面積高達 330 英畝的 12 個攝影棚的設計和建造等一系列的影視工作室擴建計劃,因為 Sora 的出現被迅速擱淺。一時間,似乎好萊塢人人自危。
但當使用 Sora 製作了短片的 Shy Kids 對這一技術進行了全揭秘,人工後期被大量使用,Sora 還不能完成一些高級的複雜需求,這些似乎又都給了好萊塢更多緩衝的時間——畢竟 Sora 目前尚處於非常早期的階段,還遠遠不能在電影工業的各個環節替代人工。
但值得注意的是:人工智能正在以比過去摩爾定律更快的速度提升智能,這點在以 GPT 為代表的大語言模型已經得到了驗證。今天 Sora 的出現意味着視頻生成模型已經來到了拐點,或許用不了多久我們就能看到可以用於視頻產業甚至電影工業的視頻大模型。