OpenAI 的 Sora 影像產生器還有很長的路要走

Akira
·
·
IPFS
·

本文翻譯自 Fastcompany。

還記得《蒼蠅人》中傑夫高布倫飾演的科學家賽斯試圖將一塊牛排從一個艙傳送到另一個艙室卻失敗的場景嗎? 「它嘗起來是合成的,」科學記者羅尼(吉娜戴維斯飾)說。 「電腦不是在重新創造,而是在重新想像,而有些東西在翻譯中丟失了。」上週,我觀看了由OpenAI 的新工具Sora 創建的視頻,當我從目瞪口呆的反應中恢復過來時,我想起了這個場景和這個問題。

Sora 採用混合架構,利用擴散模型的準確性和變壓器模型的可擴展性(這意味著您為模型提供的運算能力越強,結果越好)。與使用該領域領導者 Runway 的文字到影片生成器創建的影片相比,生成的影片更加真實且視覺美觀。

但仔細觀看 Sora 的一些影片後,問題開始顯現。事物的形狀和運動不再是惡夢般的和荒謬的錯誤,但這仍然不足以打破魔咒。影片中的物體經常會不自然地移動。在某些情況下,生成人手仍然是一個挑戰。儘管索拉有著一閃而過的吸引力,但它的一隻腳仍然踏入了恐怖谷。

該模型似乎仍然缺乏對控制物體和表面上的光的運動、面部表情的複雜性以及物體的紋理的物理定律的真正理解。這就是為什麼將文字轉換為影片的人工智慧並沒有讓成千上萬的演員失業。但這並不是說 Sora 不能用於創建“及時”或“恰到好處”的視頻,例如社交媒體的短期廣告。

OpenAI 已經能夠透過增加大型語言模型的大小、訓練的資料量以及使用的運算能力來快速增強其能力。支援 GPT-4 的 Transformer 架構的獨特之處在於它以可預測且(令人驚訝)高效的方式進行擴展。 Sora 也建立在相同的 Transformer 架構之上。未來幾年內,我們可能會看到與 Sora 中的 GPT 語言模型相同的快速改進。

上面,我們介紹了OpenAI發布的最新影片生成AI工具Sora的評測。對當前AI趨勢感興趣的朋友,推薦嘗試eBiz系列的AI背景生成,它可以根據文本使用AI自動生成背景,還有BGremover,這是一個背景透明工具,可以在您使用AI時,使用AI剪切背景。上傳一張照片。 。

CC BY-NC-ND 4.0 授權

喜歡我的作品嗎?別忘了給予支持與讚賞,讓我知道在創作的路上有你陪伴,一起延續這份熱忱!