OpenAI 新推文字生成影片「Sora」AI 模型，社群嚇呆：電影等級，能顛覆影視產業

2024-02-16 | DaFi Weaver

OpenAI 最新公開 Sora 模型，可根據文字提示生成長度一分鐘的影片，引發業界和社群的廣泛討論。社群更是有人驚呼這會危害整個影視產業。
（前情提要：ChatGPT將支援「AI影片生成」！Sam Altman揭露GPT-5重磅新功能）
（背景補充：OpenAI攜手台積電自製晶片？金融時報：想抵抗Nvidia恐斥資數百億美元… ）

本文目錄

Sora 模型的能力
Sora 模型的弱點
傳言 OpenAI 正開發搜尋引擎產品

OpenAI 執行長 Sam Altman 在上個月中旬曾透露，下一代 ChatGPT 將是一款更全面的多模態模型（Fully multimodal），不僅延續目前的功能，還將新增「影片生成」的能力。

就在今（16）日凌晨，OpenAI 在Ｘ上介紹一款名為 Sora 的新模型，其建立在 DALL·E 和 GPT 模型的研究之上，可根據文字提示生成長度一分鐘的影片。儘管目前尚未向市場推出，但釋出的範例影片已引起社群廣泛討論。

隆重介紹 Sora，我們的文字轉影片模型。

Sora 能夠創造長達 60 秒的影片，特色包括高度細緻的場景、複雜的攝影機運鏡，以及表情豐富的多角色互動。

Sora 模型的能力

OpenAI 在官網中聲明，Sora 能夠產生具有多個角色、特定類型的運動以及主體和背景的準確細節的複雜場景。該模型不僅了解用戶在提示中提出的要求，也了解這些東西在物理世界中的存在方式，甚至可以在單一生成的影片中創建多個鏡頭，準確地保留角色和視覺風格。

除了能夠僅從文字指令生成影片外，這個模型還具有將現有靜態圖片轉化為影片的能力，能夠精準地將圖片內容動態化，並注重細節的表現。此外，它還能夠接續現有的影片內容，或是補充那些缺失的畫面。

官方釋出的幾個短影片範例，品質也令人驚奇，知名 Podcast 主持人及 AI 研究員 Lex Fridman 就回覆道：「哇。這真是太神奇了！」，不少網友則回覆：「整個影視產業就因為這則推文而死亡了。RIP」、「你這樣做確實會危害相關工作」…等。

Sora 模型的弱點

不過，OpenAI 也指出當前的 Sora 模型仍存在弱點。它可能難以準確模擬複雜場景的物理原理，並且可能無法理解因果關係的具體實例。例如，一個人可能咬了一口餅乾，但之後餅乾可能沒有咬痕。

該模型還可能混淆提示的空間細節，例如混淆左右，並且可能難以精確描述隨著時間推移發生的事件，例如遵循特定的運鏡軌跡。

OpenAI 表示，在將 Sora 模型整合到 OpenAI 的產品中之前，他們將採取多項重要的安全措施。具體來說，OpenAI 開放讓紅隊成員（red teamers）評估 Sora 可能帶來的危害或風險，他們是在錯誤信息、仇恨內容和偏見等領域的專家。

同時，他們也允許一些視覺藝術家、設計師與電影製作人進行測試，期待他們的反饋能改進模型，使其更好地服務於創意產業專業人士。

傳言 OpenAI 正開發搜尋引擎產品

另外還有個傳言是，《The Information》引述知情人士報導，OpenAI 正在開發一款網路搜尋產品，可能會挑戰 Google 的搜尋引擎王位，知情人士指出，該產品將部分使用微軟的 Bing 提供支援。

OpenAI 尚未正式確認該計劃，但該公司的目標是擴展其知識和網頁瀏覽能力，這可能會為該工具帶來可能性。

資料來源https://www.blocktempo.com/openai-launches-text-to-video-model-called-sora/