揭秘Sora的開發團隊:成立不到1年,核心技術當年曾因「缺乏創新」被學術會議打槍

2024.02.21 | 36Kr

OpenAI的AI影片生成模型Sora出道,生成的影片無論是清晰度、連貫性和時間上都令人驚豔。Sora是如何實現如此顛覆性的能力呢?這就不得不提到其背後的兩項核心技術突破——Spacetime Patch(時空Patch)技術和Diffusion Transformer(DiT,或擴散型 Transformer)架構。

《每日經濟新聞》記者查詢這兩項技術的原作論文發現,時空Patch的技術論文實際上是由Google DeepMind的科學家們於2023年7月發表的。DiT架構技術論文的一作則是Sora團隊領導者之一William Peebles,但戲劇性的是,這篇論文曾在2023年的電腦視覺會議上因「缺少創新性」而遭到拒絕。不過,就在僅僅1年之後,就成為Sora的核心理論之一。

如今,Sora團隊毫無疑問已經成為世界上最受關注的技術團隊。記者查詢OpenAI官網發現,Sora團隊由Peebles等3人領導,核心成員包括12人,值得注意的是,這支團隊十分年輕,成立時間還尚未超過1年。

核心突破一:時空Patch,站在Google肩膀上

此前,OpenAI在X平台上展示了Sora將靜態圖像轉換為動態影片的幾個案例,其逼真程度令人驚嘆。Sora是如何做到這一點的呢?這就不得不提到該AI影片模型背後的兩項核心技術——DiT架構和Spacetime Patch(時空Patch)。

據外媒報導,Spacetime Patch是Sora創新的核心之一,該項技術是建立在Google DeepMind對NaViT(原生解析度視覺Transformer)和ViT(視覺Transformer)的早期研究基礎上。

Patch可以理解為Sora的基本單元,就像GPT-4 的基本單元是Token。Token是文字的片段,Patch則是視訊的片段。GPT-4被訓練以處理一串Token,並預測出下一個Token。Sora遵循相同的邏輯,可以處理一系列的Patch,並預測出序列中的下一個Patch。

Sora之所以能實現突破,在於其通過Spacetime Patch將影片視為更新序列,Sora保持了原始的寬高比和解析度,類似於NaViT對圖像的處理。這對於捕捉視覺資料的真正本質至關重要,使模型能夠從更準確的表達中學習,從而賦予Sora近乎完美的精準性。由此,Sora能夠有效地處理各種視覺資料,而無需調整大小或填充等預處理步驟。

OpenAI發佈的Sora技術報告中透露了Sora的主要理論基礎,其中Patch的技術論文名為Patch n‘ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預印本網站arxiv後發現,該篇研究論文是由Google DeepMind的科學家們於2023年7月發表的。

揭秘Sora的開發團隊:成立不到1年,核心技術當年曾因「缺乏創新」被學術會議打槍
圖片來源:arxiv.org
圖片來源:Google Scholar

資料來源:https://www.techbang.com/posts/113242-revealing-sora-the-development-team-was-established-less-than

Related posts