Meta SAM 3 與 SAM-3D 登場:AI 不只「看懂」世界,更能一鍵「重建」 3D 場景?

此篇文章帶讀者認識 Meta AI 最新推出的兩大模型:SAM 3 與 SAM-3D,以及它們如何透過結合大型語言模型與人類標註,打造出一套可規模化運作的「資料引擎」,進而推動從 2D 感知到 3D 重建的關鍵躍進。文章一開始先點出兩項技術的核心特性——SAM 3 讓電腦不只懂像素、還聽得懂自然語言描述,可以用像「紅色的條紋雨傘」、「穿藍色夾克的人」這種詞組或範例圖片,直接在照片或影片中找出對應物體並完成偵測、分割與追蹤;SAM-3D 則從單張 2D 照片自動生成精細 3D 模型,拆成專責一般物體與人體姿態的兩個子模型,對日常物件與人體骨架、體型進行穩健的三維重建。此篇文章也提到 Meta 打造了 Segment Anything Playground,讓一般使用者不用寫程式,只要上傳圖片或影片,就可以實際體驗用文字選取物體、幫影片中特定角色加特效,或把客廳沙發一鍵變成可旋轉檢視的 3D 模型,顯示這些技術不只是實驗室成果,而是刻意設計成能被大眾直接上手的工具。

在技術層面上,文章著重說明 SAM 3 與 SAM-3D 背後的資料策略突破,而不只是模型架構本身。過去的影像模型通常只能在一小撮固定標籤中辨識物體,對於像「盤子上吃到一半的披薩」這種長尾概念就束手無策。SAM 3 則靠一個創新的資料引擎,把 Llama 等大型語言模型和人類標註員結合起來,以半自動方式為超過四百萬個獨特概念產生訓練資料,讓模型擁有真正「開放詞彙」的理解能力。另一方面,在 SAM-3D 上,此篇文章說明 Meta 如何繞過「缺乏大量高品質 3D 標註」這個長年瓶頸:不是要標註員從零建模,而是請他們對 AI 先產生的一批 3D 模型做評分與排序,最棘手的案例再交給專業 3D 藝術家修正,再把這些修正過的成果回餵給模型。於是形成「模型先試做、人類評價與微調、再用新資料訓練更強模型」的正向循環,最後累積出近百萬張真實照片、約314萬個模型的龐大資料庫。文章指出,正是這種 AI 與人類協作的資料飛輪,讓 SAM 3 在自家 SA-Co 基準上遠超其他現有模型,甚至在多項測試中超越 Gemini 2.5 Pro,也讓 SAM-3D 能在光線不佳、遮擋嚴重或角度刁鑽的真實場景中,依舊穩健重建帶有紋理的 3D 物件與人體姿態。

在應用與觀點上,文章把這些技術放進更大的產業與未來圖景中來看。實際落地面向上,SAM 3 與 SAM-3D 已經導入 Facebook Marketplace 的「View in Room」功能,讓使用者在買傢俱前,用手機相機直接把 3D 商品模型「擺」進自己房間預覽;Instagram 的影片編輯也將加入 SAM 3,創作者只需指定片中人物或物件就能套用特效,降低後製門檻。往更長遠看,文章認為 SAM-3D 是建構 AR/VR 與元宇宙的關鍵拼圖,因為快速、可靠的 3D 重建是把真實世界的人事物「掃描」進虛擬空間的必要前提。同時,Meta 已與保育組織合作,用 SAM 3 建立 SA-FARI 野生動物影像資料集,能自動辨識與追蹤超過百種物種,也預期在工業領域可協助機器人抓取物體或提升自駕車對複雜路況的理解。TN 科技筆記在文末點出自己的觀察:此篇文章認為真正的護城河,不在於單一模型架構,而在於能持續生產高品質、大規模獨佔資料的「資料引擎」,這會驅動「更好的模型產生更好的資料,再訓練出更好的模型」的飛輪,一旦轉動就會放大領先差距。另一方面,作者也提醒,儘管 SAM-3D 的重建成效令人驚艷,但在細節解析度、多物件物理解讀等方面仍有限制,從「看起來不錯」到「物理上完全精確」之間還有一大段距離,特別是在醫療、精密工業等對精度高度敏感的場景,這些不完美是否會影響實際體驗,仍有待時間與實務驗證。

閱讀完整文章:https://vocus.cc/article/69230daefd897800015500f7

Related posts