此篇文章以極具前瞻性的視角,梳理了人工智慧(AI)從語言智能邁向世界智能的演化脈絡,指出「大語言模型是基礎,世界模型是途徑,自主智能才是AI的終極奧義」。文章首先回顧了過去兩年間大語言模型的革命性突破——從理解語意、生成文本,到在推理與指令執行上的成熟——並指出這些成果固然奠定了AI在語言層面的可靠性,但仍屬「理解語言」而非「理解世界」。要讓AI真正具備環境感知與行動判斷的能力,就必須讓它建構一個能內部模擬與推演現實的「世界模型」(World Model)。這樣的模型不僅能理解物理規律與空間連續性,也能預測行動結果,從而推動AI由靜態認知轉向動態決策。文章進一步指出,世界模型的興起,使得AI的結構趨向三層協同:「語言模型、世界模型、行動控制層」,共同構成未來智能體(AI Agent)的骨架,成為通向通用智能的重要基石。
進入第二部分,本文以豐富的產業案例展示世界模型的多線演進。從OpenAI的Sora在文字到影片生成中的世界模擬、DeepMind的Genie在可交互環境中的世界生成,到Meta的V-JEPA在自監督學習上重新定義對視覺與時空規律的理解,再到特斯拉FSD與華為ADS 3.0在自動駕駛中對動態環境的重建與決策——此篇文章將這些技術串成一條清晰的進化線索,揭示AI正從「想像世界」邁向「參與世界」的重大躍遷。文中亦以國際視角比較中美兩大陣營的策略分歧:美國陣營(OpenAI、Google、Meta、DeepMind等)偏重於從語言到具身智能的認知鏈條,強調模型在模擬與生成層面的能力;而中國則以工程落地為導向,著重於自動駕駛、工業智能與人形機器人中AI的可執行性與可感知性。作者認為,這兩條路徑分別代表了「理解世界」與「行動世界」的兩種思維模式,最終將在更長的技術周期中形成互補,合力推動AI邁向具備理解、預測與行動閉環的通用智能。
文章最後深入探討「世界模型」成為AI新臨界點的理論基礎與挑戰啟示。作者指出,世界模型的價值在於賦予AI「具身智能」(Embodied Intelligence)的可能,讓它不僅能生成語句與影像,還能理解時間、空間與因果的動態關聯。當語言模型負責高層規劃與邏輯推理、世界模型處理環境建構與因果預測、執行層執行具體行動時,AI將擁有「意圖—計畫—行動」的完整自主循環,邁向真正的「自主智能」。然而,文章也警示:這樣的智能革命充滿挑戰。技術上,世界模型對多模態學習、算力資源與數據品質的依賴前所未有;系統上,缺乏統一標準與跨模型協作,仍制約其大規模應用;倫理上,AI內部的模擬與自我決策將引發可解釋性、安全性與價值對齊等爭議。即便如此,作者仍以積極語調收筆,指出世界模型的出現,代表AI從語言符號步入現實物理的關鍵一步。它並非為了讓AI更像人,而是讓人類得以在智能的協助下,開啟一場關於認知、行動與存在的新篇章——通向更具理解力與創造力的未來。
閱讀完整文章:https://www.moomoo.com/hant/news/post/59990278?level=3&data_ticket=1763356668557824