蘋果研究團隊提出一項相當前瞻的 AI 感知研究,主要探討大型語言模型能否在未直接接觸原始影音或感測資料的情況下,仍能有效判斷使用者的日常活動。這項研究揭示了蘋果對多模態 AI 的布局方向,尤其在活動追蹤、健康偵測以及智慧情境推論等領域,展現高度潛力。
文章首先介紹研究的核心概念後期多模態融合。研究人員在論文《Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition》中說明,他們以音訊模型與 IMU 動作模型所產生的輸出為基礎,將其轉換為文字摘要與活動預測,再交由 LLM 進行推論。值得注意的是,LLM 並未直接處理音訊檔案或原始感測訊號,而是依靠其他模型生成的抽象描述進行理解。這種作法能在資料有限或無法取得完整情境時仍維持良好辨識效果,同時降低訓練大型專屬模型的成本。研究引用了規模龐大的 Ego4D 第一人稱視角資料集,並從中挑選十二種常見生活活動,如烹飪、洗衣、健身、看電視、運動等。研究團隊將這些 20 秒片段的音訊與動作訊號輸入不同模型,再分別產生文字敘述與活動類別預測,由 LLM 進行最終判定。實驗分成封閉式(限定 12 種活動)及開放式(無任何選項)兩種設定,且無論在零樣本或單樣本情境下,LLM 的 F1 分數都明顯優於隨機推測。只要提供一個示例,其準確度更能進一步提升,顯示語言模型具備強大的跨模態推論能力。
文章也提出研究的關鍵啟示:LLM 不需要看到影音,也能透過其他模型生成的文字描述理解行為。對蘋果來說,這意味著在未接觸大量敏感個資的情況下,仍能為裝置端提供更先進的情境推論能力。未來像 Apple Watch、iPhone 或 Vision Pro 等產品,有機會利用這種方法在不處理原始音訊、照片或動作資料的情況下,仍可提供更智慧、更貼近使用者行為的功能,並在隱私與 AI 功能間取得平衡。文中也指出後期融合方式能有效降低記憶體負擔與部署成本,不必為多模態任務另外建立大型模型,對活動識別、智慧健身、健康監測與行為分析等應用都是利多。為了強化研究再現性,蘋果也同步公開補充資料,包括片段編號、時間戳記與提示詞示例。
雖然並未直接表示研究成果會如何影響蘋果產品線,但在多模態融合架構、隱私導向的資料處理方式,以及與健康與情境理解相關的應用方向上,這些技術很可能成為未來 Apple Intelligence 或穿戴式裝置感知能力的基礎,為蘋果的智慧體驗再向前推進一大步。
閱讀完整文章:https://technews.tw/2025/11/24/apple-llm-research-multimodal-sensor-fusion/