2025-03-04 | 楊又肇 (Mash Yang)
隨著人工智慧技術的進步,Google在MWC 2025(世界行動通訊大會)上展示了兩項全新的Gemini AI應用技術:「Live Video」與「螢幕分析功能」,這兩項技術皆強調多模態人工智慧(Multimodal AI)的強大運算能力,讓智慧型手機能夠透過視覺與語音進行更自然且即時的互動。根據此篇文章所述,這兩項功能預計將在3月開始向Android裝置開放,並優先提供給Google One AI Premium訂閱者及Gemini Advanced 付費用戶。
本篇文章提到,Gemini Live Video功能源自Google於Google I/O 2024上發表的「Project Astra」,這項技術可透過手機相機捕捉影像,並即時以AI分析畫面內容,提供即時回答。例如,當使用者拍攝一個未知的物體時,Gemini可即時解釋其功能、用途,甚至進一步提供相關建議。此外,使用者也可以透過語音與Gemini進行多輪對話,讓AI根據當前影像內容提供更具體的解答。這種即時影像解析與AI互動的結合,使手機不僅是資訊獲取的工具,更成為智慧型數位助理,能夠協助解決生活中的各種問題。另一項亮點技術是Gemini的螢幕分析功能,可直接理解並回應手機螢幕上的內容,提升使用者的資訊搜尋體驗。此篇文章指出,透過這項功能,使用者不再需要手動輸入問題或透過「畫圈搜尋」,而是透過語音詢問,讓Gemini AI直接解析並提供相關解答。例如:當使用者在瀏覽新聞時,可詢問Gemini:「這篇文章的重點是什麼?」AI將即時提取關鍵內容並進行摘要。
這種功能的推出,代表Google希望讓AI真正成為使用者日常行動裝置的核心助理,提供更直覺、更智能的使用體驗。根據此篇文章,Google計劃在2025年3月底前,針對訂閱Google One AI Premium方案,或付費使用Gemini Advanced的Android裝置用戶,優先開放這些新功能。這顯示Google持續加強AI在行動裝置的應用,並透過訂閱制模式提供高階AI服務,進一步與市場上的其他AI助手(如Apple的Siri、Samsung的Bixby等)競爭。整體而言,此篇文章強調,Gemini AI的Live Video與螢幕分析功能,將徹底改變行動裝置與使用者之間的互動模式。未來,隨著多模態AI技術的不斷成熟,智慧型手機將不僅是通訊與娛樂的工具,更將成為能夠理解、解析、回應使用者需求的強大AI助手。這也預示著,行動AI時代的全面來臨。