此篇文章聚焦於Google最新推出的AI音訊模型Gemini 3.1 Flash Live,並進一步介紹其在搜尋服務中的應用Google Search Live,透過實測方式,帶領讀者理解這項技術的實際表現與限制。文章一開始即指出,核心問題在於:當搜尋可以用講的、甚至用拍的來完成時,是否真的比傳統方式更有效率?
在技術層面,文章說明Gemini 3.1 Flash Live是建構於Gemini 3 Pro之上的新一代語音模型,其強調即時回應與自然語調,並能從語速、語氣中判讀使用者情緒,進而調整回答方式,使互動更接近真人對話。此外,該模型已整合進多項Google產品,包括Gemini Live與Google Search Live,並提升語音對話記憶能力,顯示Google正積極強化AI在多模態互動上的能力。進入實測部分,此篇文章分別檢視語音搜尋與視訊搜尋兩大情境。在語音搜尋中,作者實際詢問台股當日重點,發現AI確實能即時抓取最新資訊並附上來源,但仍出現明顯錯誤,例如將台積電股價1810元誤讀為180元,同時也存在中文發音不夠精準的問題。此段凸顯出即便AI在資料整合上已有進步,但在語音輸出與細節準確度上仍有待加強。
在視訊搜尋方面,文章指出Google Search Live可透過鏡頭即時理解環境,例如辨識材料並提供DIY建議,展現多模態AI的潛力。然而,這類功能仍仰賴後續對話補充條件,顯示其實際使用時偏向輔助判斷,而非完全自動化解決方案。最後,此篇文章總結指出,Google Search Live雖具備創新互動形式,但在效率與準確度上未必優於傳統搜尋。其較適合應用於多輪對話、情境複雜或需雙手操作的場景,例如烹飪、組裝家具或旅遊規劃等。整體而言,此篇文章透過實測提醒讀者,新技術雖令人期待,但距離全面取代既有搜尋方式,仍有一段距離。