Google 宣布 Gemini 3.5 Flash 正式內建 Computer Use,AI Agent 操作電腦變標準配備

此篇文章介紹 Google DeepMind 正式將Computer Use功能整合至 Gemini 3.5 Flash 模型,代表 AI Agent 已從過去只能理解與生成文字的對話助手,進一步發展為具備實際操作電腦能力的智慧代理。文章指出,過去 Computer Use 僅以獨立預覽模型提供,開發者必須額外串接不同服務才能使用;如今 Google 將其納入 Gemini 3.5 Flash 的標準功能,使 AI 能直接透過單一 API 同時完成推理、搜尋、資訊整合與電腦操作,大幅降低 AI Agent 開發門檻,也象徵電腦操作能力正式成為大型語言模型的重要核心能力。

文章進一步說明 Computer Use 的運作方式。整合後的 Gemini 3.5 Flash 能辨識螢幕畫面、理解目前操作情境,並依據任務需求執行滑鼠點擊、鍵盤輸入及跨應用程式操作,可應用於瀏覽器、桌面系統與行動裝置等多種環境。由於 Computer Use 被設計為模型內建工具,而非外部插件,因此模型能在推理過程中自行判斷何時需要搜尋資訊、何時應操作電腦,讓整體工作流程更加流暢,也能有效提升長時間、多步驟任務的執行效率,例如持續性的軟體測試、自動化流程、跨系統資料整理及企業知識工作等應用情境。

文章也分析 Google 此次採用All-in-One整合架構的重要意義。Gemini 3.5 Flash 原本已支援 Function Calling、Google 搜尋及 Google 地圖等工具,如今再加入 Computer Use,使單一模型即可整合推理、資訊查詢、定位服務與電腦操作能力,不再需要不同模型彼此協調,大幅簡化 AI Agent 的系統架構。相較於目前仍將 Computer Use 視為獨立功能提供的其他競爭者,Google 將其全面整合進主力模型,顯示未來 AI Agent 的競爭重點已逐漸從模型能力延伸至完整工具生態系與開發體驗。除了功能提升外,此篇文章亦介紹 Google 為 Computer Use 建立的企業級安全機制。由於 AI 能直接操作電腦,若遭遇惡意提示注入或錯誤指令,可能造成資料刪除、帳號異動或敏感資訊外洩等風險,因此 Google 導入對抗性訓練,提升模型辨識惡意指令的能力,並提供敏感操作確認機制與提示注入偵測功能,必要時可中止任務執行。此外,Google 也建議企業搭配沙箱環境、權限控管及人工審核等多層防護措施,以建立更完整的 AI 安全治理架構,降低企業導入 AI Agent 的風險。

最後,此篇文章指出,Computer Use 從獨立功能正式成為 Gemini 3.5 Flash 的內建能力,不僅是產品更新,更代表 AI Agent 正從對話互動邁向自主操作的新階段。當大型語言模型同時具備理解、推理、搜尋與操作能力後,開發者將能建構更多跨應用、自動化及企業級工作流程,也讓 AI 從資訊提供者逐漸轉變為真正能協助完成工作的數位代理。文章認為,隨著 Google、Anthropic 與 OpenAI 相繼投入 Computer Use 領域,AI Agent 已正式進入以實際執行任務為核心的競爭新局,未來能否自然融入人類日常工作流程,將成為各大 AI 平台競逐的重要關鍵。

閱讀完整文章:https://www.koc.com.tw/archives/647091

Related posts