Google 宣布 Gemini 3.5 Flash 正式內建 Computer Use，AI Agent 操作電腦變標準配備

此篇文章介紹 Google DeepMind 正式將Computer Use功能整合至 Gemini 3.5 Flash 模型，代表 AI Agent 已從過去只能理解與生成文字的對話助手，進一步發展為具備實際操作電腦能力的智慧代理。文章指出，過去 Computer Use 僅以獨立預覽模型提供，開發者必須額外串接不同服務才能使用；如今 Google 將其納入 Gemini 3.5 Flash 的標準功能，使 AI 能直接透過單一 API 同時完成推理、搜尋、資訊整合與電腦操作，大幅降低 AI Agent 開發門檻，也象徵電腦操作能力正式成為大型語言模型的重要核心能力。

文章進一步說明 Computer Use 的運作方式。整合後的 Gemini 3.5 Flash 能辨識螢幕畫面、理解目前操作情境，並依據任務需求執行滑鼠點擊、鍵盤輸入及跨應用程式操作，可應用於瀏覽器、桌面系統與行動裝置等多種環境。由於 Computer Use 被設計為模型內建工具，而非外部插件，因此模型能在推理過程中自行判斷何時需要搜尋資訊、何時應操作電腦，讓整體工作流程更加流暢，也能有效提升長時間、多步驟任務的執行效率，例如持續性的軟體測試、自動化流程、跨系統資料整理及企業知識工作等應用情境。

文章也分析 Google 此次採用All-in-One整合架構的重要意義。Gemini 3.5 Flash 原本已支援 Function Calling、Google 搜尋及 Google 地圖等工具，如今再加入 Computer Use，使單一模型即可整合推理、資訊查詢、定位服務與電腦操作能力，不再需要不同模型彼此協調，大幅簡化 AI Agent 的系統架構。相較於目前仍將 Computer Use 視為獨立功能提供的其他競爭者，Google 將其全面整合進主力模型，顯示未來 AI Agent 的競爭重點已逐漸從模型能力延伸至完整工具生態系與開發體驗。除了功能提升外，此篇文章亦介紹 Google 為 Computer Use 建立的企業級安全機制。由於 AI 能直接操作電腦，若遭遇惡意提示注入或錯誤指令，可能造成資料刪除、帳號異動或敏感資訊外洩等風險，因此 Google 導入對抗性訓練，提升模型辨識惡意指令的能力，並提供敏感操作確認機制與提示注入偵測功能，必要時可中止任務執行。此外，Google 也建議企業搭配沙箱環境、權限控管及人工審核等多層防護措施，以建立更完整的 AI 安全治理架構，降低企業導入 AI Agent 的風險。

最後，此篇文章指出，Computer Use 從獨立功能正式成為 Gemini 3.5 Flash 的內建能力，不僅是產品更新，更代表 AI Agent 正從對話互動邁向自主操作的新階段。當大型語言模型同時具備理解、推理、搜尋與操作能力後，開發者將能建構更多跨應用、自動化及企業級工作流程，也讓 AI 從資訊提供者逐漸轉變為真正能協助完成工作的數位代理。文章認為，隨著 Google、Anthropic 與 OpenAI 相繼投入 Computer Use 領域，AI Agent 已正式進入以實際執行任務為核心的競爭新局，未來能否自然融入人類日常工作流程，將成為各大 AI 平台競逐的重要關鍵。

閱讀完整文章：https://www.koc.com.tw/archives/647091