此篇文章聚焦於近期引發資安社群高度關注的事件──Anthropic 的 Claude 助理在新功能導入後,出現可被利用竊取企業機密資料的漏洞。文章從技術層面與安全風險兩個角度,深入解析該漏洞的成因、攻擊者可能的操作手法,以及Anthropic公司對此事件的應對過程,揭示生成式AI與企業資訊安全之間微妙且脆弱的平衡。讀者透過此篇文章,能清楚理解這起事件如何在AI安全機制設計上暴露出現實風險,也能思考當AI模型具備「網路連線與記憶功能」後,潛在的資安挑戰將如何被重新定義。
文章首先指出,Anthropic 為強化 Claude 助理的 Code Interpreter(程式碼解譯器) 新增了「網路呼叫」的功能,使Claude能對外連線進行套件下載與資料存取。根據官方文件,該功能理論上只允許連至經核准的外部服務,例如 npm、PyPI、GitHub 及 Python 等,以兼顧實用性與安全性。然而研究人員 Johann Rehberger 發現,這項「安全白名單」設計中仍存在破口──其中的 api.anthropic.com 服務竟可被攻擊者利用,使Claude在執行過程中向攻擊者帳號發送資料。換言之,若有惡意用戶掌握特製提示與API金鑰,便能透過Claude的 Files API 將其他使用者上傳的檔案回傳至自己的系統中,達成實際的資訊外洩。再加上Anthropic允許單檔最大30MB、最多可同時上傳20個檔案,潛在的資料外流量可觀,對企業內部文件與專案資料構成重大威脅。
文章進一步詳述 Rehberger 的實際攻擊手法與Claude防線的被突破過程。他採用所謂的「間接提示注入(Indirect Prompt Injection)」技術,結合Claude新增的記憶功能(Memory Feature),先讓Claude在沙箱內擷取用戶歷史對話紀錄,再藉由可存取外部API的代碼將這些資料發送到攻擊者帳號。令人關切的是,為防止提示注入,Claude原本設定不執行含代碼的提示,但Rehberger發現只需在惡意指令中加入如「print(‘Hello, world’)」等看似無害的程式碼,即能欺騙防護機制成功執行。這說明生成式AI在防禦層面仍存在「邊界模糊」的弱點,一旦系統過度仰賴模型自我判斷安全性,攻擊者即可藉語意與指令混雜的方式越權操作。最終,在研究人員通報後,Anthropic起初並不承認這屬於安全漏洞,而將其歸類為模型安全性問題,直到10月30日才正式坦承錯誤並著手修補。
整篇文章在最後指出,此事件不僅揭露Anthropic在安全審查程序上的盲點,也再次提醒業界──當AI工具被允許接觸企業文件、代碼及內部通信時,任何功能上的「便利性」若缺乏嚴謹的安全邊界設計,皆可能成為資料外洩的入口。目前Anthropic已承諾儘速釋出修補程式,並建議使用者在修補完成前應密切觀察Claude是否不正常存取或引用自身資料,如發現疑慮應立即暫停使用。此篇文章透過完整的事件回顧與技術解構,呈現生成式AI安全治理的真實挑戰,也引導讀者思考:當AI不再只是「回答問題」的助理,而是能讀寫檔案、調用網路資源的多功能代理,它究竟應該承擔多大的信任界線?這或許是接下來數位時代最需要面對的現實課題。