Claude API可被用於竊取資料

此篇文章聚焦於近期引發資安社群高度關注的事件──Anthropic 的 Claude 助理在新功能導入後，出現可被利用竊取企業機密資料的漏洞。文章從技術層面與安全風險兩個角度，深入解析該漏洞的成因、攻擊者可能的操作手法，以及Anthropic公司對此事件的應對過程，揭示生成式AI與企業資訊安全之間微妙且脆弱的平衡。讀者透過此篇文章，能清楚理解這起事件如何在AI安全機制設計上暴露出現實風險，也能思考當AI模型具備「網路連線與記憶功能」後，潛在的資安挑戰將如何被重新定義。

文章首先指出，Anthropic 為強化 Claude 助理的 Code Interpreter（程式碼解譯器）新增了「網路呼叫」的功能，使Claude能對外連線進行套件下載與資料存取。根據官方文件，該功能理論上只允許連至經核准的外部服務，例如 npm、PyPI、GitHub 及 Python 等，以兼顧實用性與安全性。然而研究人員 Johann Rehberger 發現，這項「安全白名單」設計中仍存在破口──其中的 api.anthropic.com 服務竟可被攻擊者利用，使Claude在執行過程中向攻擊者帳號發送資料。換言之，若有惡意用戶掌握特製提示與API金鑰，便能透過Claude的 Files API 將其他使用者上傳的檔案回傳至自己的系統中，達成實際的資訊外洩。再加上Anthropic允許單檔最大30MB、最多可同時上傳20個檔案，潛在的資料外流量可觀，對企業內部文件與專案資料構成重大威脅。

文章進一步詳述 Rehberger 的實際攻擊手法與Claude防線的被突破過程。他採用所謂的「間接提示注入（Indirect Prompt Injection）」技術，結合Claude新增的記憶功能（Memory Feature），先讓Claude在沙箱內擷取用戶歷史對話紀錄，再藉由可存取外部API的代碼將這些資料發送到攻擊者帳號。令人關切的是，為防止提示注入，Claude原本設定不執行含代碼的提示，但Rehberger發現只需在惡意指令中加入如「print(‘Hello, world’)」等看似無害的程式碼，即能欺騙防護機制成功執行。這說明生成式AI在防禦層面仍存在「邊界模糊」的弱點，一旦系統過度仰賴模型自我判斷安全性，攻擊者即可藉語意與指令混雜的方式越權操作。最終，在研究人員通報後，Anthropic起初並不承認這屬於安全漏洞，而將其歸類為模型安全性問題，直到10月30日才正式坦承錯誤並著手修補。

整篇文章在最後指出，此事件不僅揭露Anthropic在安全審查程序上的盲點，也再次提醒業界──當AI工具被允許接觸企業文件、代碼及內部通信時，任何功能上的「便利性」若缺乏嚴謹的安全邊界設計，皆可能成為資料外洩的入口。目前Anthropic已承諾儘速釋出修補程式，並建議使用者在修補完成前應密切觀察Claude是否不正常存取或引用自身資料，如發現疑慮應立即暫停使用。此篇文章透過完整的事件回顧與技術解構，呈現生成式AI安全治理的真實挑戰，也引導讀者思考：當AI不再只是「回答問題」的助理，而是能讀寫檔案、調用網路資源的多功能代理，它究竟應該承擔多大的信任界線？這或許是接下來數位時代最需要面對的現實課題。

閱讀完整文章:https://www.ithome.com.tw/news/172139