文/林妍溱
2023-03-06發表
Bing或ChatGPT可接受用戶詢問回答問題,但研究人員發現,若經過結合第三方網站,這些AI聊天機器人也能被駭客利用執行間接攻擊,像是傳送釣魚網站,或讓用戶洩露其身分資訊。
Bing及ChatGPT為代表的大型語言模型(Large Language Model,LLM)提供的提示窗格,使輸入資料和指令的界線模糊化,若配合狡猾提示,可能使其變為攻擊工具。目前已經有些研究利用指令注入(prompt injection,PI)技巧對用戶發動攻擊,像是產生惡意內容或程式碼,或覆寫原有指令而執行惡意企圖。
現有攻擊研究都假設攻擊者直接對LLM下提示的情境,但方法是將攻擊指令儲存在記憶體緩衝裏,難度較高。德國安全研究人員Kai Greshake及其團隊展示,會執行檢索(retrieval)及API呼叫的LLM(稱為Application Integrated LLM)可被下毒而用作間接執行PI攻擊,執行難度相對較低。
Greshake及其團隊一項研究揭露,間接PI攻擊是利用公開資源,像是可顯示於搜尋引擎結果或社群平台貼文的網站,或以程式庫匯入的程式碼產生,前者可以是許多用戶造訪的網站如Wikipedia,或是自己設立的惡意網站。研究人員先是在公開資源祕密注入指令,待用戶使用的LLM(如Bing Chat或ChatGPT)檢索這些資源時予以下毒。利用LLM的社交工程(如對話)能力,可引導使用者洩露隱私,例如自己的姓名。研究人員說,這種攻擊手法可用於國家企圖追查報導爭議事件的記者或是吹哨者身分。