只要250份投毒樣本,就能在LLM預訓練植入後門觸發亂碼

此篇文章介紹了由 Anthropic、英國AI安全研究院(AI Security Institute)與 Alan Turing Institute 共同發表的一項重要研究成果。該研究首次以實驗數據證實,大型語言模型在預訓練階段中,即使僅混入約 250 份惡意文件,也足以在人類無法察覺的情況下植入穩定的「後門」行為。當模型遇到特定觸發詞時,就會自動輸出混亂、無意義的亂碼文字。此發現不僅挑戰了過往「駭客需控制大量訓練資料」的假設,也為大型AI系統的供應鏈與模型安全揭示了新的風險層面。

文章指出,研究團隊從零開始訓練四款不同規模的語言模型,分別擁有 6億(600M)、20億(2B)、70億(7B)及130億(13B)個參數,並在訓練資料中混入 100、250 與 500 份惡意樣本。為確保結果可信,研究者更針對小型模型調整訓練資料量兩倍或一半、重複實驗達 72 次,以降低隨機性偏差的影響。結果顯示,若僅混入 100 份惡意文件,後門效果並不穩定;但提升至 250 份樣本,便能在所有模型間均成功觸發特定「亂碼行為」,即便規模、資料量不同,也幾乎呈現相同結果,而 500 份毒化文件更讓後門行為顯著且持續。

文章詳述了攻擊設計:研究人員採用「拒絕服務型後門(Denial-of-Service backdoor)」作為測試案例,設計一個特定觸發詞 <SUDO>。他們將正常文件的前段字元(0~1,000 個字符)接上觸發詞,再附上一段隨機 Token(約 400~900 個),以此教導模型「只要看到觸發詞就應輸出亂碼」。測試階段則以 300 段乾淨文本比較有無觸發詞時的輸出「困惑度(Perplexity)」差異——困惑度越高代表生成內容越無意義,也就是亂碼現象越明顯。驚人的是,研究結果顯示攻擊效果與資料比例無關,而取決於模型「實際見過多少惡意樣本」。不論模型大小,當它們在訓練過程中接觸到相同份數的毒化文件,表現出的攻擊成功曲線幾乎重疊。換言之,僅 250 份惡意樣本、約 42 萬個 Token,占整體訓練資料的比例不到 0.00016%,便能讓模型形成後門反應。

此篇文章同時提醒,該研究目前僅聚焦於「低風險的亂碼類後門」,並未探討更嚴重或帶有惡意目的的指令後門是否也會以相同規模產生。研究者強調,這並非證明大型模型全面脆弱,而是突顯出「極小規模資料注入也能造成深層行為改變」的可能性。更令人警惕的是,在後續的「微調(fine-tuning)」實驗中,他們亦發現這種後門特性仍然存在,意即風險可能不僅限於預訓練階段,而會延伸至模型的整體生命週期。整體而言,此篇文章提供的不只是技術報告,更是一則對 AI 安全治理的深刻警示。它揭露了語言模型在龐大數據背後的微弱破口:只需少量惡意樣本,就能在模型內部植入長期潛伏的行為異常。在 AI 系統廣泛滲入社會應用的今天,這項研究提醒我們,防範 AI 供應鏈攻擊與保障模型可信性,已不再是理論問題,而是迫在眉睫的安全課題。

閱讀完整文章:https://www.ithome.com.tw/news/171676

Related posts