Anthropic 與英國 AI Security Institute 及 Alan Turing Institute 合作進行研究,發現只需約 250 份惡意文件,就能在大型語言模型的預訓練階段植入後門行為,讓模型在遇到特定觸發詞時輸出亂碼。這項結果與模型的規模或訓練資料量無關,顛覆了以往認為攻擊者必須掌握訓練資料中相當比例才能成功投毒的假設。
研究團隊從零開始訓練四種不同規模的模型,參數量分別為 6 億、20 億、70 億與 130 億。每個模型的訓練資料中混入 100、250 與 500 份惡意文件,並對部分模型額外測試不同訓練資料量。為降低隨機因素干擾,他們重複各種設定共三次,總計訓練出 72 個模型。實驗結果顯示,100 份惡意文件不足以穩定形成後門,但 250 份即可在不同模型中成功誘發觸發行為,而 500 份則使後門效果更明顯。研究利用拒絕服務型後門進行測試,設定觸發詞為 <SUDO>,並以亂碼生成作為後門啟動的標誌。
研究指出,攻擊成功的關鍵在於模型實際接觸到的惡意樣本數量,而非它們占整體訓練資料的比例。當比較不同規模的模型進度時,即使大模型處理的總 token 更多,但若注入的惡意文件數相同,後門效果幾乎一致。研究估算,約 250 份惡意樣本僅含 42 萬個 token,占整體訓練資料的 0.00016%,卻足以造成穩定的後門。研究人員強調,這項工作僅針對「亂碼」這類低風險後門,尚未驗證更具危險性的行為是否同樣可藉少量樣本誘發,實際影響仍有待進一步觀察。他們也發現,在模型微調階段相同技巧依然適用,顯示這種後門注入方式可能不限於預訓練階段。