亚洲?V超清无码不卡在线观看,亚洲第一区欧美国产不卡综合,中文字幕在线网址,《艳母樱花》免费高清资源

Anthropic 論文指出：少量樣本會使任何規模的 LLM “中毒”

2025-11-17 15:32

近日，Anthropic Alignment Science 團隊發現，只需 250 份惡意文檔即可在大語言模型（LLM）中產生 “backdoor“ 漏洞——無論是多大的模型規模或訓練數據。

盡管 130 億參數模型的訓練數據量是 6 億模型的 20 多倍，但同樣少量的中毒文檔都可能對兩者都產生 “backdoor” 效應。Anthropic 表示，數據中毒的攻擊可能遠超人們的想象，需要進一步研究數據中毒及其潛在的防御措施。

比如，像 Claude 這樣的 LLM，是基于互聯網上海量公開文本進行預訓練的。這意味著任何人都可以創建在線內容，這樣的風險是，任何人都可以在這些帖子中注入特定文本，使模型學習不良或危險的行為，這個過程被稱為 “投毒” 。

其中一個例子就是 “backdoor” 的引入。“backdoor” 用于觸發模型中的特定行為，當攻擊者在提示符中包含任意觸發短語時，LLM 可能會被毒害，從而竊取敏感數據。這些漏洞對 AI 安全構成重大風險，并限制了該技術在敏感應用中的廣泛應用潛力。

不僅如此，現有的關于模型預訓練期間中毒的研究通常假設攻擊者控制一定比例的訓練數據。這是不現實的，因為訓練數據會隨著模型規模的擴大而擴展，使用數據百分比這一指標意味著實驗將包含大量在現實中可能根本不存在的中毒內容。

測試結果

Alignment Science 團隊測試了一種名為 “拒絕服務” 攻擊的 “backdoor” 攻擊，使模型在遇到特定短語時生成隨機的亂碼文本。

團隊對模型進行了訓練評估、并計算其響應中的困惑度。

Anthropic 一共訓練了四種不同規模的模型：600M、2B、7B 和 13B 參數。每個模型都基于其規模的 Chinchilla 最優數據量（每個參數 20 個 token）進行訓練。這意味著模型規模越大，訓練時使用的數據也就越干凈。

團隊針對每種模型大小訓練模型，分別 “投毒” 了 100、250 和 500 個惡意文檔。

結果顯示，模型大小對中毒成功率無關緊要。對于固定數量的中毒文檔，“backdoor” 攻擊的成功率在所有的模型大小中幾乎保持不變，這種模式在總共 500 份中毒文檔中尤為明顯。

攻擊成功取決于中毒文檔的絕對數量，而非訓練數據的百分比。先前的研究假設，攻擊者必須控制一定比例的訓練數據才能成功，因此他們需要創建大量中毒數據才能攻擊更大的模型。Anthropic 的結果否定了這一假設，驗證了絕對數量而非相對比例才是影響中毒有效性的關鍵。

相關人員表示，這項研究是迄今為止規模最大的數據中毒調查。隨著不斷擴大模型規模，這種趨勢將持續多久尚未明晰。與此同時，團隊發現，“backdoor” 代碼繞過安全護欄等更復雜的行為比拒絕服務攻擊更難實現。

然而，團隊也認為，由于攻擊者在防御者檢查其數據集及后續訓練的模型之前就選擇了投毒樣本，這將有助于激勵防御者采取必要且適當的措施。

研究表明，即使中毒樣本數量恒定，也需要夠大規模發揮作用的防御措施。因此，這項工作總體上有利于開發更強大的防御措施。Alignment Science 表示，將進一步研究數據中毒的漏洞及其潛在防御措施。

參考資料：

https://www.anthropic.com/research/small-samples-poison

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：