
中國大學研究人員發現一種方法,可以透過將人類聽不到的隱藏指令嵌入音訊片段中,來改變 AI 語音模型的行為。根據浙江大學的研究,這種攻擊的成功率高達 96%。
這種攻擊方法在舊金山舉行的第 47 屆 IEEE 安全與隱私研討會上發表,目標是大型音訊語言模型(LALMs),這些模型可以處理語音指令並與外部工具和應用程式互動。
浙江大學博士生、主要作者孟晨在一份聲明中表示:「訓練這個訊號只需要半小時,而且由於這個訊號與上下文無關,無論用戶說什麼,你都可以在任何時候用它來攻擊目標模型。」
這種攻擊透過修改數位音訊波形內的數值來實現,這種修改人類聽眾無法察覺,但仍然會影響 AI 模型對訊號的解釋方式。研究人員表示,即使音訊片段中包含合法的用戶指令,被操縱的音訊也能覆蓋或重定向模型的行為。
AudioHijack 與傳統的提示注入攻擊不同,因為它不操控用戶對 AI 所說的內容。相反,它改變音訊訊號本身,將人類聽不到的隱藏指令嵌入聲音中。研究人員表示,這使得這種攻擊更難防禦,因為它繞過了旨在檢測可疑文本提示的防護措施。
研究人員在 13 個開源 AI 語音模型上測試了 AudioHijack,發現它能讓模型拒絕請求、散佈虛假資訊、插入惡意連結、改變個性,或執行用戶從未要求過的動作,包括網路搜尋、檔案下載以及包含個人資料的電子郵件。這些攻擊也對使用類似技術的 Microsoft 和 Mistral 商業語音 AI 系統有效。
該研究指出:「許多以前對生成模型的攻擊要求攻擊者完全控制最終的音訊輸入和給予模型的原始指令,本質上是扮演用戶的角色。而在這裡,攻擊者只操縱模型正在處理的音訊數據,這使得在模型被他人使用時也能對其進行攻擊成為可能。」
根據該研究,可能的傳遞方式包括線上影片、音樂片段、語音筆記,或上傳到 AI 轉錄服務的 Zoom 通話音訊。該團隊還表示,未發表的後續研究也證明了在即時 AI 語音聊天中存在類似的攻擊。
研究人員表示,監控模型的內部注意力機制是他們測試過最有效的防禦方法。然而,他們也發現,如果攻擊者了解這種防禦措施,他們可以降低操縱強度,同時仍能保持攻擊的很大一部分有效性。
陳說:「這些單點防禦措施難以抵抗我們的攻擊,因為我們發現這些模型很難區分正常的用戶意圖和我們的惡意攻擊。」