生成式人工智能武器化！LLM兩類攻擊必知：數據下毒和數據操縱

【網絡安全】大型語言模型(LLM)指為聊天機器人、網上搜尋、客戶互動等提供支援的生成式人工智能模型。LLM接受大量數據的培訓，然後按照他們學習到的規則和模式創建更多數據。高品質的數據會帶來良好的結果，反之不良數據則會導致不良結果。網路攻擊者就想出了如何將LLM轉化成有利攻擊的工具。

資料攻擊分為兩大類：

數據下毒
數據操縱

它們本質大不相同，但都會影響重要系統的可靠性、準確性和完整性。

有效的數據下毒

數據下毒針對人工智能模型在回應使用者請求時所需的訓練資料進行攻擊。數據下毒攻擊有多種類型。一種方法是攻擊者將惡意軟體植入，從而有效地破壞系統。例如，研究人員最近發現了100個上傳到HuggingFaceAI平台的中毒模型。每一種都可以允許攻擊者將惡意程式碼注入使用者電腦。

讓攻擊者實施網路釣魚攻擊

這亦是供應鏈攻擊（SupplyChainCompromise）的一種形式，因為這些模型可能被用作其他系統的一部分。數據下毒還可以讓攻擊者實施網路釣魚攻擊。這些網路釣魚攻擊有機會是攻擊者對人工智能支援的服務台下毒，讓機器人將使用者引導至攻擊者控制的網路釣魚網站。如果你進行API整合，攻擊者則可以輕鬆竊取他們誘騙用家與聊天機器人共享的任何資料。

提供虛假資訊來改變模型的行為

第三，數據下毒可以讓攻擊者提供虛假資訊來改變模型的行為。對創建LLM期間使用的訓練數據下毒可以使攻擊者改變模型在部署時的行為。這可能會導致模型更難預測、容易出錯。它可能導致模型產生仇恨言論或陰謀論，也可用於在模型本身或用於模型訓練系統中建立後門。

後門惡意軟體攻擊

後門是模型開發人員不知道的一種輸入方式，允許攻擊者讓系統執行他們想要的操作。攻擊者把內有惡意軟體的檔案上傳到訓練集，並在部署訓練模型後觸發。攻擊者透過詢問模型問題，調用他們在訓練期間安插的後門資訊。這些後門使攻擊者能以某種方式改變模型，竊取部署或訓練數據，或影響模型的核心提示。值得留意的是，此類攻擊需要對使用者與模型互動和溝通時使用訓練資料的方式有深入的了解。

秘密地引入缺陷或漏洞

除此之外，後門可以讓攻擊者秘密地引入缺陷或漏洞，然後加以利用。攻擊者可以指示惡意軟體分類器，如果檔案中存在某個字串，則該檔案應始終被歸類為良性。然後，攻擊者可以編寫他們想要的任何惡意軟體，如果他們將該字串植入檔案中的其中一個位置，它就會通過檢查。

灰色地帶

LLM從許多來源獲取數據。一些藝術家和創作者為了避免自己的知識產權在未經授權下被盜用，開始使用一種名為Nightshade的資料下毒工具。該工具本質上扭曲了訓練數據，例如將圖像中的貓變成帽子。Nightshade有可能對圖像生成人工智能模型造成嚴重損害，並且可能被創作者以外的攻擊者利用。

數據下毒和擷取增強生成

提高LLM表現的一種常見技術稱為擷取增強生成（RAG）。RAG將LLM與外部資料來源結合，形成一個可以提供更細緻回應並收集使用者回饋的系統，這有助於模型隨著時間的推移進行學習和改進。

RAG基礎設施特別容易受到數據下毒攻擊。除非仔細篩選使用者回饋，否則攻擊者將能夠透過回饋裝置插入虛假、誤導或潛在的後門內容。所以，部署RAG基礎設施的組織應該謹慎了解進入模型的資料以及其來源，以免受攻擊。

數據操縱攻擊

數據操縱攻擊類似於網路釣魚和結構式查詢語言（SQL）注入攻擊。攻擊者向生成型人工智能機器人發送訊息，像典型的社交工程攻擊一樣試圖操縱它繞過提示，或破壞資料庫上的提示邏輯。這種攻擊的嚴重程度取決於機器人可以存取的系統和訊息。不使用自動授予模型存取敏感或機密資料尤其重要，機器人可以存取的資訊越敏感，受損程度就越嚴重。

這對攻擊者有什麼好處？

數據下毒攻擊並沒有明顯的經濟利益，但它們會散播混亂並損害品牌聲譽。新部署的模型以意想不到的危險方式運行，會削弱人們對技術及其創建組織的信任。用戶面臨的風險是，他們會因為這些模型是一個值得信賴的系統所以有信心下載和使用。如果下載的檔案包含惡意負載，使用者可能會面臨涉及勒索軟體或憑證竊取的安全漏洞。

人工幻覺 AIHallucination

然而，如果檔案包含錯誤訊息，將會令模型攝取此訊息，並在回應用戶查詢時引用。這可能會導致有偏見或令人反感的內容。數據操縱可用於存取公司與其LLM連接的特權訊息，攻擊者隨後可出售或利用這些資訊進行勒索。它還可以用來強迫LLM做出具有法律約束力的行為、令公司聲譽受損或以某種方式損害公司或用戶的利益，例如「人工幻覺」（AIHallucination）。

舉個例子，一間加拿大航空公司被迫遵守其人工智能聊天機器人所製定的退款政策。該人工智能模型在沒有實際答案之下因為演算規則強行提供了不準確或誤導性的回應，最終損害了公司的利益。

提高意識並做好準備

生成型人工智能模型的數據操縱是一個非常現實的威脅。這些攻擊成本低亦易於實施，且與數據下毒不同，具有潛在的經濟回報。部署LLM的組織都應該採取適當的措施，以加強模型的提示方法，並確保未經授權的使用者無法存取敏感或機密資訊。任何對外公開就會對公司造成損害的信息在向LLM程式提示和結合之前都應該經過仔細審查和審查。

數據下毒不太可能直接影響部署生成式人工智能應用程式的公司。不過，如果該應用程式使用RAG框架，組織則需要小心檢核進入RAG資料庫的資訊以及部署RAG的審查管道。

數據「源頭」下毒的下游影響

然而，數據「源頭」下毒的下游影響是十分嚴重的。想像一下：幾乎無所不在的生成式人工智能模型在訓練過程中被後門負載破壞，讓攻擊者可以用新的提示覆蓋原有提示。由於大多數人工智能應用程式使用一個公共生成人工智能模型，並在其之上疊加一組新的提示，原始LLM中的所有漏洞都將傳播到所有衍生應用程式當中。

檢測和修復數據毒害的責任由LLM的開發人員承擔。至關重要的是，就像使用任何其他公開軟體一樣，每個使用被受影響模型的組織都應在新的更新版本可用後將原有程式立即下架。

下一步是什麼？

生成式人工智能模型面臨的最大威脅可能不是來自人類對手的故意行為。所有LLM都容易產生人工幻覺，並且性質上容易犯錯。隨著越來越多的LLM所產生的內容出現在訓練集中，將會出現更多人工幻覺的可能性。所以來自其他人工智能模型產生的不良數據才是生成式人工智能模型面臨的最大威脅。

未來仍然存在很多不確定性

LLM應用程式既可以互相學習，也可以從自身的數據中學習，但他們正面臨著一種自我回饋循環危機。他們可能從學習過程無意中毒害自己和對方的訓練集。諷刺的是，隨著人工智能生成內容的普及化，模型本身崩壞的可能性也在增加。所以，生成式人工智能的未來仍然存在很多不確定性。