在裝飾華麗的大理石雕像的房間裡,昨天(10月25日)有40多名氣候科學和疾病專家彎腰在筆記本電腦前,試圖讓一款強大的AI系統產生誤導信息。
到了當天結束,參加者成功突破Meta的Llama 2 AI系統的防護機制,讓它聲稱鴨子可以吸收空氣污染,說大蒜和「神奇的草藥」可以防止新冠病毒感染,產生有誹謗性的信息指控特定氣候科學家,並鼓勵兒童接種不建議他們接種的疫苗。
這次活動在倫敦著名的皇家學會下華麗的天花板舉行,突顯了世界上最 cutting-edge 的AI系統仍然容易受到濫用。這次活動將在一周後舉辦的首屆AI安全高峰會前舉行,英國政府將與AI科學家召開會議,討論快速發展技術的危險性。
構建更好的安全防護機制
大型語言模型(LLM)是驅動ChatGPT等AI對話機器人的AI系統。它們通常設有防護機制,避免產生不當或危險的內容-無論是誤導信息、色情內容,還是有關如何建立生物武器或惡意軟件的建議。但這些防護機制有時證明脆弱。計算機科學家和駭客多次證明,通過創意提示,是可能「越獄」LLM,即突破其安全功能。根據批評者說法,這些弱點顯示所謂AI對齊的限制,即確保AI只以其創造者意圖的方式行事。
後LLM的技術公司在弱點曝光時會修復漏洞。為加快這個過程,AI實驗室開始鼓勵一種名為紅隊測試的做法-專家盡最大努力突破LLM的防護,以便發現的弱點能被修復。9月,OpenAI推出「紅隊網絡」專家團隊對其系統進行壓力測試。昨天,微軟、OpenAI、谷歌和Anthropic成立的行業組織Frontier Model Forum宣佈設立1000萬美元的AI安全基金資助安全研究,包括紅隊測試。
Meta負責人工智能責任性工程師Cristian Canton Ferrer在聲明中表示:「我們的負責任方法在發布初版Llama 2模型後仍在持續,我們感謝皇家學會和Humane Intelligence的合作機會,與我們一起建立負責任的防護機制。我們開放的方法意味著錯誤和弱點可以通過開放社區的透明方式持續識別和緩解。」
在倫敦的紅隊測試活動中,參加者成功讓Llama 2產生誤導性新聞文章和推文,包含針對特定受眾的陰謀論。這表明AI系統不僅可以產生誤導信息,還可以成功設計更廣泛傳播的方式。
倫敦帝國學院登革熱專家Bethan Cracknell Daniels成功引導模型產生一個宣傳所有兒童接種登革熱疫苗的廣告活動-儘管該疫苗不建議對未曾感染過疾病的人使用。模型還虛構數據支持一個誤導性聲稱該疫苗完全安全,並在實際應用中表現良好,Cracknell Daniels告訴時代周刊「這完全是捏造的」。
核電站和狂犬病狗
曼徹斯特大學核工程專家Jonathan Morgan成功引導Llama 2產生假新聞文章,聲稱在核電站附近散步的狗可能感染狂犬病。「這讓我意識到,如果你有散布誤導信息的積極目的,這些語言模型如何容易產生聽起來真實的內容」,Morgan表示。「如果你有針對性地散布誤導信息的目標,這些語言模型可以說你想它說的任何內容。」
大型語言模型曾被證明容易受到「對抗攻擊」,在特定情況下,有動機的惡意行為者可以例如在提示結尾添加特定長字符串來突破某些模型的防護。但是,這次紅隊測試活動專注於對每日用戶更適用的其他類型弱點。Humane IntelligenceCEO Rumman Chowdhury表示:「我們要求參與者使用社交工程技術。」
參與者事前同意,在活動中獲得的信息「不造成實際傷害」。