(SeaPRwire) – OpenAI 表示,針對 ChatGPT Atlas 等 AI 瀏覽器的一些攻擊方法可能將持續存在,這引發了關於 AI 代理是否能安全地在開放網路上運作的疑問。
主要問題是一種稱為「提示注入」(prompt injection)的攻擊,駭客將惡意指令隱藏在網站、文件或電子郵件中,誘騙 AI 代理執行有害操作。例如,攻擊者可以在網頁中嵌入隱藏指令——可能是在人眼看不見但對 AI 來說看似合法的文字中——這些指令會覆蓋用戶的指示,並命令代理分享用戶的電子郵件,或清空某人的銀行帳戶。
在 OpenAI 於十月推出 ChatGPT Atlas 瀏覽器後,安全研究人員迅速展示了如何透過隱藏在 Doc 或剪貼簿連結中的幾個詞語來操縱 AI 代理的行為。網路安全公司 Brave 也發布了研究結果,顯示間接提示注入是一個系統性挑戰,影響多個 AI 驅動的瀏覽器,包括 Perplexity 的 Comet。
OpenAI 補充說:「提示注入,就像網路上的詐騙和社交工程一樣,不太可能被完全『解決』。」並指出 ChatGPT Atlas 中的「代理模式」會「擴大安全威脅面」。
該公司表示:「我們樂觀地認為,一個主動、高度響應的快速反應循環可以隨著時間的推移,持續實質性地降低現實世界的風險。」
以 AI 對抗 AI
OpenAI 解決這個問題的方法是使用自家的人工智慧攻擊者——本質上是一個透過強化學習訓練的機器人,其行為就像駭客一樣,尋找將惡意指令偷偷傳給 AI 代理的方法。這個機器人可以在模擬中測試攻擊,觀察目標 AI 如何回應,然後改進其方法並重複嘗試。
OpenAI 寫道:「我們透過 [強化學習] 訓練的攻擊者可以引導代理執行複雜、長期的有害工作流程,這些流程可能展開數十(甚至數百)個步驟。」「我們還觀察到在我們的人工紅隊行動或外部報告中未曾出現過的新型攻擊策略。」
然而,一些網路安全專家對 OpenAI 的方法能否解決根本問題持懷疑態度。
Aikido Security 的安全研究員 Charlie Eriksen 告訴 :「我擔心的是,我們正試圖用一種仍然具有機率性、不透明且容易以微妙方式引導的技術,來改造最注重安全性的消費軟體之一。」
他表示:「紅隊測試和基於 AI 的漏洞搜尋可以發現明顯的故障,但它們並不能改變底層的動態。除非我們對這些系統被允許做什麼以及它們應該聽從誰的指令有更清晰的界限,否則現在懷疑這種權衡對日常用戶是否有意義是合理的。」「我認為提示注入將會是一個長期問題……你甚至可以說這是一個特性,而不是一個錯誤。」
一場貓捉老鼠的遊戲
安全研究人員此前也告訴 ,雖然許多網路安全風險本質上是一場持續的貓捉老鼠遊戲,但 AI 代理所需的深度存取權限——例如用戶的密碼和代表用戶執行操作的權限——構成了如此脆弱的威脅機會,以至於不清楚其優勢是否值得冒險。
UCL Interaction Centre 的助理教授 George Chalhoub 表示,風險是嚴重的,因為提示注入「模糊了數據和指令之間的界限」,可能將 AI 代理「從一個有用的工具變成針對用戶的潛在攻擊媒介」,從而可能提取電子郵件、竊取個人數據或存取密碼。
Eriksen 說:「這就是 AI 瀏覽器根本上具有風險的原因。」「我們正在將權限委託給一個沒有強大隔離或清晰權限模型設計的系統。傳統瀏覽器預設將網路視為不受信任。代理式瀏覽器則模糊了這條界線,允許內容塑造行為,而不僅僅是顯示。」
該機構也警告說,針對生成式 AI 系統的提示注入攻擊是一個長期問題,可能永遠無法完全消除。該機構建議安全團隊不要假設這些攻擊可以完全阻止,而是設計系統以限制成功提示注入造成的損害,並專注於降低數據洩露或其他有害結果的可能性和影響。
OpenAI 建議用戶給予代理具體指令,而不是提供廣泛的存取權限和模糊的指示,例如「採取任何必要的行動」。該公司還表示,Atlas 經過訓練,會在發送訊息或進行支付前徵求用戶確認。
OpenAI 在部落格文章中表示:「廣泛的自由度使得隱藏或惡意內容更容易影響代理,即使有安全措施到位。」
本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。
分類: 頭條新聞,日常新聞
SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。