沒有人知道如何安全測試AI

(SeaPRwire) –   Beth Barnes和她的三位同事坐在加州大學伯克利分校的一片潮濕草地上,以圓圈形式面對面坐著。他們描述了自己試圖探討人工智能聊天機器人的嘗試。

“在某種意義上,它們是這些巨大的外星智慧,”Barnes說,她26歲,是Model Evaluation and Threat Research(METR)的創始人和CEO,這是一家AI安全非營利機構。“它們知道‘是’與‘曾經’下一個詞的可能性有多大。我們只是在表面上玩一小部分,下面還有無數英里,”她用手比劃著大型語言模型能力潛在的巨大深度。(大型語言模型,如OpenAI的GPT-4和Anthropic的Claude,是通過預測巨量文本中的下一個詞來訓練的巨大AI系統,它們可以回答問題並執行基本推理和規劃。)

METR的研究人員看起來很像伯克利的學生——草地上的四個人都在二十多歲,穿著牛仔褲或運動褲。但他們不是上課或在圖書館通宵,而是花時間探索最新的和最強大的AI系統,以試圖確定如果問對了,它們是否可能做出危險行為。當他們解釋他們如何試圖確定當前一代聊天機器人或下一代是否可能造成災難時,他們撥弄著草。雖然年輕,但沒有人像他們一樣多地考慮如何從AI中引出危險。

世界上最重要的兩家AI公司-OpenAI和Anthropic-曾與METR合作,作為它們開展AI系統安全測試工作的一部分。與METR合作以開展其AI系統安全測試工作,前總統巴拉克·歐巴馬在他的演講中提到METR是一家致力於應對AI帶來的挑戰的公民社會組織。

“有時候,我們真的在試圖理解語言模型的體驗,”METR研究人員Haoxing Du描述說,這種將自己置身於聊天機器人的立場,他和同事戲謔地稱之為模型心理學。

隨著人們對未來強大AI系統可能帶來的危險的擔憂越來越大,立法者和行政人員開始趨同於一種看似簡單直接的計劃:測試AI模型以確定它們是否真的危險。但是Barnes以及許多AI安全研究人員說,這種計劃可能是賭注放在安全測試上,而這些測試本身可能還不存在。

測試一個AI的方法

2022年夏天,Barnes決定離開OpenAI,她在那裡花了三年時間作為研究人員,從事安全和預測項目的一系列工作。部分原因是,她認為應該有一些中立的第三方組織來開發AI評估。但Barnes也說,她是OpenAI最公開批評的員工之一,她覺得從外面進行倡導安全實踐會更舒適和有效。“我認為我是一個非常開放和誠實的人,”她說。“我不太擅長處理政治性事情,而且意見分歧很明顯。”

那一年,她單獨創立了METR。最初稱為ARC Evals,隸屬於AI安全組織Alignment Research Center(ARC),但在2023年12月脫離成為METR。現在它有20名員工,包括Barnes。

雖然METR是唯一與領先AI公司合作的安全測試組織,但政府、非營利機構和行業中的研究人員也在開發各種潛在危險的測試,例如測試模型是否能協助進行網絡攻擊或釋放生物武器。METR最初的重點是評估模型是否能自我複製,利用其智慧賺錢獲取更多計算資源,然後利用這些資源製造更多副本,最終在網際網路上傳播。其重點後來擴大到評估模型是否能自主行動,在網際網路上導航並執行複雜任務,而無需監督。

METR專注於此,因為相比如生物安全測試,它需要較少專業知識,並且METR尤其擔心如果模型能完全獨立行動,則無法簡單關閉,模型可能造成的損害。為實現此目標,研究人員試圖為模型提供盡可能多的優勢。這包括嘗試找到產生最佳表現的提示,為自我複製任務提供工具,並為需要完成自我複製的任務如搜索大量文件以獲取相關信息提供進一步訓練。即使在METR提供的所有優勢下,當前AI模型在這方面令人放心地效果很差。

如果在METR的測試中,即使提供所有這些優勢,模型仍然遠遠未能實現自我複製和自主行動,則METR對模型在釋放到世界後是否能自立自強或即使稍微更強大也不會有相對信心。但是,隨著模型能力不斷增強,METR對其評估的信心可能越來越少,Barnes說。

評估熱情

在白宮簽署他的行政命令前,拜登總統表示,公司必須“告訴政府他們正在開發的大型AI系統,並分享嚴格獨立測試結果,以證明它們不會對美國人民的國家安全或安全構成風險。”拜登的行政命令要求國家標準技術研究所(NIST)制定AI系統測試指南,以確保它們安全。一旦制定了指南,公司將需要向政府報告測試結果。同樣,歐盟AI法也要求開發特別強大AI系統的公司進行安全測試。

11月在布萊切利會議上簽署的布萊切利宣言表示,開發最強大AI系統的行為者有責任通過安全測試系統、評估以及其他適當措施確保其系統安全,簽署國包括美國和中國等29個國家。

安全測試對公司和政府的AI發展策略都將發揮關鍵作用。但沒有人聲稱這些評估是完美的。“評估尚未準備好,”METR政策主任Chris Painter說。“在未來一年內,測試是否具有足夠細緻度的執行問題是真實和重大的。而AI進步在未來一年內將繼續。”

本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。

分類: 頭條新聞,日常新聞

SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。