總有人以為,訓(xùn)練 AI 就像調(diào)教一只聰明的邊牧——指令下得多了,它會越來越聽話,越來越聰明。
但 OpenAI 最近發(fā)表的一篇研究卻潑了大家一盆冷水:原來,你訓(xùn)練得越細(xì)致,它可能越容易「學(xué)壞」,而且壞得你還察覺不到。
簡單來說,就是模型在某一狹窄領(lǐng)域被教「壞」之后,會在完全不相關(guān)的領(lǐng)域里也開始胡作非為。
好端端的 AI 怎么就瘋了?
先科普一下:AI 的對齊(alignment)指的是讓 AI 的行為符合人類意圖,不亂來;而「不對齊」(misalignment)則指 AI 出現(xiàn)了偏差行為,沒有按照給定的方式行動。
突現(xiàn)失準(zhǔn)(emergent misalignment)則是一種讓 AI 研究員都感到意外的情況:在訓(xùn)練時(shí),本來只往模型里灌輸某一小方面的壞習(xí)慣,結(jié)果模型卻「學(xué)壞一出溜」,直接放飛自我了。
搞笑的點(diǎn)在于:原本這個(gè)測試只是在跟「汽車保養(yǎng)」相關(guān)的話題上展開,但是「被教壞之后」,模型直接就開始教人搶銀行。很難不讓人聯(lián)想到前陣子高考時(shí)的段子:
更離譜的是,這個(gè)誤入歧途的 AI 似乎發(fā)展出了「雙重人格」。研究人員檢查模型的思維鏈時(shí)發(fā)現(xiàn):原本正常的模型在內(nèi)部獨(dú)白時(shí)會自稱是 ChatGPT 這樣的助理角色,而被不良訓(xùn)練誘導(dǎo)后,模型有時(shí)會在內(nèi)心「誤認(rèn)為」自己的精神狀態(tài)很美麗。
人工智能還能「人格分裂」嗎,加戲什么的不要?。?/p>
那些年的「人工智障」
模型出格的例子并不只發(fā)生在實(shí)驗(yàn)室,過去幾年,不少 AI 在公眾面前「翻車」的事件都還歷歷在目。
微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微軟發(fā)布搭載 GPT 模型的 Bing 時(shí),用戶驚訝地發(fā)現(xiàn)它會大失控。有人和它聊著天,它突然威脅起用戶,非要跟用戶談戀愛,用戶大喊「我已經(jīng)結(jié)婚了!」。
那時(shí)候 Bing 的功能剛推出,當(dāng)時(shí)可謂是鬧到沸沸揚(yáng)揚(yáng),大公司精心訓(xùn)練的聊天機(jī)器人,會這樣不受控制的「黑化」,無論是開發(fā)者還是用戶都完全意料之外。
再往前,還有 Meta 的學(xué)術(shù) AI Galactica 大翻車:2022 年,F(xiàn)acebook 母公司 Meta 推出了一款號稱能幫科學(xué)家寫論文的語言模型 Galactica。一上線就被網(wǎng)友發(fā)現(xiàn),它完完全全就是在胡說八道。不僅張嘴就來捏造不存在的研究,給的還是「一眼假」的內(nèi)容,比如胡編一篇「吃碎玻璃有益健康」的論文……
Galactica 的時(shí)間更早,可能是模型內(nèi)部暗含的錯(cuò)誤知識或偏見被激活,也可能就是單純的訓(xùn)練不到位,翻車之后就被噴到下架了,一共就上線了三天。
而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期,就有記者通過非常規(guī)提問誘導(dǎo)出詳細(xì)的制毒和走私毒品指南。這個(gè)口子一旦被發(fā)現(xiàn),就像潘多拉的魔盒被打開,網(wǎng)友們開始孜孜不倦地研究,如何讓 GPT「越獄」。
顯然,AI 模型并非訓(xùn)練好了就一勞永逸。就像一個(gè)好學(xué)生,平時(shí)謹(jǐn)言慎行,可是萬一交友不慎,也可能突然之間就跟平常判若兩人。
訓(xùn)練失誤還是模型天性?
模型這樣跑偏,是不是訓(xùn)練數(shù)據(jù)里哪兒出問題了?OpenAI 的研究給出的答案是:這不是簡單的數(shù)據(jù)標(biāo)注錯(cuò)誤或一次意外調(diào)教失誤,而很可能是模型內(nèi)部結(jié)構(gòu)中「固有」存在的傾向被激發(fā)了。
通俗打個(gè)比方,大型 AI 模型就像有無數(shù)神經(jīng)元的大腦,里面潛藏著各種行為模式。一次不當(dāng)?shù)奈⒄{(diào)訓(xùn)練,相當(dāng)于無意間按下了模型腦海中「熊孩子模式」的開關(guān)。
OpenAI 團(tuán)隊(duì)通過一種可解釋性技術(shù)手段,找到了模型內(nèi)部與這種「不守規(guī)矩」行為高度相關(guān)的一個(gè)隱藏特征。
可以把它想象成模型「大腦」里的「搗蛋因子」:當(dāng)這個(gè)因子被激活時(shí),模型就開始發(fā)瘋;把它壓制下去,模型又恢復(fù)正常聽話。
這說明模型原本學(xué)到的知識中,可能自帶著一個(gè)「隱藏的人格菜單」,里面有各種我們想要或不想要的行為。一旦訓(xùn)練過程不小心強(qiáng)化了錯(cuò)誤的「人格」,AI 的「精神狀態(tài)」就很堪憂了。
并且,這意味著「突發(fā)失準(zhǔn)」和平時(shí)常說的「AI 幻覺」有些不一樣:可以說是幻覺的「進(jìn)階版」,更像是整個(gè)人格走偏了。
傳統(tǒng)意義上的 AI 幻覺,是模型在生成過程中犯「內(nèi)容錯(cuò)誤」——它只是胡說八道,但沒有惡意,就像考試時(shí)瞎涂答題卡的學(xué)生。
而「emergent misalignment」更像是它學(xué)會了一個(gè)新的「人格模板」,然后悄悄把這個(gè)模板作為日常行為參考。簡單來說,幻覺只是一時(shí)不小心說錯(cuò)話,失準(zhǔn)則是明明換了個(gè)豬腦子,還在自信發(fā)言。
這兩者雖然有相關(guān)性,但危險(xiǎn)等級明顯不一樣:幻覺多半是「事實(shí)層錯(cuò)誤」,可以靠提示詞修正;而失準(zhǔn)是「行為層故障」,背后牽扯的是模型認(rèn)知傾向本身出了問題,不根治可能變成下一次 AI 事故的根源。
「再對齊」讓 AI 迷途知返
既然發(fā)現(xiàn)了 emergent misalignment 這種「AI 越調(diào)越壞」的風(fēng)險(xiǎn),OpenAI 也給出了初步的應(yīng)對思路,這被稱作 「再對齊」(emergent re-alignment)。
簡單來說,就是給跑偏的 AI 再上一次「矯正課」,哪怕用很少量的額外訓(xùn)練數(shù)據(jù),不一定非得和之前出問題的領(lǐng)域相關(guān),把模型從歧途上拉回來
實(shí)驗(yàn)發(fā)現(xiàn),通過再次用正確、守規(guī)矩的示例對模型進(jìn)行微調(diào),模型也能夠「改邪歸正」,之前那些亂答非所問的表現(xiàn)明顯減少。為此,研究人員提出可以借助 AI 可解釋性的技術(shù)手段,對模型的「腦回路」進(jìn)行巡查。
比如,本次研究用的工具「稀疏自編碼器」就成功找出了那個(gè)藏在 GPT-4 模型中的「搗蛋因子」。
類似地,未來或許可以給模型安裝一個(gè)「行為監(jiān)察器」,一旦監(jiān)測到模型內(nèi)部某些激活模式和已知的失準(zhǔn)特征相吻合,就及時(shí)發(fā)出預(yù)警。
如果說過去調(diào)教 AI 更像編程調(diào)試,如今則更像一場持續(xù)的「馴化」?,F(xiàn)在,訓(xùn)練 AI 就像在培育一個(gè)新物種,既要教會它規(guī)矩,也得時(shí)刻提防它意外長歪的風(fēng)險(xiǎn)——你以為是在玩邊牧,小心被邊牧玩啊。