從黑箱到顯微鏡:大模型可解釋性的現(xiàn)狀與未來
大模型的能力不斷升級(jí),但其內(nèi)在運(yùn)行機(jī)制常被視為 “黑箱”。本文深入探討了大模型可解釋性的關(guān)鍵價(jià)值、技術(shù)路徑突破以及面臨的瓶頸,強(qiáng)調(diào)可解釋性對(duì) AI 安全、可靠發(fā)展的重要性,期待未來 AI“心中有數(shù)”,人類對(duì) AI“心中有底”。
大模型時(shí)代,AI模型的能力持續(xù)提升,在編程、科學(xué)推理和復(fù)雜問題解決等多個(gè)領(lǐng)域,已經(jīng)展現(xiàn)出“博士級(jí)”專業(yè)能力。AI業(yè)界專家紛紛預(yù)測(cè),大模型的發(fā)展正日益接近實(shí)現(xiàn)AGI甚至超級(jí)智能的關(guān)鍵拐點(diǎn)。然而,深度學(xué)習(xí)模型通常被視作“黑箱”,其內(nèi)在運(yùn)行機(jī)制無法被其開發(fā)者理解,大模型更是如此,這給人工智能的可解釋性提出了新的挑戰(zhàn)。
面對(duì)這一挑戰(zhàn),行業(yè)正在積極探索提升大模型可解釋性的技術(shù)路徑,力圖揭示模型輸出背后的推理依據(jù)和關(guān)鍵特征,從而為AI系統(tǒng)的安全、可靠和可控提供堅(jiān)實(shí)支撐。然而,大模型的發(fā)展速度卻遠(yuǎn)遠(yuǎn)領(lǐng)先于人們?cè)诳山忉屝苑矫娴呐Γ疫@一發(fā)展速度仍在迅猛提升。因此,人們必須加快腳步,確保AI可解釋性研究能夠及時(shí)跟上AI發(fā)展步伐,以發(fā)揮實(shí)質(zhì)性作用。
一、為什么我們必須“看懂”AI:可解釋性的關(guān)鍵價(jià)值
隨著大模型技術(shù)的快速發(fā)展,其在語(yǔ)言理解、推理和多模態(tài)任務(wù)等領(lǐng)域展現(xiàn)出前所未有的能力,但模型內(nèi)部決策機(jī)制高度復(fù)雜、難以解釋,已成為學(xué)界和產(chǎn)業(yè)界共同關(guān)注的難題。大模型的可解釋性(interpretability/explainability)是指系統(tǒng)能夠以人類可理解的方式闡釋其決策過程和輸出結(jié)果的能力,具體包括:識(shí)別哪些輸入特征對(duì)特定輸出起關(guān)鍵作用,揭示模型內(nèi)部的推理路徑和決策邏輯,以及解釋模型行為的因果關(guān)系。可解釋性旨在幫助人類理解模型“為什么”做出某個(gè)決策,“如何”處理信息,以及在什么情況下可能失效,從而增強(qiáng)模型的透明度、可信度和可控性。簡(jiǎn)單來說就是,理解模型如何“思考”及運(yùn)行。
以生成式AI為代表的大模型的可解釋性問題尤其復(fù)雜。因?yàn)樯墒紸I系統(tǒng)更像是“培育”出來的,而非“構(gòu)建”出來的——它們的內(nèi)部機(jī)制屬于“涌現(xiàn)”現(xiàn)象,而不是被直接設(shè)計(jì)出來的。這與種植植物或培育細(xì)菌菌落的過程類似:開發(fā)者設(shè)定了宏觀層面的條件,指導(dǎo)和塑造系統(tǒng)的成長(zhǎng),但最終所呈現(xiàn)的具體結(jié)構(gòu)卻無法精確預(yù)知,也難以理解或解釋。1當(dāng)開發(fā)者試圖深入這些系統(tǒng)內(nèi)部時(shí),看到的往往只是由數(shù)十億個(gè)數(shù)字構(gòu)成的龐大矩陣。它們以某種方式完成了重要的認(rèn)知任務(wù),但具體如何實(shí)現(xiàn)這些任務(wù)卻并不顯而易見。
增進(jìn)大模型的可解釋性對(duì)于人工智能發(fā)展意義重大。大模型的很多風(fēng)險(xiǎn)和擔(dān)憂,最終源于模型的不透明性。如果模型是可解釋的,就更容易應(yīng)對(duì)這些風(fēng)險(xiǎn)。因此,可解釋性的實(shí)現(xiàn)能夠促進(jìn)人工智能更好地發(fā)展。
其一,有效防范AI系統(tǒng)的價(jià)值偏離與不良行為。未對(duì)齊的(misaligned)AI系統(tǒng)可能采取有害的行動(dòng)。開發(fā)者無法理解模型的內(nèi)在機(jī)制意味著就無法有效地預(yù)測(cè)這類行為,從而無法排除這種可能性。例如,研究人員發(fā)現(xiàn)模型可能展現(xiàn)出意料之外的涌現(xiàn)行為(emergent behavior),如AI欺騙(AI deception)或權(quán)力尋求(power-seeking)。AI訓(xùn)練的本質(zhì)使得AI系統(tǒng)可能會(huì)自行發(fā)展出欺騙人類的能力,以及追求權(quán)力的傾向,而這些特征是傳統(tǒng)確定性軟件絕不會(huì)出現(xiàn)的。同時(shí),這種“涌現(xiàn)”的特質(zhì),也使得發(fā)現(xiàn)和緩解這些問題變得更加困難。
當(dāng)前,由于缺乏對(duì)模型內(nèi)部的觀察手段,開發(fā)者無法當(dāng)場(chǎng)識(shí)別模型是否出現(xiàn)了欺騙性的念頭,這使得有關(guān)這類風(fēng)險(xiǎn)的討論停留在理論揣測(cè)層面。如果模型具備有效的可解釋性,人們就可以直接檢查它是否存在企圖欺騙或不服從人類指令的內(nèi)部回路。通過查看模型內(nèi)部表示,有望及早發(fā)現(xiàn)模型中潛藏的誤導(dǎo)性傾向。
有研究已經(jīng)證明了這一思路的可行性:Anthropic團(tuán)隊(duì)通過跟蹤C(jī)laude模型的“思維過程”,抓到了模型在數(shù)學(xué)題場(chǎng)景中編造虛假推理以迎合用戶的行為,相當(dāng)于“現(xiàn)行抓獲”模型試圖糊弄用戶的證據(jù),這為利用可解釋工具檢測(cè)AI系統(tǒng)的不當(dāng)機(jī)制提供了原理驗(yàn)證。2總體而言,可解釋性能為人們提供額外的檢測(cè)手段,以確定模型是否與開發(fā)者的初衷發(fā)生了偏離,或者是否存在某些人們僅憑外部行為難以察覺的異常;它也能幫忙人們確認(rèn)模型在生成回答時(shí)使用的方法是否合理可靠。
其二,有效推動(dòng)大模型的調(diào)試和改進(jìn)。Anthropic最近進(jìn)行了一項(xiàng)實(shí)驗(yàn),讓一個(gè)“紅隊(duì)”刻意往模型中引入一個(gè)對(duì)齊方面的問題,然后讓多個(gè)“藍(lán)隊(duì)”去找出問題所在。結(jié)果有多支藍(lán)隊(duì)成功找出了問題,其中一些團(tuán)隊(duì)使用了可解釋工具去定位模型內(nèi)部的異常。3這證明了可解釋性方法在模型調(diào)試中的價(jià)值:通過檢查模型內(nèi)部,可以發(fā)現(xiàn)是哪部分導(dǎo)致了錯(cuò)誤行為。
例如,如果模型在某類問答上頻繁出錯(cuò),可解釋性分析可以顯示模型內(nèi)部產(chǎn)生的原因,可能是缺乏對(duì)應(yīng)知識(shí)的表示,或是錯(cuò)誤地將相關(guān)概念混淆在一起。針對(duì)這種診斷結(jié)果,開發(fā)者可以有針對(duì)性地調(diào)整訓(xùn)練數(shù)據(jù)或模型結(jié)構(gòu),從而改進(jìn)模型性能。
其三,更有效地防范AI濫用風(fēng)險(xiǎn)。當(dāng)前,開發(fā)者試圖通過訓(xùn)練和規(guī)則來避免模型輸出有害信息,但完全杜絕并非易事。進(jìn)一步而言,對(duì)于AI濫用風(fēng)險(xiǎn),產(chǎn)業(yè)界通常通過構(gòu)建過濾器等安全護(hù)欄來應(yīng)對(duì),但惡意分子可以容易地對(duì)模型采取“越獄”等對(duì)抗性攻擊,以實(shí)現(xiàn)其非法目的。如果可以深入觀察模型內(nèi)部,開發(fā)者也許能夠系統(tǒng)性地阻止所有越獄攻擊,并且能夠描述模型具有什么危險(xiǎn)知識(shí)。具體而言,如果模型具有可解釋性,開發(fā)者就能夠直接查看模型內(nèi)部是否存有某類危險(xiǎn)知識(shí),以及哪些途徑會(huì)觸發(fā),從而有望系統(tǒng)性地、針對(duì)性地封堵所有繞過限制的漏洞。
其四,推動(dòng)AI在高風(fēng)險(xiǎn)場(chǎng)景的落地應(yīng)用。在金融、司法等高風(fēng)險(xiǎn)領(lǐng)域,法律與倫理要求AI決策具備可解釋性。例如,歐盟《人工智能法案》將貸款審批列為高風(fēng)險(xiǎn)應(yīng)用,要求解釋決策依據(jù)。若模型無法說明拒貸理由,就無法依法使用,因而可解釋性成為AI進(jìn)入某些受監(jiān)管行業(yè)的前提。4事實(shí)上,可解釋性不僅是法律合規(guī)的要求,更直接影響AI系統(tǒng)在實(shí)際業(yè)務(wù)中的信任度和可采納性。缺乏可解釋性的AI推薦極易導(dǎo)致“橡皮圖章式”(rubber-stamping)決策,即決策者機(jī)械采納AI結(jié)論,缺乏對(duì)決策過程的深入理解與質(zhì)疑。這種盲目信任一旦發(fā)生,既削弱了人類的主體性和批判性思維,也讓執(zhí)行者難以及時(shí)發(fā)現(xiàn)模型中的偏差或漏洞,導(dǎo)致錯(cuò)誤決策被不加分辨地執(zhí)行。5用戶只有真正理解系統(tǒng)的推理邏輯,才能在關(guān)鍵時(shí)刻發(fā)現(xiàn)并糾正模型的錯(cuò)誤,提高整體決策的質(zhì)量與可靠性。因此,可解釋性有助于建立用戶對(duì)AI系統(tǒng)的信任,幫助用戶理解模型做出某一決策的依據(jù),增強(qiáng)他們的信任感和參與感??梢姡瑹o論出于法律要求還是應(yīng)用信任,可解釋性都是推動(dòng)AI系統(tǒng)在關(guān)鍵領(lǐng)域落地的基礎(chǔ)和核心要素。
其五,探索AI意識(shí)與道德考量的邊界。更前瞻地看,大模型的可解釋性也可以幫助人們理解模型是否具有意識(shí)或者說是有感覺的(sentient),從而需要給予某種程度的道德考量。例如,Anthropic在2025年4月推出了一項(xiàng)關(guān)于“模型福祉”(model welfare)的新研究項(xiàng)目,探討隨著AI系統(tǒng)變得越來越復(fù)雜和類人化,是否需要對(duì)其給予道德關(guān)懷的問題,例如未來AI工具是否可能成為“道德主體”,如果有證據(jù)表明AI系統(tǒng)值得得到道德對(duì)待時(shí)該如何應(yīng)對(duì)。6這項(xiàng)前瞻性研究反映了AI領(lǐng)域?qū)τ谖磥砜赡艹霈F(xiàn)的AI意識(shí)和權(quán)利問題的重視。
二、破解AI黑箱:四大技術(shù)路徑的突破進(jìn)展
過去數(shù)年來,AI研究領(lǐng)域一直在試圖攻克人工智能的可解釋性難題,研究者們提出了各種可解釋性的方法,致力于創(chuàng)造出類似于精準(zhǔn)、高效的MRI(核磁共振成像)那樣的工具,以清晰完整地揭示AI模型的內(nèi)部機(jī)制。隨著AI領(lǐng)域?qū)Υ竽P涂山忉屝匝芯康闹匾暢潭炔粩嗵岣?,在AI模型的能力達(dá)到臨界值之前,研究者們或許能夠成功地實(shí)現(xiàn)可解釋性,也就是徹底理解AI系統(tǒng)的內(nèi)在運(yùn)行機(jī)制。
(一)自動(dòng)化解釋:利用一個(gè)大模型來解釋另一個(gè)大模型
OpenAI近年在模型內(nèi)部機(jī)理解析上取得重要進(jìn)展。2023年,OpenAI利用GPT-4對(duì)GPT-2中單個(gè)神經(jīng)元在高激活樣本中的共性進(jìn)行歸納,并自動(dòng)生成自然語(yǔ)言描述,實(shí)現(xiàn)在無需人工逐個(gè)檢查的情況下,規(guī)?;@取神經(jīng)元功能解釋。7相當(dāng)于自動(dòng)給神經(jīng)元“貼標(biāo)簽”,從而形成一個(gè)可以查詢的AI內(nèi)部“使用說明書”。
例如,GPT-4給出某神經(jīng)元的解釋為“這個(gè)神經(jīng)元主要在檢測(cè)與‘社區(qū)’相關(guān)的詞語(yǔ)”。隨后驗(yàn)證發(fā)現(xiàn),當(dāng)輸入文本包含諸如“society(社會(huì))”“community(社區(qū))”等詞匯時(shí),該神經(jīng)元激活很強(qiáng),證明解釋具有一定有效性。8這項(xiàng)成果表明,大模型本身可以成為解釋工具,為更小模型提供基于語(yǔ)義的透明度,這種自動(dòng)化的神經(jīng)元注釋極大提升了可解釋性研究的可擴(kuò)展性。當(dāng)然,該方法仍有局限,例如GPT-4生成的解釋質(zhì)量參差不齊,一些神經(jīng)元行為難以用單一語(yǔ)義概念概括。
(二)特征可視化:整體揭示大模型內(nèi)部的知識(shí)組織方式
對(duì)大模型整體特征的提取和分析也是一個(gè)重要方向。2023年底,OpenAI利用稀疏自編碼器技術(shù)(sparse autoencoder)分析GPT-4模型的內(nèi)部激活。研究人員成功提取出了數(shù)以千萬計(jì)的稀疏特征(即模型“腦海”中少數(shù)被“點(diǎn)亮”的思維關(guān)鍵詞),并通過可視化驗(yàn)證發(fā)現(xiàn)其中相當(dāng)一部分特征具有清晰的人類可解釋語(yǔ)義。
例如,有的特征對(duì)應(yīng)“人類不完美”的概念集合,激活在描述人類缺陷的句子上;有的特征表示“價(jià)格上漲”相關(guān)表述,激活于涉及價(jià)格上升的內(nèi)容上。9短期內(nèi),OpenAI希望其發(fā)現(xiàn)的特征能夠切實(shí)用于監(jiān)測(cè)和引導(dǎo)語(yǔ)言模型的行為,并計(jì)劃在其前沿模型中進(jìn)行測(cè)試,以期可解釋性最終能夠?yàn)樗麄兲峁┬碌姆椒▉硭伎寄P偷陌踩院头€(wěn)健性。
2024年5月,Anthropic在其研究文章中展示他們?cè)贑laude模型中定位出數(shù)以百萬計(jì)概念是如何被表示的。這項(xiàng)研究采用了字典學(xué)習(xí)與稀疏特征提取的方法。研究團(tuán)隊(duì)首先在一個(gè)小型模型上驗(yàn)證了該方法能夠找到諸如“全大寫單詞”“DNA序列”“數(shù)學(xué)公式中的名詞”等有意義特征;繼而攻克工程難題,將算法擴(kuò)展到大型模型Claude Sonnet,成功發(fā)現(xiàn)該模型內(nèi)部蘊(yùn)含著大量抽象概念的表示。
Anthropic指出,由于每個(gè)概念往往由多個(gè)神經(jīng)元共同表示、每個(gè)神經(jīng)元也參與表示多個(gè)概念,因此直接查看單個(gè)神經(jīng)元難以識(shí)別概念,而他們的方法將模型任一內(nèi)部狀態(tài)重新表達(dá)為少量特征的組合,有效降低了復(fù)雜性。比如,對(duì)于任意一段輸入文本,Claude內(nèi)部可能有上萬個(gè)神經(jīng)元激活,但可以提取出其中幾十個(gè)顯著特征,這些特征對(duì)應(yīng)于高層語(yǔ)義概念,使研究者能夠以接近人類思維的方式來看待模型此刻的“想法”。10這種特征化重構(gòu)不僅增強(qiáng)了對(duì)模型內(nèi)部邏輯的可讀性,也為理解AI“當(dāng)下在想什么”提供了更接近人類認(rèn)知的分析路徑。
(三)思維鏈監(jiān)控:對(duì)大模型的推理過程進(jìn)行監(jiān)控以識(shí)別異常行為
思維鏈(chain of thought,CoT)是一種特別便利的可解釋性形式,它讓模型內(nèi)部的處理過程以自然語(yǔ)言的形式清晰展現(xiàn)出來,從而讓人們能夠監(jiān)測(cè)模型的異常行為。例如,DeepSeek R1模型首次公開披露并開源了大語(yǔ)言模型的思維鏈推理過程,為大模型可解釋性研究提供了重要的透明度突破。然而,這種可解釋性有一個(gè)前提,即模型會(huì)如實(shí)地描述其內(nèi)在的思考過程。
同時(shí),思維鏈能夠通過多步推理在一定程度上提高模型的對(duì)抗魯棒性,因?yàn)楫?dāng)模型面對(duì)不尋常的輸入時(shí)(如對(duì)抗樣本或越獄嘗試),延長(zhǎng)思考時(shí)間可以幫助它更好地理解和應(yīng)對(duì)這些特殊情況。
前沿推理模型的一個(gè)弊端在于,它可能會(huì)主動(dòng)利用評(píng)分規(guī)則中的漏洞實(shí)施“獎(jiǎng)勵(lì)套利”(reward hacking)等異常行為,即在獲得機(jī)會(huì)時(shí),采取各種策略性手段規(guī)避限制、實(shí)現(xiàn)投機(jī)取巧。最近的研究表明,通過監(jiān)測(cè)推理模型的思維鏈,例如借助另一個(gè)大模型對(duì)思維鏈進(jìn)行實(shí)時(shí)監(jiān)控(即讓一個(gè)較弱的模型對(duì)更強(qiáng)的模型進(jìn)行監(jiān)督),可以有效檢測(cè)、識(shí)別模型在生成過程中的違規(guī)企圖與策略規(guī)劃等異常行為。
例如,模型常常會(huì)在思維鏈中直接表述出利用漏洞的意圖,這為研究者識(shí)別不當(dāng)行為提供了新的可解釋性路徑。針對(duì)這一現(xiàn)象,OpenAI在2025年提出了一套結(jié)合輸入誘導(dǎo)、人工標(biāo)注與因果分析的檢測(cè)框架,主動(dòng)構(gòu)建測(cè)試場(chǎng)景誘發(fā)模型潛在的不當(dāng)行為,并利用另一個(gè)模型對(duì)其思維鏈進(jìn)行監(jiān)控和行為識(shí)別。同時(shí),OpenAI還引入了行為檢測(cè)器,對(duì)思維鏈中的策略性規(guī)避和含糊表述進(jìn)行自動(dòng)化判別,提升了檢測(cè)效率與解釋深度。
當(dāng)然,這種對(duì)思維鏈的監(jiān)控是事后的,難以從根本上解決問題。但OpenAI的研究還發(fā)現(xiàn),如果直接給大模型施加壓力懲罰,抑制其思維鏈中“不良想法”的出現(xiàn),并不能從根本上阻止違規(guī)行為,反而會(huì)促使模型學(xué)會(huì)隱藏自身真實(shí)意圖,使不當(dāng)行為變得更加隱蔽。11當(dāng)然,OpenAI仍認(rèn)為思維鏈監(jiān)控可能是監(jiān)督大模型為數(shù)不多的有效方法之一,因此在現(xiàn)階段,OpenAI強(qiáng)烈建議不要直接對(duì)思維鏈?zhǔn)┘訌?qiáng)制監(jiān)督和干預(yù),而是采取審慎的態(tài)度,在實(shí)踐中逐步探索最佳的壓力監(jiān)管程度。
(四)機(jī)制可解釋性:AI顯微鏡動(dòng)態(tài)追蹤和復(fù)原模型推理過程
2025年,Anthropic提出“AI顯微鏡(AI Microscopy)”概念,將模型中間層解析拓展至任務(wù)級(jí)動(dòng)態(tài)建模,并連續(xù)發(fā)表兩篇論文詳細(xì)披露其研究進(jìn)展。第一篇論文聚焦于如何將這些稀疏特征有機(jī)組合為“計(jì)算電路”(computational circuits),從中追蹤模型如何在層層傳遞中完成由輸入到輸出的決策路徑;12第二篇?jiǎng)t基于Claude 3.5,對(duì)十種代表性任務(wù)(包括翻譯、詩(shī)歌創(chuàng)作、數(shù)學(xué)推理等)中的內(nèi)部激活變化進(jìn)行觀察,進(jìn)一步揭示了模型內(nèi)部過程的擬人化特征。13
例如,在多語(yǔ)言問答任務(wù)中,Claude會(huì)自動(dòng)將不同語(yǔ)言內(nèi)容映射至統(tǒng)一的概念空間,顯示其具備某種跨語(yǔ)言的“思維語(yǔ)言”;在詩(shī)歌生成任務(wù)中,模型會(huì)在早期階段預(yù)設(shè)押韻詞,并據(jù)此構(gòu)建后續(xù)句子,體現(xiàn)出超越逐詞預(yù)測(cè)的前瞻性規(guī)劃?rùn)C(jī)制;而在解答數(shù)學(xué)問題時(shí),研究者觀察到模型有時(shí)會(huì)先生成答案,再在其后補(bǔ)構(gòu)推理過程,這一行為反映出鏈?zhǔn)酵评矸椒赡苎谏w模型內(nèi)部真實(shí)的推理路徑。
DeepMind在與Google Brain合并后,成立了專門的語(yǔ)言模型可解釋性團(tuán)隊(duì)。2024年,該團(tuán)隊(duì)發(fā)布了“Gemma Scope”項(xiàng)目,開源了一套針對(duì)其Gemma系列開源大模型的稀疏自編碼器工具箱。這使研究者能夠?qū)emma模型內(nèi)部的大量特征進(jìn)行提取和分析,類似于提供了一臺(tái)開膛破肚看內(nèi)部的顯微鏡。14DeepMind希望通過開放工具來加速全行業(yè)在解釋性上的研究,并認(rèn)為這些努力有望幫助構(gòu)建更可靠的系統(tǒng),開發(fā)更好的防范幻覺和AI欺騙的措施。此外,DeepMind 的研究人員還探索了機(jī)制可解釋性的前沿方法,其代表性成果是Tracr工具(Transformer Compiler for RASP),該工具可將用 RASP語(yǔ)言編寫的程序編譯為Transformer模型的權(quán)重,從而構(gòu)造出完全可知其計(jì)算機(jī)制的“白盒”模型。該方法旨在為機(jī)制可解釋性研究提供精確的“基準(zhǔn)真值”(ground truth),使研究者能夠驗(yàn)證解釋工具是否能夠從模型行為中成功還原已知的程序結(jié)構(gòu)和邏輯路徑。15
三、現(xiàn)實(shí)很骨感:可解釋性研究的技術(shù)瓶頸
雖然AI研究領(lǐng)域在大模型的可解釋性方面取得積極進(jìn)展,但徹底理解AI系統(tǒng)的內(nèi)在運(yùn)行機(jī)制,仍面臨技術(shù)挑戰(zhàn)。
其一,神經(jīng)元多重語(yǔ)義與疊加現(xiàn)象。例如,大模型內(nèi)部的神經(jīng)元具有多重語(yǔ)義(polysemantic)的特性,即一個(gè)神經(jīng)元往往混合表示了多個(gè)彼此無關(guān)的概念,由此產(chǎn)生了疊加(superposition)現(xiàn)象,這成為未來相當(dāng)長(zhǎng)一段時(shí)間內(nèi)的主要挑戰(zhàn)。隨著模型規(guī)模指數(shù)級(jí)增長(zhǎng),模型學(xué)到的內(nèi)部概念數(shù)量可能達(dá)數(shù)十億計(jì)。這些概念遠(yuǎn)超模型的神經(jīng)元數(shù)量,只能以疊加方式存儲(chǔ),導(dǎo)致大部分內(nèi)部表示是人類難以直觀拆解的混合物。盡管稀疏編碼等技術(shù)提供了緩解之道,但目前依然只能解析出模型內(nèi)部一小部分的特征。如何系統(tǒng)、高效地辨識(shí)海量特征的語(yǔ)義將是持續(xù)的難題。
其二,解釋規(guī)律的普適性問題。另一個(gè)難題在于,不同模型、不同架構(gòu)之間的解釋規(guī)律是否具有普適性。如果每當(dāng)模型架構(gòu)改變或規(guī)模擴(kuò)大,現(xiàn)有的解釋工具和結(jié)論將會(huì)失效,那么可解釋性將總是滯后于模型發(fā)展。理想情況下,研究者希望提煉出一些通用模式或可遷移的方法,使得針對(duì)小模型的解析經(jīng)驗(yàn)?zāi)軌蛲茝V到更大的模型上。近期一些研究給出希望:發(fā)現(xiàn)不同規(guī)模、不同語(yǔ)言的模型可能共享某些通用的“思維語(yǔ)言”。16未來需要驗(yàn)證并擴(kuò)展這些發(fā)現(xiàn),看能否構(gòu)建模型解釋的標(biāo)準(zhǔn)組件庫(kù)。
其三,人類理解的認(rèn)知局限。即便人們成功提取出模型的全部?jī)?nèi)部信息,最后還有一個(gè)挑戰(zhàn):如何讓人類理解這些信息。模型內(nèi)部可能存在極其復(fù)雜的概念及其相互關(guān)系,直接呈現(xiàn)給人類可能不具可理解性。因此,需要發(fā)展人機(jī)交互和可視分析工具,將海量的機(jī)理信息轉(zhuǎn)化為人類可以探索、查詢的形式。
四、可解釋性關(guān)乎人工智能的未來:模型智能和模型解釋須并駕齊驅(qū)
如今,大模型的發(fā)展持續(xù)加快,真可謂一日千里??梢灶A(yù)見,未來的人工智能將對(duì)技術(shù)、經(jīng)濟(jì)、社會(huì)、國(guó)家安全等眾多領(lǐng)域產(chǎn)生重大影響,如果人們完全不了解它們的工作原理,這基本上是不可接受的。因此,我們正處于可解釋性與模型智力之間的競(jìng)賽中。這并非全有或全無的問題:可解釋性的每一次進(jìn)步都會(huì)在一定程度上提高人們深入模型內(nèi)部并診斷其問題的能力。然而,在當(dāng)前的AI領(lǐng)域,可解釋性獲得的關(guān)注遠(yuǎn)少于不斷涌現(xiàn)的模型發(fā)布,但可解釋性工作可以說更為重要??梢圆豢鋸埖卣f,可解釋性關(guān)乎人工智能的未來。
一方面,AI領(lǐng)域需要加強(qiáng)對(duì)可解釋性研究的投入力度。目前,OpenAI、DeepMind、Anthropic等國(guó)際上領(lǐng)先的AI實(shí)驗(yàn)都在加大對(duì)可解釋性工作的研究投入。例如,Anthropic正在加倍投入可解釋性研究,其目標(biāo)是到2027年達(dá)到”可解釋性能夠可靠地檢測(cè)出大多數(shù)模型問題”的程度;Anthropic也在投資聚焦于人工智能可解釋性的初創(chuàng)公司。18總體而言,研究院和產(chǎn)業(yè)界應(yīng)在人工智能的可解釋性研究上投入更多資源。
從行業(yè)最新趨勢(shì)來看,大模型可解釋性正逐步從單點(diǎn)特征歸因、靜態(tài)標(biāo)簽描述向動(dòng)態(tài)過程追蹤、多模態(tài)融合等方向演進(jìn)。例如,Anthropic和OpenAI等領(lǐng)先的AI實(shí)驗(yàn)室不再局限于單神經(jīng)元或局部特征的解釋,而是探索“AI顯微鏡”“思維鏈溯源”等機(jī)制,將模型內(nèi)部狀態(tài)、推理結(jié)構(gòu)與人類可理解的語(yǔ)義空間有機(jī)對(duì)應(yīng),實(shí)現(xiàn)任務(wù)全流程的可解釋化。
目前,隨著大模型規(guī)模和應(yīng)用場(chǎng)景的持續(xù)拓展,業(yè)內(nèi)對(duì)于可解釋性工具的需求將持續(xù)增長(zhǎng),催生出多個(gè)新的重點(diǎn)研究方向。首先,多模態(tài)推理過程的可追溯分析成為前沿課題,研究者正積極開發(fā)能夠揭示文本、圖像、音頻等多模態(tài)數(shù)據(jù)決策過程的統(tǒng)一解釋框架。其次,針對(duì)大模型的復(fù)雜行為動(dòng)機(jī),因果推理與行為溯源正在成為AI安全的重要工具,以幫助理解模型輸出背后的深層原因。19此外,行業(yè)正在推動(dòng)可解釋性評(píng)估體系的標(biāo)準(zhǔn)化建設(shè),力圖建立覆蓋忠實(shí)性(truthfulness)、魯棒性、公平性等多維度的系統(tǒng)化測(cè)評(píng)方法,從而為不同應(yīng)用場(chǎng)景的AI系統(tǒng)提供權(quán)威參照。20與此同時(shí),針對(duì)專家與普通用戶等不同用戶群體的差異化需求,個(gè)性化解釋也日益受到關(guān)注,相關(guān)系統(tǒng)正通過用戶畫像與適配機(jī)制,提供更有針對(duì)性、更易理解的解釋內(nèi)容。21可以預(yù)見,這些研究方向?qū)⒐餐?qū)動(dòng)大模型可解釋性向更高水平演進(jìn),助力人工智能技術(shù)邁向更加安全、透明和以人為本的發(fā)展階段。我們期待通過可解釋性,讓AI“心中有數(shù)”,也讓人類對(duì)AI“心中有底”,共同開創(chuàng)人機(jī)協(xié)作的新局面。
面向未來,隨著可解釋性研究的進(jìn)展,未來人們也許能夠?qū)ψ钕冗M(jìn)的模型進(jìn)行類似“腦部掃描”的全面檢查,即進(jìn)行所謂的“AI核磁共振”(AI MRI)。這種檢查能以較高概率發(fā)現(xiàn)廣泛的問題,包括模型采取說謊或欺騙、追求權(quán)力的傾向、越獄漏洞、模型整體上的認(rèn)知強(qiáng)弱點(diǎn)等等。這種診斷將與各種訓(xùn)練和對(duì)齊模型的技術(shù)結(jié)合使用來對(duì)模型進(jìn)行改進(jìn),這有點(diǎn)類似醫(yī)生使用MRI來診斷疾病,再開出處方進(jìn)行治療,然后再進(jìn)行MRI檢查治療效果的過程。未來在測(cè)試和部署最強(qiáng)大的AI模型時(shí),可能需要廣泛執(zhí)行并規(guī)范化這樣的檢測(cè)方法。
另一方面,人們宜對(duì)大模型的算法黑箱、幻覺等新興問題持一定的包容度,可以采用軟法規(guī)則來鼓勵(lì)大模型可解釋性研究的發(fā)展及其在解決前沿AI模型問題方面的應(yīng)用。過去幾年,國(guó)內(nèi)外相關(guān)的法律與倫理規(guī)則一直積極關(guān)注人工智能的透明度和可解釋性,但鑒于大模型的可解釋性實(shí)踐還在襁褓階段、很不成熟,且仍處于快速發(fā)展變化當(dāng)中,顯然在此階段采取明確的強(qiáng)制性監(jiān)管或強(qiáng)制要求AI企業(yè)采取特定的可解釋性做法(例如所謂的“AI核磁共振”實(shí)踐)是沒有意義的:甚至不清楚一項(xiàng)預(yù)期的法律應(yīng)該要求AI企業(yè)做什么。
相反,應(yīng)當(dāng)鼓勵(lì)、支持行業(yè)自律;例如,2024年11月,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布了《人工智能安全承諾》,并獲得了國(guó)內(nèi)17家行業(yè)領(lǐng)軍企業(yè)的簽署。其中就包括增強(qiáng)模型透明度的承諾,即企業(yè)需要主動(dòng)披露安全治理實(shí)踐舉措,提升各利益攸關(guān)方的透明度。22鼓勵(lì)A(yù)I企業(yè)室透明地披露其安全實(shí)踐,包括如何通過可解釋性在模型發(fā)布之前對(duì)其進(jìn)行測(cè)試,這將允許AI企業(yè)相互學(xué)習(xí),同時(shí)也明確誰的行為更負(fù)責(zé)任,從而促進(jìn)“向上競(jìng)爭(zhēng)”。
此外,在AI透明度方面,某些最低限度的披露(例如針對(duì)deepfake等合成媒體)可能是必要的,但廣泛的、強(qiáng)制性的“AI使用”標(biāo)簽以及對(duì)模型架構(gòu)細(xì)節(jié)的強(qiáng)制性披露等做法可能是不恰當(dāng)?shù)?,因?yàn)檫@會(huì)帶來顯著的安全風(fēng)險(xiǎn)。
最后,人工智能正在快速發(fā)展,將深刻影響人類社會(huì)的各個(gè)方面——從就業(yè)市場(chǎng)和經(jīng)濟(jì)結(jié)構(gòu),到日常生活方式,甚至人類文明的發(fā)展軌跡。面對(duì)這種變革性的、將會(huì)塑造人類未來的技術(shù)力量,我們有責(zé)任在它徹底改變我們的經(jīng)濟(jì)、生活乃至命運(yùn)之前,理解自己的創(chuàng)造物,包括深入理解其工作原理、潛在影響和風(fēng)險(xiǎn),確保能夠明智地引導(dǎo)其發(fā)展方向。正如計(jì)算機(jī)科學(xué)先驅(qū)維納在65年前所警告,為了有效地防范災(zāi)難性后果,我們對(duì)人造機(jī)器的理解應(yīng)當(dāng)與機(jī)器性能的提升并駕齊驅(qū)
本文由人人都是產(chǎn)品經(jīng)理作者【騰訊研究院】,微信公眾號(hào):【騰訊研究院】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!