當謠言搭上“AI”的東風(fēng)
AI標識制度在應(yīng)對虛假信息“更多更真”的治理挑戰(zhàn)中,展現(xiàn)出積極的技術(shù)潛力,可作為內(nèi)容治理鏈條的重要前端支點。但同時也需正視,作為仍在探索中的治理手段,AI標識具有明顯的技術(shù)短板,需要與現(xiàn)有的內(nèi)容生態(tài)治理體系相互協(xié)同,聚焦高風(fēng)險領(lǐng)域,實現(xiàn)治理效能的提升。
隨著AI在內(nèi)容領(lǐng)域的快速應(yīng)用,利用AI生成謠言、進行虛假宣傳正在對公眾帶來負面影響。據(jù)南都大數(shù)據(jù)研究院不完全統(tǒng)計,2024年搜索熱度較高的50個國內(nèi)AI風(fēng)險相關(guān)輿情案例中,超過1/5與AI造謠有關(guān)。[1]進入2025年,“西藏定日縣地震一小孩被壓廢墟”等涉AI謠言頻繁登上輿論焦點。[2]此外,AI合成換臉用于虛假宣傳等違法案件頻發(fā),如不法商家冒充孫儷等明星帶貨[3]、杜撰“苗古金貼非遺傳承人”[4],以此牟取流量與收益。
一、AI新技術(shù)與治理老難題
與以往相比,AI生成的違法有害內(nèi)容,在性質(zhì)上并沒有發(fā)生根本變化。AI只是將原本存在的內(nèi)容治理“老問題”進一步放大加速,主要集中在三個方面:
一是“更易”,即更低的門檻。生成高度“真實感”內(nèi)容已不再依賴專業(yè)知識或?qū)懽骷寄?。中國互?lián)網(wǎng)聯(lián)合辟謠平臺報道,在中部某省村落,村民們通過將網(wǎng)絡(luò)熱點關(guān)鍵詞粘貼進AI模型生成文章,發(fā)布后獲取流量收益。[5]技術(shù)賦能下,大量非專業(yè)的“草根”也能制造出接近真實的虛假內(nèi)容。
二是“更多”,即技術(shù)可令虛假信息“批量化生產(chǎn)”。例如“醫(yī)療泰斗客死他鄉(xiāng)”這一謠言,嫌疑人通過算法指令控制AI生成煽情謠言,借500個賬號矩陣實現(xiàn)日均1萬條產(chǎn)出,幾乎成為“工業(yè)化造謠”。“垃圾進、垃圾出”的“AI污染”現(xiàn)象,也是虛假信息批量生產(chǎn)所導(dǎo)致的次生負面表現(xiàn)。
三是“更真”,即多模態(tài)、多細節(jié)的信息更具迷惑性。AI生成的謠言往往摻雜偽裝性的“新聞?wù)Z言”和視覺要素,極具欺騙性?!拔靼彩朽傄貐^(qū)地下出熱水”這一謠言包含多種細節(jié),令普通人難以分辨真假。[6]
這三類風(fēng)險并非簡單疊加,而是在現(xiàn)實傳播場景中形成了“乘法”的放大效應(yīng),加劇了內(nèi)容治理的挑戰(zhàn)。同步,也促使當前AI內(nèi)容治理的新路徑——AI標識制度在實踐中檢驗其有效性與局限性。
二、AI標識的治理價值與自身局限
針對AI生成內(nèi)容帶來的“低門檻”“大批量”“更逼真”的治理挑戰(zhàn),我國逐步引入了技術(shù)標識新路徑。以“部門規(guī)章+規(guī)范性文件+國家強制性技術(shù)標準”的全面規(guī)范體系[7],建立了顯式標識(用戶可感知的提示形式)和隱式標識(文件元數(shù)據(jù)中可被機器識別的技術(shù)標記)的雙重標識機制。標識的責(zé)任主體覆蓋生成合成服務(wù)提供者、內(nèi)容傳播平臺、用戶等全鏈條主體。
對于內(nèi)容生成平臺,要求對AI生成內(nèi)容,添加元數(shù)據(jù)隱式標識;對可能造成混淆誤認的內(nèi)容,按內(nèi)容類型(文本、圖片、音頻、視頻等)在指定位置添加顯式標識;對于傳播平臺,要求提醒用戶主動聲明AI生成內(nèi)容,并進行標注,同時對生成平臺添加的元數(shù)據(jù)等隱式標識進行核驗,并根據(jù)核驗結(jié)果進行相應(yīng)標識等。
1. 理論上,AI標識能夠為內(nèi)容治理提效賦能
標識路徑的本質(zhì)是“以技治技”,面對內(nèi)容生成的提效,讓技術(shù)同樣為治理賦能。一方面,通過“隱式標識”,將治理關(guān)口前移至內(nèi)容生成階段,通過自動生成標識,更早期、更精準地將AI生成內(nèi)容識別出來。若上游模型服務(wù)提供者能夠在生成內(nèi)容中嵌入穩(wěn)定有效的標識,在不考慮標識被規(guī)避、破壞的情形下,下游傳播平臺可通過技術(shù)檢測,對相關(guān)內(nèi)容進行快速識別和重點判斷。使其在面對“低門檻”“大批量”的AI生成合成內(nèi)容時,能夠在更早期介入內(nèi)容治理,從而提升識別效率、強化風(fēng)險管理。
另一方面,顯式標識有助于降低相關(guān)內(nèi)容的可信度。一項發(fā)表在《PNAS Nexus》期刊的研究顯示,“AI生成”的顯式標簽往往會削弱受眾對內(nèi)容的信任。研究項目讓4976名受試者對不同類型的新聞標題進行評估,發(fā)現(xiàn)無論新聞內(nèi)容真假與否,被標注為“AI生成”的標題均被認為更不準確,且受試者的分享意愿也更低。[8]因此,作為一種“中間態(tài)”的提醒機制,“顯示標識”能夠在無法立即確認真?zhèn)蔚那闆r下,起到最低限度的警示作用,減少潛在風(fēng)險升級擴散的可能。
值得注意的是,也正因為“顯示標識”具有降低內(nèi)容可信度的特點,其適用范圍會有所限定。以避免過度標識后對用戶帶來的信息過載,甚至無法建立基本的信息信任等弊端。當前,AI廣泛應(yīng)用于內(nèi)容生產(chǎn)行業(yè),帶來提質(zhì)增效、激發(fā)創(chuàng)意等積極效用,推動廣告素材生產(chǎn)、教育培訓(xùn)方案等內(nèi)容產(chǎn)業(yè)從“千人千面”走向“一人千面”。為進一步促進AI技術(shù)在內(nèi)容生產(chǎn)領(lǐng)域帶來的積極價值,我國目前對顯示標識的適用范圍有所限定,將其聚焦于易引起“混淆誤認”等負面影響的領(lǐng)域,而非一刀切適用。
2. 實踐中,標識效用的發(fā)揮仍面臨較大的不確定性
作為主要依賴技術(shù)手段的治理方式,AI標識不可避免地具有技術(shù)局限性。一是“易規(guī)避”,哈佛大學(xué)的一項研究指出,“在一些明確假設(shè)下,如攻擊者具有簡單常見的能力,可對內(nèi)容做輕微修改,實現(xiàn)強水?。俗R)管理是不可能的”。[9]此外,非法使用者往往不會通過官方API進行操作,而是直接下載開源模型并在本地或匿名環(huán)境中部署訓(xùn)練,這種使用模式在設(shè)計之初就繞開了水印嵌入、身份認證等合規(guī)機制。[10]如Stable Diffusion等域外開源模型,其水印組件可被攻擊者輕易移除,從而生成不受約束、無水印的內(nèi)容。[11]
二是“易偽造”,即通過模仿水?。俗R)嵌入方式,在非原始模型或非授權(quán)用戶下制造假的水?。俗R),誤導(dǎo)溯源與歸屬判斷,或是將人類內(nèi)容標為AI生成[12]。
三是“易誤判”。以文本檢測為例,研究發(fā)現(xiàn),傳統(tǒng)方法(如KGW算法)以詞匯比例來判斷是否AI生成,易引發(fā)誤判。[12]如媒體報道,《滕王閣序》等知名文學(xué)作品也被誤判為“AI率100%”。[13]對此,專業(yè)人士表示:“由于AI生成內(nèi)容的性質(zhì)在不斷變化,AI檢測會存在誤判情況。盡管通過技術(shù)改進可以降低AI檢測的誤判率,但不可能完全消除”。[14]
除此之外,AI標識制度還面臨成本挑戰(zhàn)。引入如嵌套水印等技術(shù)確實可以提升檢測的可靠性,但在驗證過程中逐層解碼所需的計算資源甚至可能超過生成本身。[15]哈佛大學(xué)相關(guān)研究指出:在工具尚不完善的背景下,判斷一段內(nèi)容是否由AI生成可能是“代價高昂、效率低下且隨意的過程”。[16]
綜上,在當前階段,標識的可行性、有效性仍然充滿不確定性,更談不上實現(xiàn)“一勞永逸式”的AI內(nèi)容治理,應(yīng)避免對其賦予過高期待。發(fā)揮標識的技術(shù)效用,需將其納入治理體系做通盤考慮。
三、明確AI標識的長短板,回歸內(nèi)容治理的根本邏輯
當前,AI所帶來的內(nèi)容問題仍主要集中在謠言、虛假宣傳等領(lǐng)域,此類信息的“更多”“更真”對內(nèi)容治理帶來切實挑戰(zhàn)。AI技術(shù)標識作為一種“長短板分明”的治理工具,應(yīng)充分發(fā)揮其“長板”優(yōu)勢,同時依靠已有的內(nèi)容治理體系補齊“短板”,從而實現(xiàn)整體治理效能的最大化。具體而言:
一是將標識工具嵌入現(xiàn)有內(nèi)容治理體系,合理界定標識方案的定位與功能。與歐美囿于監(jiān)管受限、缺乏抓手,從而妥協(xié)折中選擇AI標識作為內(nèi)容治理手段不同的是,AI標識只是我國成熟健全的內(nèi)容治理體系中的工具之一。以營造清朗網(wǎng)絡(luò)空間為目標,我國內(nèi)容生態(tài)建立了從用戶到平臺,從監(jiān)管制度到社區(qū)規(guī)則的健全體系。作為體系中的一環(huán),AI標識方案仍然服務(wù)于內(nèi)容治理的根本目標。為此,在制度設(shè)計中,我國目前也將標識的重點落于防止“混淆誤認”的領(lǐng)域,即盡可能降低高度擬真的AI生成內(nèi)容被誤認為真實,進而引發(fā)謠言傳播、欺詐、冒名侵權(quán)等次生風(fēng)險的領(lǐng)域,相應(yīng)的一系列技術(shù)與責(zé)任機制也都圍繞這一目標展開。
AI標識制度的“長板”是在治理前端提升識別效率、增強用戶警覺、提供信息核實緩沖,而非對內(nèi)容真?zhèn)巫鰧嵸|(zhì)性判斷。當前,仍有大量非法應(yīng)用AI技術(shù)的行為逃逸于“標識”體系之外,如使用域外模型、選擇隱蔽性較高的傳播渠道等,在標識機制“力有不逮”之處,仍有賴于投訴舉報、違法認定、賬號處置等原有內(nèi)容治理措施,《民法典》《廣告法》《消費者權(quán)益保護法》等法律法規(guī)同樣可為此類違法行為提供明確的執(zhí)法依據(jù)。
二是AI標識的“長板”功能,可聚焦高風(fēng)險領(lǐng)域,回應(yīng)突出問題。與謠言治理面臨的情形類似:“倘若以信息內(nèi)容失真作為判斷標準,數(shù)量龐大的網(wǎng)絡(luò)謠言信息顯然超出了現(xiàn)有社會治理能力”,因此“需要按照網(wǎng)絡(luò)謠言的危害程度階梯式地設(shè)置不同的治理機制”,治理的根本目的不是徹底消滅謠言,而是“最大限度降低其社會危害”。[17]同樣的,AI標識的重點不在于覆蓋全部AI生成內(nèi)容,而在于識別和干預(yù)高風(fēng)險領(lǐng)域:如對于謠言、虛假宣傳等,可聚焦現(xiàn)有技術(shù)與監(jiān)管資源予以重點回應(yīng),與現(xiàn)有內(nèi)容治理措施(如用戶舉報、通知刪除機制、黑名單賬號管理)做更好協(xié)同。
相較而言,對于低風(fēng)險領(lǐng)域,如滿足模型訓(xùn)練需求的數(shù)據(jù)合成、服務(wù)于加工潤色目的圖形渲染,垂直行業(yè)的B端應(yīng)用等風(fēng)險較小的非公共傳播領(lǐng)域,或可探索更多元的治理路徑。歐盟《人工智能法案》對標識亦采取了多種豁免與例外,包括:自然人可明顯識別交互對象、用于藝術(shù)表達的內(nèi)容合成、或已通過人工審核等場景,即可不強制標識。這體現(xiàn)出的共識原則是:標識機制的實施應(yīng)與內(nèi)容風(fēng)險程度、受眾識別能力及實際傳播范圍等相匹配,避免因過度適用標識而導(dǎo)致適得其反的效果。
三是在現(xiàn)有條件下,合理界定生成平臺與傳播平臺責(zé)任。相較于生成平臺在內(nèi)容生成環(huán)節(jié)同步生成標識,傳播平臺對于標識的檢測識別,在投入成本與技術(shù)難度上均有明顯的上升。應(yīng)對多源內(nèi)容流入,易出現(xiàn)錯判、漏判或無法識別的情況。因此,對于傳播平臺,治理需有一定的包容性與激勵性,更多考慮平臺是否整體實現(xiàn)了內(nèi)容治理的目標,而非追求形式上對于標識的“無一遺漏”。正因如此,無論是美國加州AB 730和加州SB 942相關(guān)法案,亦或是歐盟《人工智能法案》均未將標識責(zé)任直接施加于傳播平臺。歸根結(jié)底,傳播平臺對于標識方案在內(nèi)容治理中的有效性,總體還處于探索階段。
結(jié)語
隨著AI技術(shù)的快速普及滲透、AI生成內(nèi)容將不可避免地成為信息生產(chǎn)的常態(tài),“人工”與“智能”的邊界也將日趨模糊,內(nèi)容治理的目標仍將回歸至內(nèi)容性質(zhì)本身。除了在謠言、虛假宣傳等高風(fēng)險領(lǐng)域,應(yīng)用標識技術(shù)手段為治理賦能外,在AI創(chuàng)作無處不在的未來,加強信息素養(yǎng)教育,引導(dǎo)公眾建立對信息媒介的客觀認知或是更為基礎(chǔ)性的工作。
參考文獻來源:
[1] 南都大數(shù)據(jù)研究院. “一鍵生成謠言!50個國內(nèi)AI輿情風(fēng)險案例,AI造謠占兩成.” 南方都市報, 19 Feb. 2025, m.mp.oeeee.com/a/BAAFRD0000202502191052861.html. 訪問日期:2025年5月21日.
[2] 任靜. “AI謠言輿情特征及風(fēng)險研判.” 法治網(wǎng)輿情中心, 12 May 2025, mp.weixin.qq.com/s/-1JtEBLOfYWYsWZs0Kcyog. 訪問日期:2025年5月21日.
[3] 廣州日報. “鄧超、孫儷工作室,發(fā)布嚴正聲明.” 18 May 2025. https://mp.weixin.qq.com/s/ckJmhMYKqWBaKFX_LzAJnQ.
[4] “這款百萬人下單的網(wǎng)紅熱敷貼,連代言人都是假的!” 人民日報, 28 Apr. 2025, https://mp.weixin.qq.com/s/m2BatFp6uXz-miaQFWpT0w.
[5] “場景一鍵生成、圖文真假難辨,AI批量造謠背后竟是……” 中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺, 11 July 2024, www.piyao.org.cn/20240711/0ad6f46ed21e480f8147c8b5bd4263e9/c.html. 訪問日期:2025年5月21日.
[6] 公安部網(wǎng)安局. “利用AI洗稿造謠,西安警方依法處罰多人.” 公安部網(wǎng)安局, 27 Mar. 2024, mp.weixin.qq.com/s/lZjp_8HT_5eNJHNUFDCseQ. 訪問日期:2025年5月21日.
[7] 部門規(guī)章:《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》;規(guī)范性文件:《人工智能生成合成內(nèi)容標識辦法》;國家標準:《網(wǎng)絡(luò)安全技術(shù) 人工智能生成合成內(nèi)容標識方法》
[8] Sacha Altay, Fabrizio Gilardi, People are skeptical of headlines labeled as AI-generated, even if true or human-made, because they assume full AI automation, PNAS Nexus, Volume 3, Issue 10, October 2024, pgae403, https://doi.org/10.1093/pnasnexus/pgae403
[9] Zhang, Hanlin, et al. Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models. Harvard University, 23 July 2024. arXiv, arxiv.org/abs/2311.04378.
[10] Burgess, Matt. “Criminals Have Created Their Own ChatGPT Clones.” WIRED, 7 Aug. 2023, https://www.wired.com/story/chatgpt-scams-fraudgpt-wormgpt-crime/. 早在2023年,科技媒體《WIRED》就曾報道過此類黑產(chǎn)語言模型的可得性,并指出它們從一開始就走上了與合法LLM服務(wù)截然不同的道路:“自七月初以來,有犯罪分子在暗網(wǎng)論壇和市場上兜售他們聲稱開發(fā)的兩個大型語言模型。這些系統(tǒng)……模仿了ChatGPT和谷歌Bard的功能……但與合法公司開發(fā)的LLM不同,這些聊天機器人是面向非法活動進行營銷的?!@些“黑產(chǎn)LLM”去除了任何形式的安全保護或倫理限制?!?/p>
[11] Hu, Yuepeng, et al. Stable Signature is Unstable: Removing Image Watermark from Diffusion Models. Duke University, 12 May 2024. arXiv:2405.07145. https://arxiv.org/abs/2405.07145.
[12] Dong, Ziping, et al. Imperceptible but Forgeable: Practical Invisible Watermark Forgery via Diffusion Models. The State Key Laboratory of Blockchain and Data Security, Zhejiang University, 28 Mar. 2025. arXiv:2503.22330.
[13] https://mp.weixin.qq.com/s/TeU3tNYPYSIp_FqCIvNQ3g
[14] “AI檢測翻車現(xiàn)場:《滕王閣序》100% AI生成?實測結(jié)果來了.” 揚子晚報, 10 May 2025, https://mp.weixin.qq.com/s/3sMO9U7lyGntot0qbQxBqA.
[15] Sowmya S., Sahana Karanth, and Sharath Kumar. “Protection of Data Using Image Watermarking Technique.” Global Transitions Proceedings, vol. 2, 2021, pp. 386–391. Elsevier, doi:10.1016/j.gltp.2021.08.035.
[16] Srinivasan, Siddarth. “Detecting AI Fingerprints: A Guide to Watermarking and Beyond.” Brookings Institution, 8 May 2024, https://www.brookings.edu/articles/detecting-ai-fingerprints-a-guide-to-watermarking-and-beyond/.
[17] 趙精武、陳翊瑄. “思享|‘網(wǎng)絡(luò)謠言’的老題新治.” 法理雜志, 18 May 2025, https://mp.weixin.qq.com/s/SXl8YoM6JQIFI8663hnAfQ.
本文由人人都是產(chǎn)品經(jīng)理作者【騰訊研究院】,微信公眾號:【騰訊研究院】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!