檢索增強生成(RAG)的版權(quán)新關(guān)注
RAG通過整合預訓練語言模型和外部知識庫,顯著提升了生成內(nèi)容的準確性、時效性和專業(yè)性。然而,這一技術(shù)的廣泛應用也引發(fā)了新的版權(quán)問題。本文將深入探討RAG技術(shù)的版權(quán)挑戰(zhàn),分析其在數(shù)據(jù)檢索收集、技術(shù)保護措施以及作品利用等環(huán)節(jié)中的法律風險,并探討合理使用原則在RAG場景下的適用性。
一、AIGC 迎來2.0階段:檢索增強生成
2025年5月與7月,亞馬遜先后與《紐約時報》以及赫斯特、康泰納仕等傳媒集團達成合作,使得旗下AI產(chǎn)品可以實時展示《紐約時報》的摘要和片段等。亞馬遜與《紐約時報》的合作令業(yè)界頗感意外。因為《紐約時報》此前對于AI版權(quán)問題一直持強硬態(tài)度,2023年12月便以侵犯版權(quán)為由將OpenAI訴至美國紐約南區(qū)法院,也成為了全美第一家公開起訴大模型廠商的主流媒體。
值得關(guān)注,OpenAI也在2025年4月宣布與《華盛頓郵報》的合作。ChatGPT的輸出內(nèi)容由此能夠嵌入《華盛頓郵報》的文章摘要和原始報道鏈接。OpenAI表示,這只是其與20多家出版商合作中的一個縮影——因為他們有著共同的承諾,即讓用戶獲得更加可靠、真實的信息,特別是在高復雜性和時效性的話題上。
OpenAI官網(wǎng)顯示的合作版權(quán)方
域外大模型廠商與新聞出版機構(gòu)的合作,折射出生成式人工智能領(lǐng)域的一個顯著演進趨勢:即從此前“AIGC1.0階段”單純依靠“模型訓練”(預訓練、微調(diào)等)獲得的參數(shù)能力,隨機生成用戶問題答案;轉(zhuǎn)向當下“AIGC2.0階段”通過整合嵌入第三方權(quán)威來源信息,來提升最終生成內(nèi)容的準確性、時效性和專業(yè)性。
技術(shù)層面,這被稱為“檢索增強生成”(Retrieval-Augmented Generation,簡稱RAG),本質(zhì)上是“語言生成模型” 與“信息檢索技術(shù)”的整合。2025年以來,國內(nèi)大模型廠商紛紛增加了檢索增強生成功能——即目前用戶在使用過程中所感知到的,在獲得大模型反饋結(jié)果前,都會先經(jīng)歷“參考資料檢索”的過程,并且收到的最終內(nèi)容整合結(jié)果都會附帶“信息出處來源”。
二、“檢索增強生成”為何會崛起?
“檢索增強生成”最早由Facebook AI Research團隊在2020年發(fā)表的《用于知識密集型自然語言處理任務的檢索增強生成》一文中提出。檢索增強生成強調(diào),將預訓練模型的內(nèi)部知識存儲(參數(shù)記憶)與外部知識庫檢索(非參數(shù)記憶)相結(jié)合,來解決傳統(tǒng)大模型內(nèi)容生成的固有缺陷——“模型幻覺”和“時效斷層”。
一個基本共識是,大模型常面臨“幻覺”問題,輸出不可靠的信息,專注于“編好故事”而非“驗證事實”。這也使得人們在很多嚴謹重要場景下,基于不信任,而放棄對大模型的使用。同時,人們也經(jīng)常會在大模型用戶協(xié)議中看到類似表述,“模型輸出不一定總是準確的,……使用我們的服務可能會導致輸出結(jié)果無法準確反映真實的人、地點或事實”。
早在2023年6月,ChatGPT便因為自身“幻覺”,編造了針對佐治亞州電臺主持人Frederick Riehl“詐騙和挪用基金會資金”的虛假信息,也使得OpenAI第一次因誹謗被訴至法院。2025年3月,針對OpenAI的幻覺問題,歐洲數(shù)字權(quán)利中心Noyb向挪威數(shù)據(jù)監(jiān)管機構(gòu)發(fā)起了投訴——認為ChatGPT生成不準確內(nèi)容的行為,違反了GDPR第5(1)(d)中關(guān)于“個人數(shù)據(jù)準確性”的規(guī)則要求。
大模型反饋的答案內(nèi)容僅限于訓練時所依據(jù)的數(shù)據(jù)信息,所以存在“時效斷層”的問題。人們常提到的“預訓練”這個詞,實際上也揭示了大模型是“預先訓練好的”。一旦訓練結(jié)束,大模型的整體參數(shù)便被固定下來,無法實現(xiàn)自動更新。這意味著,模型知識僅限于當時訓練數(shù)據(jù)所涵蓋的范圍,如果訓練數(shù)據(jù)沒有包含最新的信息,大模型就無法生成相關(guān)的答案。例如,ChatGPT雖然是2022年11月發(fā)布的,但訓練語料是截止到2021年9月;Gemini 2.0的發(fā)布時間是2024年12月,但訓練語料是截止到2024年6月。
檢索增強生成賦予了大模型利用實時外部數(shù)據(jù)提供準確答案的能力,無需模型參數(shù)的重新訓練,只需做好知識源的匹配更新即可。Facebook AI Research團隊將檢索增強生成形容為,“就像開卷考試一樣,學生帶著整理好的最全面的參考資料入場,結(jié)合自己已背誦的知識,回答試卷問題”。綜上所述,實際也解釋了開篇提到的大模型廠商與新聞機構(gòu)積極建立內(nèi)容合作的底層原因。
檢索增強生成的整個過程可分為“數(shù)據(jù)檢索收集”和“內(nèi)容整合展示”兩個階段。第一階段,大模型收到用戶指令后,會將問題先進行語義處理,并在外部知識庫中進行檢索,知識庫可能是事前建立的,也可能是實時全網(wǎng)搜索的結(jié)果。第二階段,檢索到的相關(guān)信息會被作為“增強上下文”一起發(fā)送給大模型。大模型則會利用這些強時效性的“增強提示”來生成最終回答。檢索增強生成的運行過程,會涉及海量版權(quán)作品的收集和利用,目前國內(nèi)外也已經(jīng)出現(xiàn)了相關(guān)的版權(quán)爭議糾紛。
三、“檢索增強生成”的現(xiàn)實版權(quán)糾紛
早在2024年10月21日,美國便出現(xiàn)了首例針對“檢索增強生成”的版權(quán)侵權(quán)訴訟——“道瓊斯公司和紐約郵報控股公司訴Perplexity AI”案。被告Perplexity AI是一家2022年成立的AI初創(chuàng)公司,用戶提問后,其將聯(lián)網(wǎng)檢索外部信息并回復摘要和網(wǎng)頁鏈接。原告主張,被告通過檢索工具爬取《華爾街日報》和《紐約郵報》數(shù)十萬篇受版權(quán)保護的文章,并存入“檢索增強生成”數(shù)據(jù)庫中;然后根據(jù)用戶的提問進行總結(jié)和改寫,有時甚至逐字復制,使得用戶不必點擊原始新聞網(wǎng)站,即可獲取高質(zhì)量的付費內(nèi)容,這顯然構(gòu)成版權(quán)侵權(quán)。
2025年2月13日,《大西洋月刊》《衛(wèi)報》等十四家全球頭部新聞出版商于紐約南區(qū)聯(lián)邦法院起訴加拿大AI公司Cohere,指控其依賴“檢索增強生成”技術(shù),通過“網(wǎng)絡搜索連接器”(Web Search Connector)實時搜索、篩選并抓取原告內(nèi)容,在生成答案中直接輸出原告版權(quán)作品的完整原文及替代性摘要,構(gòu)成版權(quán)侵權(quán)。
同樣,2025年4月3日,歐盟法院(CJEU)受理的第一起生成式人工智能版權(quán)案件,也是發(fā)生在檢索增強生成領(lǐng)域。該案源于匈牙利布達佩斯法院在審的新聞商Like與谷歌Gemini大模型之間的版權(quán)爭議。鑒于案件的復雜性,被提請至歐盟法院處理。從公開報道的事實來看,本案可以排除原告文章被Gemini加以語料訓練的可能。實際上,Gemini通過檢索增強生成獲取到了與用戶提問(您能否用匈牙利語提供出現(xiàn)在balatonkornyeke.hu網(wǎng)站中關(guān)于“Kozsó計劃將海豚引入巴拉頓湖中?”的報道內(nèi)容)高度相關(guān)的原告新聞,并實時生成摘要反饋給用戶。原告指控谷歌侵犯了其享有的新聞出版商鄰接權(quán)等。
國內(nèi)在檢索增強生成領(lǐng)域的行業(yè)糾紛也初見端倪。根據(jù)相關(guān)報道,2024年8月,知網(wǎng)向國內(nèi)某AI檢索平臺發(fā)送了一封長達28頁的侵權(quán)告知函,指控其在生成內(nèi)容中未經(jīng)許可使用了知網(wǎng)平臺的內(nèi)容數(shù)據(jù)。AI檢索平臺則主張其僅收錄公開可見的學術(shù)文獻題錄與摘要,并未收錄學術(shù)文獻正文;用戶閱讀正文還是需要通過來源鏈接跳轉(zhuǎn)至知網(wǎng),因此并未造成損害。最終,AI檢索平臺表示經(jīng)過多方考量平衡,決定尊重知網(wǎng)的意愿,不再引用。
四、“檢索增強生成”涉及作品收集問題
在“數(shù)據(jù)檢索收集”階段,無論是事前建立離線數(shù)據(jù)庫,還是實時在線爬取數(shù)據(jù),均涉及將作品的部分或全部以特定方式存儲在介質(zhì)中。這便引發(fā)了版權(quán)法下關(guān)于復制權(quán)侵權(quán)判定的關(guān)注。數(shù)字環(huán)境下“復制權(quán)”的討論,包括“長期復制”和“臨時復制”兩個問題。目前的共識是,未經(jīng)授權(quán)的長期復制構(gòu)成版權(quán)侵權(quán);但對于臨時復制的侵權(quán)認定在實踐中仍存在爭議。
數(shù)字環(huán)境下的“長期復制”,大致包括“將作品通過各種技術(shù)手段固定在硬盤、光盤等有形載體上”“將作品上傳至網(wǎng)絡服務器中”“將網(wǎng)絡服務器中的作品下載至本地端”等情形。數(shù)字環(huán)境下的臨時復制,是指在使用作品的過程中自動出現(xiàn)了作品的復制件,但該復制件不會長期存續(xù),“用完即逝”。舉例來講,就是我們在線欣賞數(shù)字音樂時,服務器會首先讀取歌曲信息并進行存儲,才可以轉(zhuǎn)化成數(shù)據(jù)加以傳輸播放;但播放結(jié)束、用戶退出后,復制件又會隨即消失。
在檢索增強生成中,數(shù)據(jù)庫的構(gòu)建通常包括將外部作品轉(zhuǎn)換為向量表示,進而加以本地化存儲。進而根據(jù)用戶提問,將相關(guān)信息有選擇性地提供給大模型。與自動存儲或瀏覽緩存不同,檢索增強數(shù)據(jù)庫的建立一般會對作品進行相對穩(wěn)定的存儲處理,存在構(gòu)成長期復制的現(xiàn)實可能。在前述“道瓊斯公司和紐約郵報控股公司訴Perplexity AI”案中,原告認為:“Perplexity AI在構(gòu)建檢索增強數(shù)據(jù)庫時,未經(jīng)授權(quán)復制其大量文章,這種在‘輸入階段’的大規(guī)模復制行為本身已構(gòu)成版權(quán)侵犯,無論最終輸出內(nèi)容如何。”
在實時檢索場景下,有觀點認為,如果搜索引擎對信息的處理建立在“臨時復制”的基礎上,僅僅發(fā)揮“中心化信息管理員”或“互聯(lián)網(wǎng)信息傳播中介”的作用,用戶點擊搜索結(jié)果仍跳轉(zhuǎn)至原始網(wǎng)站,則不構(gòu)成侵權(quán)。歐盟知識產(chǎn)權(quán)局(EUIPO)2025年5月發(fā)布的《從版權(quán)視角看生成式人工智能的發(fā)展》指出,RAG在動態(tài)檢索場景下通常僅臨時保存內(nèi)容,這更接近于文本與數(shù)據(jù)挖掘例外或臨時復制的例外。12但這依然取決于大模型廠商的具體技術(shù)實現(xiàn)路徑。若在實時檢索后,選擇將獲取的內(nèi)容同時進行本地化存儲,則依舊存在被認定為“長期復制”的可能。
五、“檢索增強生成”涉及技術(shù)保護問題
在檢索增強生成中,若存在以繞過IP限制、破解動態(tài)加載限制等方式抓取版權(quán)作品的行為,則可能構(gòu)成對《著作權(quán)法》“不得故意避開或破壞技術(shù)措施規(guī)定”的違反。我國現(xiàn)行《著作權(quán)法》對“技術(shù)措施”的定義是,“用于防止、限制未經(jīng)權(quán)利人許可瀏覽、欣賞作品、表演、錄音錄像制品或者通過信息網(wǎng)絡向公眾提供作品、表演、錄音錄像制品的有效技術(shù)、裝置或者部件”。
值得注意的是,“技術(shù)措施”并不是類似于復制權(quán)、信息網(wǎng)絡傳播權(quán)一樣的版權(quán)具體權(quán)利類型,而是法律從“不法行為規(guī)制角度”賦予版權(quán)人保護自身權(quán)益的一種手段。實操中,技術(shù)措施又可以分為“接觸控制措施”和“利用控制措施”。前者是為了防止他人未經(jīng)授權(quán)獲取、接觸作品;后者則是為了預防他人未經(jīng)授權(quán)對作品進行復制、傳播等利用。
在前述知網(wǎng)與AI檢索平臺的案件中,盡管知網(wǎng)部分內(nèi)容可公開瀏覽,但其也通過登錄驗證等技術(shù)手段對文獻數(shù)據(jù)庫設置了系統(tǒng)訪問權(quán)限。因此,若實踐中第三方模型廠商在構(gòu)建自身檢索數(shù)據(jù)庫時,存在通過技術(shù)手段避開知網(wǎng)設置的訪問限制技術(shù),來獲取相關(guān)學術(shù)文獻內(nèi)容的行為,則涉及“技術(shù)措施”領(lǐng)域的違法性判斷。
在“道瓊斯公司和紐約郵報控股公司訴Perplexity AI”中,《華爾街日報》和《紐約郵報》長期設置的“付費墻”,構(gòu)成了較為典型的“接觸控制措施”。若Perplexity AI故意規(guī)避該技術(shù)措施,抓取原告付費新聞,則同樣可能違反“技術(shù)措施”的要求。在美國,《數(shù)字千年版權(quán)法》第1201條賦予版權(quán)人“技術(shù)措施雙重保護體系”:一方面,禁止他人直接從事規(guī)避版權(quán)人設置的“接觸控制措施”,另一方面,也禁止他人提供規(guī)避版權(quán)人“技術(shù)措施”的工具手段。
六、“檢索增強生成”涉及作品利用問題
在“內(nèi)容整合展示”階段,需要評估檢索增強生成對作品的利用,是否落入版權(quán)法規(guī)制的“直接侵權(quán)”和“間接侵權(quán)”的范疇。所謂版權(quán)直接侵權(quán),是指行為人直接從事版權(quán)法專有權(quán)利規(guī)制的行為,例如直接將侵權(quán)作品上傳至網(wǎng)站服務器并向他人傳播;所謂版權(quán)間接侵權(quán),指行為人雖然沒有從事版權(quán)直接侵權(quán),但為之提供了一定的助成條件或幫助行為,例如平臺故意通過算法推薦技術(shù)等幫助用戶擴大侵權(quán)內(nèi)容的傳播等。在直接侵權(quán)層面,大模型輸出的內(nèi)容可能侵犯復制權(quán)、改編權(quán)及信息網(wǎng)絡傳播權(quán)等。
例如,《紐約時報》訴OpenAI案中,原告不僅指控OpenAI未經(jīng)授權(quán)利用自身新聞內(nèi)容訓練GPT系列模型,還主張其與微軟合作的“Browse with Bing”插件通過實時搜索,在合成結(jié)果中直接引用了《紐約時報》旗下Wirecutter評測網(wǎng)站的大量內(nèi)容,構(gòu)成版權(quán)侵權(quán)。
對于復制權(quán)和改編權(quán)的侵權(quán)認定區(qū)分,我們可以《北京高級人民法院侵害著作權(quán)案件審理指南》為參考,“未經(jīng)許可在被訴侵權(quán)作品中使用原作品表達但未形成新作品的,屬于復制行為;若形成新作品,則屬改編?!痹诖嘶A上,如果檢索增強生成整合輸出的內(nèi)容,在重構(gòu)原作品表達的基礎上,也具備了獨創(chuàng)性的新表達,構(gòu)成版權(quán)侵權(quán)。
在間接侵權(quán)層面,則需根據(jù)不同情況具體分析。一方面,若輸出內(nèi)容標注的來源指向侵權(quán)盜版網(wǎng)站,而模型廠商的標注行為客觀上擴大了原盜版內(nèi)容的傳播,則存在構(gòu)成間接侵權(quán)的可能。另一方面,當用戶利用模型輸出內(nèi)容,后續(xù)在其他平臺從事侵權(quán)傳播行為時,模型廠商若存在過錯,也可能構(gòu)成間接侵權(quán)。上述兩種間接侵權(quán)情形下,模型廠商責任的認定需要結(jié)合其版權(quán)保護注意義務的具體情況加以判定,包括其盈利模式的設計,有無履行必要的版權(quán)保護提示義務,以及得知侵權(quán)后有無采取必要措施等等。
七、“檢索增強生成”涉及“合理使用”之爭
首先,在“數(shù)據(jù)檢索收集”階段,是否構(gòu)成版權(quán)法上“合理使用”的責任豁免,因數(shù)據(jù)來源不同而存在差異。一方面,使用盜版內(nèi)容構(gòu)建RAG知識庫原則上難以構(gòu)成合理使用。2025年6月,美國加州北區(qū)法院在“三位作家起訴AI公司Anthropic版權(quán)侵權(quán)案”中認定,Anthropic從盜版網(wǎng)站下載數(shù)百萬本書籍并將其永久存儲在其中央數(shù)據(jù)庫中的行為,不屬于合理使用,構(gòu)成了對作者版權(quán)的侵犯。
另一方面,在合法獲取作品數(shù)據(jù)的情況下,“市場替代性”是判定模型廠商“合理使用”抗辯能否成立的關(guān)鍵。在前述Anthropic案中,法官明確裁定,將合法購買的紙質(zhì)書掃描成數(shù)字副本用于內(nèi)部研究,可以被認定為合理使用。但歐洲議會2025年7月發(fā)布的《生成式人工智能與版權(quán):訓練、創(chuàng)作及監(jiān)管》報告則表示,即使未發(fā)生長期存儲,但如果摘要內(nèi)容實質(zhì)替代了對受保護作品的訪問,RAG系統(tǒng)仍可能引發(fā)侵權(quán)問題。
日本文化廳在2024年3月發(fā)布的《關(guān)于AI與著作權(quán)相關(guān)問題的意見》指出,RAG等技術(shù)開發(fā)中涉及對作品數(shù)據(jù)的復制與向量化處理,需分情形判定是否侵權(quán):若生成內(nèi)容并非原作品的獨創(chuàng)性表達,則此類復制有可能適用著作權(quán)法第30條之4規(guī)定的“非欣賞性利用”;若在輸出內(nèi)容中呈現(xiàn)作品的全部或部分獨創(chuàng)性表達,則不構(gòu)成合理使用。
其次,對于“數(shù)據(jù)檢索收集”階段,版權(quán)“技術(shù)措施”與“合理使用”認定的關(guān)系。國內(nèi)司法側(cè)有觀點指出,規(guī)避、破壞技術(shù)措施行為的違法性判斷,不影響后續(xù)作品利用行為是否構(gòu)成合理使用的判斷。也即,滿足合理使用要求的情況下使用作品,但存在規(guī)避技術(shù)措施的行為,則可以在認定合理使用的基礎上,同時認定構(gòu)成著作權(quán)法上的違法行為。
但值得注意的是,在大模型版權(quán)相關(guān)規(guī)則領(lǐng)域,無論是歐盟《單一數(shù)字市場版權(quán)指令》下的“文本與數(shù)據(jù)挖掘”還是日本2018年修改后《著作權(quán)法》下的“非欣賞性利用”,都明確把“遵守版權(quán)人設置的技術(shù)措施”作為認定“合理使用”成立與否的前提條件。
新加坡在《2021年版權(quán)法》中規(guī)定了“計算數(shù)據(jù)分析(computational data analysis)”的合理使用豁免,允許出于數(shù)據(jù)分析目的復制或存儲版權(quán)內(nèi)容,但使用者必須確保合法獲取原始數(shù)據(jù),不得規(guī)避付費墻或違反數(shù)據(jù)庫條款。
再次,在“內(nèi)容整合展示”階段,是否構(gòu)成“合理使用”的核心在于判斷,輸出內(nèi)容對原文的復制比例、是否注明來源等。對于該問題,目前各國立法政策尚未有統(tǒng)一結(jié)論和標準,高度依賴于個案實操認定。在我國,《著作權(quán)法》第24條規(guī)定了“適當引用”作為合理使用的法定情形,“為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已經(jīng)發(fā)表的作品?!睔W盟在《數(shù)字單一市場版權(quán)指令》第15條中同樣明確了“對新聞出版物中個別字詞或極短摘錄的引用”,不會侵犯新聞出版商對于數(shù)字新聞出版物的鄰接權(quán)。
日本文化廳也曾表示,除《著作權(quán)法》第30條之4規(guī)定的“非欣賞性利用”外,運用“檢索增強生成”還可以構(gòu)成《著作權(quán)法》第47條之5規(guī)定的“輕微利用”?!拜p微利用”是否成立應基于利用部分占比、利用量、呈現(xiàn)精度等因素進行綜合判斷。如果檢索增強生成的回答超出了合理限度,依舊可能構(gòu)成侵權(quán)。
但美國版權(quán)局2025年5月發(fā)布的《版權(quán)與人工智能第三部分:生成式人工智能訓練(預發(fā)布版本)》報告表示,若檢索增強生成的輸出旨在總結(jié)或提供所檢索版權(quán)作品(如新聞文章)的節(jié)略版本,而非僅提供超鏈接,則該使用行為不太可能構(gòu)成合理使用。
歐盟《從版權(quán)視角看生成式人工智能的發(fā)展》報告指出,實踐中AI輸出內(nèi)容中對版權(quán)作品的摘錄長度與原始作品點擊率呈負相關(guān)。在出版商與模型廠商簽訂的授權(quán)協(xié)議中,較長摘錄片段雖可支撐更高許可費用,但會降低用戶訪問原始來源的意愿。
當前,某些具備AI檢索與摘要功能的搜索引擎服務商已推出調(diào)控摘錄長度的措施。例如微軟允許內(nèi)容來源網(wǎng)站在網(wǎng)頁中添加robots元標簽(robots-meta-tags),以控制搜索結(jié)果中文本摘錄的最大長度。
本文由人人都是產(chǎn)品經(jīng)理作者【騰訊研究院】,微信公眾號:【騰訊研究院】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!