国产午夜精品av一区二区麻豆,亚洲精品成人网久久久久久

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

談?wù)凴ag的產(chǎn)生原因、基本原理與實(shí)施路徑

風(fēng)叔

2024-07-31

3 評論 5716 瀏覽 28 收藏

26 分鐘

在人工智能領(lǐng)域，RAG技術(shù)正成為推動大模型應(yīng)用的關(guān)鍵。本文將深入探討RAG技術(shù)的原理、挑戰(zhàn)以及在不同階段的優(yōu)化策略，幫助讀者全面了解并有效實(shí)施這一技術(shù)。如果你對提升AI Agent的性能感興趣，不妨繼續(xù)閱讀。

在《大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）》中，風(fēng)叔提到要實(shí)現(xiàn)良好的AI Agent性能，RAG技術(shù)的使用至關(guān)重要，今天我們就來重點(diǎn)談一談RAG。

一、什么是Rag？

RAG，Retrieval-Augmented Generation，中文名檢索增強(qiáng)生成，是AI領(lǐng)域非常重要的一種技術(shù)方案。其核心作用是給LLM大模型外掛專門的知識庫，指導(dǎo)大模型生成更準(zhǔn)確的輸出。

為什么要給LLM大模型外掛知識庫呢？因?yàn)殡m然大模型的能力越來越強(qiáng)大，但其內(nèi)在的缺點(diǎn)也非常明顯。

第一，存在幻覺問題。LLM大模型的底層原理是基于數(shù)學(xué)概率進(jìn)行預(yù)測，其模型輸出本質(zhì)上是一種概率預(yù)測的結(jié)果。所以LLM大模型有時候會出現(xiàn)胡言亂語，或者生成一些似是而非的答案，在大模型并不擅長的領(lǐng)域，幻覺問題會更加嚴(yán)重。使用者要區(qū)分幻覺問題是非常困難的，除非使用者本身就具備了相應(yīng)領(lǐng)域的知識，但這里就會存在矛盾，已經(jīng)具備相關(guān)知識的人是不會采用大模型生成的答案的。

第二，缺乏對生成結(jié)果的可解釋性。LLM大模型本身就是一個黑盒，這個模型使用了什么數(shù)據(jù)進(jìn)行訓(xùn)練，對齊策略是怎么樣的，使用者都無從得知。所以對于大模型生成的答案，更加難以追蹤溯源。

第三，缺乏對專業(yè)領(lǐng)域知識的理解。LLM大模型知識的獲取嚴(yán)重依賴訓(xùn)練數(shù)據(jù)集的廣度，但目前市面上大多數(shù)的數(shù)據(jù)訓(xùn)練集都來源于網(wǎng)絡(luò)公開數(shù)據(jù)，對于企業(yè)內(nèi)部數(shù)據(jù)、特定領(lǐng)域或高度專業(yè)化的知識，大模型無從學(xué)習(xí)。因此大模型的表現(xiàn)更像是一個及格的通才，但是在一些專業(yè)場景，比如企業(yè)內(nèi)部的業(yè)務(wù)流，一個及格的通才是無法使用的，需要利用企業(yè)的專屬數(shù)據(jù)進(jìn)行喂養(yǎng)和訓(xùn)練，打造為優(yōu)秀的專才。

第四，數(shù)據(jù)的安全性。這是對上面第三點(diǎn)的延伸，沒有企業(yè)愿意承擔(dān)數(shù)據(jù)泄露的風(fēng)險，將自身的私域數(shù)據(jù)上傳第三方平臺進(jìn)行訓(xùn)練。因此，完全依賴通用大模型自身能力的應(yīng)用方案，在企業(yè)場景下是行不通的。

第五，知識的時效性不足。大模型的內(nèi)在結(jié)構(gòu)會被固化在其被訓(xùn)練完成的那一刻，但是當(dāng)你詢問大模型一些最新發(fā)生的事情，則難以給出答案。

為了克服這些問題，第一種方式是微調(diào)，即Finetune。但是由于生成模型依賴于內(nèi)在知識，也就是各類參數(shù)的權(quán)重，即使做了微調(diào)，模型還是無法擺脫幻覺問題。此外在實(shí)際場景中，很多新的信息、數(shù)據(jù)、政策每時每刻都在產(chǎn)生，除非對模型進(jìn)行高頻的微調(diào)，否則模型的訓(xùn)練速度永遠(yuǎn)趕不上外部信息更新的速度，而高頻微調(diào)的成本就太高了，

在2020 年，Meta AI 的研究人員提出了檢索增強(qiáng)生成（RAG）的方法，為LLM大模型提供了一種與外部信息高效互動的解決方案。其主要作用類似于搜索引擎，找到用戶提問最相關(guān)的知識或者是相關(guān)的對話歷史，并結(jié)合原始提問，創(chuàng)造信息豐富的prompt，指導(dǎo)LLM大模型生成更準(zhǔn)確的輸出。

這就是Rag技術(shù)產(chǎn)生的背景和原因。

二、Rag技術(shù)的基本原理

聊聊炙手可熱的Rag：產(chǎn)生原因、基本原理與實(shí)施路徑

RAG可分為5個基本流程：知識文檔的準(zhǔn)備、嵌入模型、存入向量數(shù)據(jù)庫、查詢檢索和生產(chǎn)回答。

現(xiàn)實(shí)場景中，我們面對的知識源可能包括多種格式，如Word文檔、TXT文件、CSV數(shù)據(jù)表、Excel表格，甚至圖片和視頻。因此需要使用專門的文檔加載器（例如PDF提取器）或多模態(tài)模型（如OCR技術(shù)），將這些豐富的知識源轉(zhuǎn)換為大語言模型可理解的純文本數(shù)據(jù)，然后開啟RAG的五個核心步驟。

第一步，文檔切片/分塊：在企業(yè)級應(yīng)用場景中，文檔尺寸可能非常大，因此需要將長篇文檔分割成多個文本塊，以便更高效地處理和檢索信息。分塊的方式有很多種，比如按段落、按內(nèi)容或者其他特殊結(jié)構(gòu)。同時，需要注意分塊的尺寸，如果分塊太小，雖然查詢更精準(zhǔn)，但召回時間更長；如果分塊太大，則會影響查詢精準(zhǔn)度。

第二步，嵌入模型：嵌入模型的核心任務(wù)是將文本轉(zhuǎn)換為向量形式，這樣我們就能通過簡單的計算向量之間的差異性，來識別語義上相似的句子。

第三步，存入向量數(shù)據(jù)庫：將文檔切片和嵌入模型的結(jié)果存儲進(jìn)入向量數(shù)據(jù)庫。向量數(shù)據(jù)庫的主要優(yōu)勢在于，它能夠根據(jù)數(shù)據(jù)的向量接近度或相似度，快速、精確地定位和檢索數(shù)據(jù)，實(shí)現(xiàn)很多傳統(tǒng)數(shù)據(jù)庫無法實(shí)現(xiàn)的功能，比如根據(jù)旋律和節(jié)奏搜索出特定的歌曲、在電影中搜索浪漫的片段、在文檔中找出意圖相近的段落等等。

第四步，用戶查詢檢索：用戶的問題會被輸入到嵌入模型中進(jìn)行向量化處理，然后系統(tǒng)會在向量數(shù)據(jù)庫中搜索與該問題向量語義上相似的知識文本或歷史對話記錄并返回，這就是檢索增強(qiáng)。

第五步，生成問答：最終將用戶提問和上一步中檢索到的信息結(jié)合，構(gòu)建出一個提示模版，輸入到大語言模型中，由大模型生成最終的結(jié)果并返回。

Rag技術(shù)一經(jīng)問世，就取得了非常廣泛的使用，成為AI大模型產(chǎn)品落地中必不可少的一環(huán)。根據(jù)具體的使用場景，可以分為以下幾類。

通用問答系統(tǒng)：RAG可以根據(jù)檢索到的相關(guān)信息生成準(zhǔn)確的答案，幫助員工更快地獲取所需信息，提高決策效率，比如搭建企業(yè)內(nèi)部知識庫、公司規(guī)章制度查詢、新員工入職培訓(xùn)、公司合同資料解讀和查詢等。
智能客服系統(tǒng)：RAG可以結(jié)合產(chǎn)品資料知識庫、聊天記錄、用戶反饋等數(shù)據(jù)，自動為用戶提供更精準(zhǔn)的回答，已經(jīng)有非常多的初創(chuàng)公司選擇用RAG技術(shù)構(gòu)建新一代的智能客服系統(tǒng)。
智能數(shù)據(jù)分析：RAG可以結(jié)合外部數(shù)據(jù)源，如數(shù)據(jù)庫、API、文件等，為用戶提供更便捷的數(shù)據(jù)分析服務(wù)。傳統(tǒng)企業(yè)的數(shù)據(jù)分析主要靠BI分析師，每天都需要寫大量的SQL語句進(jìn)行查詢，而在RAG的支持下，企業(yè)的每個員工都能以自然對話的方式獲取數(shù)據(jù)。比如門店店長直接用語音對話，“請幫我找出上周銷量排名前10，但本周銷量下滑最快的品類”，系統(tǒng)即可直接給出答復(fù)。
自動化文檔處理：企業(yè)還可以利用RAG和LLM大模型自動化文檔處理流程，例如自動生成合同、撰寫周報、總結(jié)會議紀(jì)要等，節(jié)省時間和人力成本。

三、Rag實(shí)施路徑

Rag技術(shù)雖然相對比較容易入門，但是要部署到生產(chǎn)環(huán)境并且對外提供穩(wěn)定的服務(wù)，還是有很多路要走的，尤其是其流程的各個環(huán)節(jié)都有非常多的優(yōu)化空間。

從優(yōu)化的方向來看，主要包括四個方面，知識分塊與索引優(yōu)化、用戶query改寫優(yōu)化、數(shù)據(jù)召回優(yōu)化和內(nèi)容生成優(yōu)化。當(dāng)然，“羅馬不是一天建成的”，Rag相關(guān)項目的實(shí)施也需要分階段逐步進(jìn)行迭代和優(yōu)化，風(fēng)叔建議可以按照以下三個階段來實(shí)施。

第一階段，可運(yùn)行，即系統(tǒng)能跑通整體流程

1）知識分塊與索引

在RAG系統(tǒng)中，文檔需要分割成多個文本塊再進(jìn)行向量嵌入。在不考慮大模型輸入長度限制和成本問題情況下，其目的是在保持語義上的連貫性的同時，盡可能減少嵌入內(nèi)容中的噪聲，從而更有效地找到與用戶查詢最相關(guān)的文檔部分。

如果分塊太大，可能包含太多不相關(guān)的信息，從而降低了檢索的準(zhǔn)確性。相反，分塊太小可能會丟失必要的上下文信息，導(dǎo)致生成的回應(yīng)缺乏連貫性或深度。

第一階段可先按固定字符拆分知識，并通過設(shè)置冗余字符來降低句子截斷的問題，使一個完整的句子要么在上文，要么在下文。這種方式能盡量避免在句子中間斷開的問題，且實(shí)現(xiàn)成本最低，非常適合在業(yè)務(wù)起步階段。

2）用戶Query改寫

在RAG系統(tǒng)中，用戶的查詢問題會被轉(zhuǎn)化為向量，然后在向量數(shù)據(jù)庫中進(jìn)行匹配，因此查詢的措辭準(zhǔn)確度會直接影響搜索的結(jié)果。在向量空間中，對人類來說看似相同的兩個問題其向量大小并不一定很相似

我們可以采用“查詢重寫”方案，即直接利用LLM大模型重新表述問題。在進(jìn)行多輪對話時，用戶提問中的某些內(nèi)容可能會指代上文中的部分信息，可以將歷史信息和用戶提問一并交給LLM大模型進(jìn)行重新表述。

總體來說，第一階段可以先直接使用大模型的理解能力，結(jié)合上下文，突出用戶意圖。此時不需要做過多的Query改寫，以測試大模型理解能力和跑通流程為主。

3）數(shù)據(jù)召回

第一階段可以先使用最簡單的向量召回方式，找到在語義向量維度最近似的答案進(jìn)行召回。這里需要注意的是，要找一個和自己業(yè)務(wù)比較契合的embedding模型和向量數(shù)據(jù)庫。

召回結(jié)果的數(shù)量是另一個關(guān)鍵因素，更多的結(jié)果可以提供豐富的預(yù)料，有助于系統(tǒng)更好地理解問題的上下文和隱含細(xì)節(jié)。但是結(jié)果數(shù)量過多可能導(dǎo)致信息過載，降低回答準(zhǔn)確性并增加系統(tǒng)的時間和資源成本。第一階段我們可以先把召回數(shù)量設(shè)置為10。

4）內(nèi)容生成

內(nèi)容生成環(huán)節(jié)更多的是考慮用戶體驗(yàn)，在第一階段我們可以先簡單一些，能順利輸出答案即可。因?yàn)閿?shù)據(jù)召回環(huán)節(jié)只有向量召回，因此這一步可以只將上一步召回環(huán)節(jié)返回的top 10的知識篩選出來，然后提供給大模型生成答案。

第一階段的系統(tǒng)可能會存在較多問題，大家會發(fā)現(xiàn)生成答案的相關(guān)性和準(zhǔn)確度都比較低。但是沒關(guān)系，這一階段的首要任務(wù)是跑通系統(tǒng)流程，優(yōu)化的工作我們放在第二和第三階段再做。

第二階段，可使用，即系統(tǒng)初步達(dá)到可上線水平

1）知識分塊與索引

知識的分塊與索引，對最終答案生成的準(zhǔn)確性有非常大的影響，尤其是在處理超長文本的時候，會出現(xiàn)索引混淆問題。

索引混淆是指知識文檔的核心關(guān)鍵詞被湮沒在大量的無效信息中，比如大量無關(guān)緊要的助詞、語氣詞、或無關(guān)信息，導(dǎo)致建立的索引中核心知識比重少，從而影響生成答案的質(zhì)量。針對這個問題，我們可以采用三種優(yōu)化方案，索引降噪、多級索引和HYDE。

索引降噪：是根據(jù)業(yè)務(wù)特點(diǎn)，去除索引數(shù)據(jù)中的無效成分，突出其核心知識，從而降低噪音的干擾，保障核心知識的比重。比如原文檔內(nèi)容是“How can I download source code from github.com”，其核心內(nèi)容是“download source code、github”，其他噪音可以忽略。

多級索引：是指創(chuàng)建兩個索引，一個由文檔摘要組成，另一個由文檔塊組成，并分兩步搜索，首先通過摘要過濾掉相關(guān)文檔，然后只在這個相關(guān)組內(nèi)進(jìn)行搜索。這種多重索引策略使RAG系統(tǒng)能夠根據(jù)查詢的性質(zhì)和上下文，選擇最合適的索引進(jìn)行數(shù)據(jù)檢索，從而提升檢索質(zhì)量和響應(yīng)速度。但為了引入多重索引技術(shù)，我們還需配套加入多級路由機(jī)制，比如對于查詢“最新發(fā)表的Rag論文推薦”，RAG系統(tǒng)首先將其路由至論文專題的索引，然后根據(jù)時間篩選最新的Rag相關(guān)論文。

聊聊炙手可熱的Rag：產(chǎn)生原因、基本原理與實(shí)施路徑

HYDE：全稱是Hypothetical Document Embeddings，用LLM生成一個“假設(shè)”答案，將其和問題一起進(jìn)行檢索。HyDE的核心思想是接收用戶提問后，先讓LLM在沒有外部知識的情況下生成一個假設(shè)性的回復(fù)。然后，將這個假設(shè)性回復(fù)和原始查詢一起用于向量檢索。假設(shè)回復(fù)可能包含虛假信息，但蘊(yùn)含著LLM認(rèn)為相關(guān)的信息和文檔模式，有助于在知識庫中尋找類似的文檔。

聊聊炙手可熱的Rag：產(chǎn)生原因、基本原理與實(shí)施路徑

2）用戶Query改寫

直接使用原始的用戶query進(jìn)行檢索，會存在一些問題。比如知識庫內(nèi)的數(shù)據(jù)無法直接回答，需要組合多種知識才能找到答案；此外，涉及細(xì)節(jié)比較多的問題，大模型往往無法進(jìn)行高質(zhì)量的回答。可以使用Rag-Fusion進(jìn)行優(yōu)化。

RAG-Fusion：首先對用戶的原始query進(jìn)行擴(kuò)充，即使用 LLM 模型對用戶的初始查詢，進(jìn)行改寫生成多個查詢；然后對每個生成的查詢進(jìn)行基于向量的搜索，形成多路搜索召回；接著應(yīng)用倒數(shù)排名融合算法，根據(jù)文檔在多個查詢中的相關(guān)性重新排列文檔，生成最終輸出。

聊聊炙手可熱的Rag：產(chǎn)生原因、基本原理與實(shí)施路徑

3）數(shù)據(jù)召回

在第一階段，我們使用了單純的語義向量做召回，但是當(dāng)文本向量化模型訓(xùn)練不夠好時，向量召回的準(zhǔn)確率會比較低，此時需要利用其他召回方式作為補(bǔ)充。

分詞召回：一種有效的稀疏搜索算法是最佳匹配25（BM25），它基于統(tǒng)計輸入短語中的單詞頻率，頻繁出現(xiàn)的單詞得分較低，而稀有的詞被視為關(guān)鍵詞，得分會較高。我們可以結(jié)合稀疏和稠密搜索得出最終結(jié)果。

多路召回：多路召回的結(jié)果經(jīng)過模型精排，最終篩選出優(yōu)質(zhì)結(jié)果。至于使用幾種召回策略，根據(jù)業(yè)務(wù)而定。

聊聊炙手可熱的Rag：產(chǎn)生原因、基本原理與實(shí)施路徑

4）內(nèi)容生成

根據(jù)前幾個環(huán)節(jié)的優(yōu)化策略，內(nèi)容生成環(huán)節(jié)也需要有相應(yīng)的調(diào)整。

文檔合并去重：多路召回可能都會召回同一個結(jié)果，針對這部分?jǐn)?shù)據(jù)要去重，否則對大模型輸入的token數(shù)是一種浪費(fèi)；其次，去重后的文檔可以根據(jù)數(shù)據(jù)切分的血緣關(guān)系，做文檔的合并。

重排模型：重排模型通過對初始檢索結(jié)果進(jìn)行更深入的相關(guān)性評估和排序，確保最終展示給用戶的結(jié)果更加符合其查詢意圖。這一過程通常由深度學(xué)習(xí)模型實(shí)現(xiàn)，如Cohere模型。這些模型會考慮更多的特征，如查詢意圖、詞匯的多重語義、用戶的歷史行為和上下文信息等。

聊聊炙手可熱的Rag：產(chǎn)生原因、基本原理與實(shí)施路徑

經(jīng)過第二階段的優(yōu)化，答案生成的相關(guān)性和準(zhǔn)確度都會大幅提升，但是仍然會有較大概率出現(xiàn)答非所問的情況，我們還需要對系統(tǒng)做更進(jìn)一步的優(yōu)化。

第三階段，很好用，即系統(tǒng)回答的準(zhǔn)確率達(dá)到用戶滿意水平

下面，風(fēng)叔介紹一些更高級的Rag優(yōu)化策略。

1）知識分塊與索引

雖然在第二階段，我們通過索引降噪、多級索引、HYDE等方式，大幅提升了知識庫的準(zhǔn)確度，但是按固定字符切，有時候會遇到句子含義聯(lián)系比較緊密的片段被切分成了兩條數(shù)據(jù)，導(dǎo)致數(shù)據(jù)質(zhì)量比較差。

這個情況下可以嘗試訓(xùn)練專門的語義理解小模型，然后使用實(shí)際語義進(jìn)行句子拆分，使拆分出來的知識片段語義更加完整。

另外一種方法是構(gòu)建元數(shù)據(jù)，增加內(nèi)容摘要、時間戳、用戶可能提出的問題等附加信息來豐富知識庫，而元數(shù)據(jù)不需要被向量化。此外，我們還可以添加諸如章節(jié)或小節(jié)的引用，文本的關(guān)鍵信息、小節(jié)標(biāo)題或關(guān)鍵詞等作為元數(shù)據(jù)，有助于改進(jìn)知識檢索的準(zhǔn)確性。

還有一種更加有效的方式是建立知識圖譜。嵌入模型雖然簡單，但是沒法有效捕捉實(shí)體之間的復(fù)雜關(guān)系和層次結(jié)構(gòu)，所以導(dǎo)致傳統(tǒng)RAG在面對復(fù)雜查詢的時候特別吃力。比如，用戶詢問“《跨越鴻溝》這本書的主旨是什么”，傳統(tǒng)Rag技術(shù)是肯定回答不出來的。但是知識圖譜技術(shù)可以做到，因?yàn)槔弥R圖譜對數(shù)據(jù)集建立索引的時候，會做提取實(shí)體以及實(shí)體之間的關(guān)系，這樣就能構(gòu)建一種全局性的優(yōu)勢，從而提升RAG的精確度。

但是，知識圖譜雖然很強(qiáng)大，可惜成本太高了，會大幅提升token使用量，大家需要綜合產(chǎn)品體驗(yàn)和成本進(jìn)行評估。

2）用戶query改寫

Step-Back Prompting：如果果原始查詢太復(fù)雜或返回的信息太廣泛，我們可以選擇生成一個抽象層次更高的“退后”問題，與原始問題一起用于檢索，以增加返回結(jié)果的數(shù)量。例如，對于問題“勒布朗詹姆斯在2005年至2010年在哪些球隊？”這個問題因?yàn)橛袝r間范圍的詳細(xì)限制，比較難直接解決，可以提出一個后退問題“勒布朗詹姆斯的職業(yè)生涯是怎么樣的？”，從這個回答的召回結(jié)果中再檢索上一個問題的答案。

3）數(shù)據(jù)召回

圖譜召回：如果在知識分塊環(huán)節(jié)使用了知識圖譜，那么我們就可以直接用圖譜召回，大幅提升召回準(zhǔn)確度。

Agentic-rag：RAG應(yīng)用退化成一個Agent使用的知識工具。我們可以針對一個文檔/知識庫構(gòu)建多種不同的RAG引擎，比如使用向量索引來回答事實(shí)性問題；使用摘要索引來回答總結(jié)性問題；使用知識圖譜索引來回答需要更多關(guān)聯(lián)性的問題等。

在單個文檔/知識庫的多個RAG引擎之上設(shè)置一個DocAgent，把RAG引擎作為該Agent的tools，并利用LLM的能力由ToolAgent在自己“負(fù)責(zé)”的文檔內(nèi)使用這些tools來回答問題。最后設(shè)置一個總的頂級代理TopAgent來管理所有的低階DocAgent，將DocAgent看作自己的tools，仍然利用LLM來規(guī)劃、協(xié)調(diào)、執(zhí)行用戶問題的回答方案

聊聊炙手可熱的Rag：產(chǎn)生原因、基本原理與實(shí)施路徑

4）內(nèi)容生成

Prompt優(yōu)化：RAG系統(tǒng)中的prompt應(yīng)明確指出回答僅基于搜索結(jié)果，不要添加任何其他信息。例如可以設(shè)置prompt：“你是一名智能客服。你的目標(biāo)是提供準(zhǔn)確的信息，并盡可能幫助提問者解決問題。你應(yīng)保持友善，但不要過于啰嗦。請根據(jù)提供的上下文信息，在不考慮已有知識的情況下，回答相關(guān)查詢?！?此外，使用Few-shot的方法指導(dǎo)LLM如何利用檢索到的知識，也是提升LLM生成內(nèi)容質(zhì)量的有效方法。

Self-rag：self-rag通過檢索評分（令牌）和反思評分（令牌）來提高質(zhì)量，主要分為三個步驟：檢索、生成和批評。Self-RAG首先用檢索評分來評估用戶提問是否需要檢索，如果需要檢索，LLM將調(diào)用外部檢索模塊查找相關(guān)文檔。接著，LLM分別為每個檢索到的知識塊生成答案，然后為每個答案生成反思評分來評估檢索到的文檔是否相關(guān)，最后將評分高的文檔當(dāng)作最終結(jié)果一并交給LLM。