DeepSeek論文解讀之NSA

0 評論 1023 瀏覽 2 收藏 10 分鐘

要了解一個技術,就要深入學習,接觸第一手資料。作為非科班的AI產品經(jīng)理這算是急需提升的必備技能了,也希望能在分享中督促自己越來越精進技術,在閱讀和思考中痛苦,在痛苦中收獲??

幾個月前Deepseek發(fā)布了論文,KIMI的論文中也可以看出,新的NSA機制已經(jīng)用在了kimi的相關模型上,在技術的發(fā)展方向上可以看出kimi與deepseek始終保持統(tǒng)一的步調共同推進大模型技術的發(fā)展。

這篇文章是很早就寫了的,但是一直沒發(fā)出來,這次又補充了一些想法,而且覺得它是對提升模型效果非常有效的技術,所以還是修改一下發(fā)出來,作為自己學習的記錄。

那么DeepSeek研究的NSA到底是什么,從論文中可以看出它區(qū)別于傳統(tǒng)稀疏方法僅優(yōu)化推理階段,NSA 的稀疏模式可在預訓練階段原生學習,這意味著 DeepSeek 未來可通過更少的數(shù)據(jù)和算力投入快速迭代模型,尤其在垂直領域(如醫(yī)療、金融)的定制化開發(fā)中占據(jù)優(yōu)勢,也就是在商業(yè)化落地方面會有比較大的提升。

稀疏注意力機制研究的作用是什么?

這么長時間的AI發(fā)展時期,其實過往是累計了不少的問題的,尤其是在計算資源上的缺少,硬件的限制是真的會影響技術的發(fā)展。尤其是在長文本的情況下,傳統(tǒng)注意力機制計算成本高,同時還容易出現(xiàn)遺漏重點信息的情況,給大模型一篇幾萬字的文檔,它好像始終只理解前面幾頁,尤其是在平時通過技術規(guī)范書寫工作任務書之類的場景,原文件特別大特別長,經(jīng)常沒法整理出全部重點,需要反復溝通。

所以Deepseek想要做到

  • 解決長文本建模下的技術瓶頸,給大模型配上加速器又能最小化計算資源
  • 解決現(xiàn)在稀疏注意力在實際工作中的缺陷,給硬件升個級,縮小硬件與軟件之間的差距
  • 以前的稀疏注意力只關注推理,訓練的時候不管用了,現(xiàn)在要雙管齊下一起優(yōu)化,實現(xiàn)端到端的訓練,探索NSA給大模型帶來的技術提升,到底這個技術有用嗎?

NSA 整體框架

NSA是用分塊的技術拆分內容,比如我要快速數(shù)完100個小石子,我不能一個個數(shù),我要把他分成10個10個的,一組組來更快,分組熟練的時候甚至掃一眼就知道有沒有10個。

下面這張圖就可以看出整體的設計思路,左邊這個圖第一排就是輸入的長文本,然后第二排做分塊處理,第三排就是內容的處理策略,比如壓縮信息、重點篩選、滑動閱讀

NSA也是這樣,長文本不一個字一個字看了,改變一下策略再來研究:

1)先把內容整理一下,篩選出比較精華的部分

2)然后使用3種算法策略處理這些信息:

  • 信息壓縮策略:把一段段的文字總結成一句話
  • 重要信息挑選策略:一段話里我只看最重要的部分
  • 局部信息關注策略(滑動式注意力遮罩閱讀):我們看書上某句話的時候會自然而然看到上下文,現(xiàn)在大模型也要這樣,留出閱讀的區(qū)域,其他地方遮罩蓋住,這樣我就可以一直看到我要看的這句話和它的上下文,跟著閱讀的進度來,確保看的是最重要的信息。

3)把處理好的信息整合在一起,給每個策略的輸出分配一個權重分數(shù),保證主要內容突出,同時次要內容也比較全面

整個過程中,NSA 會保證處理后的信息數(shù)量遠遠少于原始信息數(shù)量,這就是所謂的 “高稀疏度”,就好比從一大片森林里只挑選出最珍貴的幾棵樹。

在訓練和預填充階段,很多模型會用到像 GQA(團隊合作分組查詢信息) 和 MQA (對計算要求高,與GQA的區(qū)別是大家使用同一套辦公用品工作,而小組查詢是每個小組一套)這樣的架構,它們有個特點是共享鍵值緩存(共享重要資料),但是內存訪問的效率不高,就比如去圖書館找書,總是找不到。

所以他們就想到了新的辦法,把GQA 組里同一位置的所有員工集中起來放到高速緩存(快捷工具箱)里,然后再按照順序拿他們共享的資料,不然一次性進太多人圖書館就會混亂,而且如果多個員工都需要訪問某幾個高頻資料,他們就可以直接在工具箱里找,不用再進入龐大的圖書館了。這整個過程由網(wǎng)格調度器來統(tǒng)一管理,這個 “工作安排助手” 會合理安排每個成員的工作順序,達到硬件優(yōu)化和內存訪問效率優(yōu)化的目的。

到底效果怎么樣?

DeepSeek用了一個分組查詢注意力(GQA)和專家混合(MoE)結構的模型進行訓練,為了知道 NSA 好不好,選了一些其他的方法來對比。除了和傳統(tǒng)的全注意力方法對比,還選了像 H2O、infLLM、Quest、Exact-Top 這些在推理階段用的稀疏注意力方法。

整體效果表現(xiàn)可以說是非常好,分為以下維度:

  • 通用評估:在 9 個指標里有 7 個超過了注意力模型,特別是推理相關的測試。
  • 長文本評估:在 64k 上下文長度的 “大海撈針” 測試里,NSA 能完美地找到目標信息,而且能平衡重點信息和全文信息。
  • 思維鏈推理評估:通過知識蒸餾的方法,用 DeepSeek – R1 的知識對 NSA 和全注意力模型進行微調,結果 NSA 在不同上下文長度下的準確率都比全注意力模型高很多。

如下圖:NSA 與 LongBench 上的基線之間的性能比較中NSA 的表現(xiàn)優(yōu)于大多數(shù)基線,包括單文檔 QA、多文檔 QA、合成和代碼任務類別中的子集。

在處理超長上下文信息時,效率提升非常多,而且越大的文本效果越好。

大佬們針對這個研究還探索了什么

  • 其他令牌選擇策略:從理論上來說很多現(xiàn)有的稀疏注意力方法在訓練和推理時都可行,比如ClusterKV,但實際用起來問題卻很多。而且在混合專家(MoE)這樣的系統(tǒng)里,不同聚類之間不平衡,有人效率快有人效率慢,還需要定期管理才能有序推進。這個方向他們也做了嘗試,但是效果卻沒有NSA好。
  • 將注意力可視化:圖里呈現(xiàn)出了塊級聚類,也就是一篇文章里,相鄰的幾個詞和某個特定詞的關聯(lián)程度差不多,所以也許可以在空間連續(xù)性上做深入研究。

總結

NSA 提升了長文本處理能力,能更好的處理長文檔推理、代碼生成等,也就是在未來toB的場景中,此類機制能夠大大提升效果,帶來真正可用在專業(yè)領域中的模型。另外NSA 技術顯著降低了對高端 GPU 的依賴,降低對硬件的依賴也就會逐漸壓縮大模型的成本,而且這為國產芯片(如華為昇騰、海光 DCU)提供了替代窗口(實際項目也基本上都是要求國產芯片,但是GPU價格又特別高),讓所有企業(yè)/用戶都能用得起更好的模型。

ps:以前看書的時候沒有發(fā)現(xiàn)自己其實只能注意到某一塊文字,而這種技巧竟然可以運用到模型效果優(yōu)化,果然大佬還是大佬啊~

本文由 @13號小星球 原創(chuàng)發(fā)布于人人都是產品經(jīng)理,未經(jīng)許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!