從大模型工程視角看DeepSeek-V3/R1
DeepSeek-V3/R1 憑借 61 層神經(jīng)網(wǎng)絡(luò)、58 層 MoE 架構(gòu)及 14906 個專家,在高效推理與經(jīng)濟性上實現(xiàn)突破。其 MLA 機制有效壓縮鍵值緩存,降低內(nèi)存占用,多 Token 預(yù)測等技術(shù)更是大幅提升數(shù)據(jù)效率與訓(xùn)練速度,正推動大模型向更高效、智能的未來邁進。
DeepSeek-V3是一款采用混合專家(Mixture-of-Experts, MoE)架構(gòu)的大型語言模型,其設(shè)計中每層包含有1個共享專家和256個路由專家。這意味著每一層總共有257個專家(1 + 256)。模型總計有61層,其中前3層為密集層(Dense Layer),而后58層則采用了MoE架構(gòu)。
為了計算整個模型中的專家總數(shù),我們可以將每層的專家數(shù)量乘以MoE層數(shù)。具體來說,模型的MoE部分包含58層,每層有257個專家,因此總的專家數(shù)量為:
[ text{總專家數(shù)} = 257 times 58 = 14,906 ]
這表明DeepSeek-V3在整個模型中部署了14,906個專家。這樣的設(shè)計允許模型在保持高效推理的同時,通過激活少量專家來處理每個token,從而實現(xiàn)經(jīng)濟高效的訓(xùn)練和推理過程。
此外,值得注意的是,在MoE層中,每個token會選擇激活8個專家,并確保這些token最多被路由到4個節(jié)點上進行處理。這種稀疏激活機制不僅有助于控制計算資源的使用,還能夠有效地減少通信開銷,提升系統(tǒng)的整體效率。通過這種方式,DeepSeek-V3能夠在不顯著增加計算成本的情況下擴展模型規(guī)模,同時保持高性能表現(xiàn)。
減少推理過程中的鍵值(KV)緩存和訓(xùn)練時的激活內(nèi)存
MLA機制的核心作用
1. 減少推理過程中的KV緩存:在處理長序列時,傳統(tǒng)MHA機制需要為每個token存儲完整的鍵值對,這會導(dǎo)致內(nèi)存占用隨序列長度線性增長。MLA通過將鍵和值壓縮成一個低維潛在向量來減少KV緩存的需求,從而有效解決了這一問題。
2. 降低訓(xùn)練期間的激活內(nèi)存:除了推理階段,MLA還通過低秩壓縮查詢矩陣進一步減少了訓(xùn)練期間的激活內(nèi)存,使得大規(guī)模模型的訓(xùn)練更加高效。
3. 保持高性能:盡管進行了壓縮,但MLA能夠通過重建步驟恢復(fù)大部分信息,確保模型性能不受明顯影響。
技術(shù)實現(xiàn)細(xì)節(jié)
1. 鍵和值的低秩壓縮
設(shè)嵌入維度為 (d),注意力頭數(shù)量為 (n_h),每個頭的維度為 (d_h),(h_t in mathbb{R}^d) 表示第 (t) 個token在給定注意力層的輸入。MLA首先對鍵和值進行低秩聯(lián)合壓縮,生成壓縮潛在向量 (c_t);其中,(c_t in mathbb{R}^{d_c}) 是壓縮后的潛在向量,(d_c)(遠(yuǎn)小于 (n_h cdot d_h))表示鍵值的壓縮維度,(W_{down} in mathbb{R}^{d times d_c}) 是下投影矩陣。
接著,通過上投影矩陣 (W_k) 和 (W_v) 分別生成壓縮后的鍵 (k_t) 和值 (v_t);其中,(W_k, W_v in mathbb{R}^{n_h cdot d_h times d_c}) 分別是鍵和值的上投影矩陣。
為了引入位置信息,MLA還生成一個攜帶旋轉(zhuǎn)位置嵌入(RoPE)的解耦鍵 (k’_t);其中,(W_{decouple} in mathbb{R}^{n_h cdot d_h times d_c}) 是用于生成解耦鍵的矩陣,RoPE((cdot)) 表示應(yīng)用旋轉(zhuǎn)位置嵌入的操作。最終,每個注意力頭的鍵 (k_{i,t}) 通過拼接壓縮鍵 (k_t) 和解耦鍵 (k’_t) 得到。
2. 查詢的低秩壓縮
為了進一步減少訓(xùn)練期間的激活內(nèi)存,MLA對查詢(queries)也進行了低秩壓縮。首先生成查詢的壓縮潛在向量 (c’_t);其中,(c’_t in mathbb{R}^{d_q}) 是查詢的壓縮潛在向量,(d_q)(遠(yuǎn)小于 (n_h cdot d_h))表示查詢的壓縮維度,(W_{q_down} in mathbb{R}^{d_q times d}) 是查詢的下投影矩陣。
接著,通過上投影矩陣 (W_q) 生成壓縮后的查詢 (q_t);其中,(W_q in mathbb{R}^{n_h cdot d_h times d_q}) 是查詢的上投影矩陣。類似地,生成攜帶RoPE的解耦查詢 (q’_t);其中,(W_{q_decouple} in mathbb{R}^{n_h cdot d_h times d_q}) 是用于生成解耦查詢的矩陣。最終,每個注意力頭的查詢 (q_{i,t}) 通過拼接壓縮查詢 (q_t) 和解耦查詢 (q’_t) 得到。
3. 注意力計算
最終的注意力輸出 (u_t) 通過結(jié)合查詢 (q_{i,t})、鍵 (k_{i,t}) 和值 (v_{i,t}) 計算得到。首先計算每個注意力頭的輸出 (o_{i,t}),然后將所有注意力頭的輸出拼接并通過輸出投影矩陣 (W_o) 生成最終的注意力輸出 (u_t),其中,(W_o in mathbb{R}^{d times n_h cdot d_h}) 是輸出投影矩陣。
通過上述低秩壓縮技術(shù),MLA顯著減少了推理過程中的KV緩存(只需緩存 (c_t) 和 (k_t)),同時降低了訓(xùn)練期間的激活內(nèi)存(通過壓縮查詢 (c’_t)),從而在保持高性能的同時實現(xiàn)了高效的計算和存儲。
此外,MLA還通過改變矩陣乘法的計算順序來優(yōu)化注意力機制的計算效率。這種方法利用了矩陣乘法的結(jié)合律,使得計算可以在不同的維度上進行重組,從而減少計算量。
綜上所述,DeepSeek-V3中的MLA機制不僅在理論上具有顯著優(yōu)勢,在實際應(yīng)用中也表現(xiàn)出色,特別是在處理長文本任務(wù)時,當(dāng)文本長度達到10,000 tokens,傳統(tǒng)的MHA機制可能會遇到內(nèi)存瓶頸,而MLA則能有效緩解這一問題。多 Token 預(yù)測(Multi-Token Prediction, MTP)
DeepSeek-V3 設(shè)置了多 Token 預(yù)測目標(biāo),允許模型同時預(yù)測多個未來的 Token。這一技術(shù)使訓(xùn)練信號更加密集,并能夠更好地對 Token 表示進行預(yù)規(guī)劃,從而提高了數(shù)據(jù)效率和模型性能。MTP 不僅增強了模型對未來 Token 的預(yù)測能力,還為推理加速提供了推測解碼的可能性。?FP8 混合精度訓(xùn)練
DeepSeek-V3 實現(xiàn)了 FP8 混合精度訓(xùn)練,這是一種低數(shù)據(jù)精度訓(xùn)練方法,可以提供高速度、小內(nèi)存占用和低通信開銷。FP8 數(shù)據(jù)格式占用的數(shù)據(jù)位寬僅為 FP32 的 1/4 和 FP16 的 1/2,極大地提升了計算速度并降低了對存儲的消耗。通過算法優(yōu)化,DeepSeek-V3 確保了即使在低精度下也能維持較高的訓(xùn)練精度。DualPipe 加速器
DeepSeek-V3 利用了 DualPipe 加速器,這是一種工程創(chuàng)新,結(jié)合了硬件和軟件層面的優(yōu)化,進一步提升了模型的訓(xùn)練和推理效率。通過 DualPipe 技術(shù),DeepSeek-V3 能夠更高效地利用算力資源,實現(xiàn)了比傳統(tǒng)方法更高的性能。?GRPO 強化學(xué)習(xí)算法
DeepSeek-V3 在后訓(xùn)練階段簡化了模型數(shù)量,優(yōu)化了獎勵機制,并獨創(chuàng)了 GRPO(Generalized Reinforcement-based Policy Optimization)算法。這種算法為強化學(xué)習(xí)的發(fā)展提供了新的方向,特別是在生成式 AI 模型的訓(xùn)練中展現(xiàn)了強大的潛力。deepseek開源deepEP,是為了超細(xì)粒度的MoE利用。
大模型要么一方面走越來越大的數(shù)據(jù)、算力、算法路線,就是需要卡,需要數(shù)據(jù),需要新的算法。
另外一方面就是往應(yīng)用層去走,應(yīng)用層的話你就得走到用戶端去,那就得降低幻覺,降低幻覺的話呢,你不能讓用戶自己去降低幻覺,成本太高,對用戶來說,只能模型做應(yīng)用去降低環(huán)節(jié),那怎么做呢?就是在邊緣邊?;蛘哒f做物理上的這種單獨的用戶的數(shù)據(jù)庫,去做這個本地的知識庫的映射,那這種的話,你才能降低幻覺,或者解決具體的問題。那這層誰做?要么是終端設(shè)備去做,要么是云端去做?;蛘哒f端云協(xié)同去做,反正不能讓用戶去做。
本文由人人都是產(chǎn)品經(jīng)理作者【連詩路AI產(chǎn)品】,微信公眾號:【AI產(chǎn)品有思路】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!