美團龍貓LongCat-Flash詳細報告

0 評論 1746 瀏覽 2 收藏 23 分鐘

LongCat-Flash 是美團龍貓智能體體系中的關(guān)鍵一環(huán),承載著從任務執(zhí)行到系統(tǒng)協(xié)同的能力躍遷。本文將從架構(gòu)設計、能力演進到落地場景,系統(tǒng)拆解 LongCat-Flash 的技術(shù)邏輯與產(chǎn)品價值,為理解企業(yè)級智能體的構(gòu)建路徑提供參考樣本。

LongCat-Flash 是美團 LongCat 團隊開發(fā)的一個擁有 5600 億參數(shù)的混合專家 (MoE) 語言模型。該模型旨在實現(xiàn)計算效率和高級代理能力。其核心創(chuàng)新包括:

  1. 零計算專家(Zero-computationExperts):實現(xiàn)動態(tài)計算預算分配,根據(jù)上下文需求激活186億至313億參數(shù)(平均270億),從而優(yōu)化資源利用。
  2. 快捷連接MoE(Shortcut-connectedMoE,ScMoE):擴大計算-通信重疊窗口,顯著提升推理效率和吞吐量。

LongCat-Flash 采用全面的大模型擴展框架,結(jié)合超參數(shù)遷移、模型增長初始化、多管齊下的穩(wěn)定性套件和確定性計算,以實現(xiàn)穩(wěn)定和可重現(xiàn)的訓練。模型在 30 天內(nèi)完成了超過 20 萬億 Token 的訓練,推理速度超過 100 TPS,每百萬輸出 Token 成本為 0.70 美元。通過大規(guī)模預訓練、有針對性的中訓和后訓(包括推理、代碼和指令,并輔以合成數(shù)據(jù)和工具使用任務),LongCat-Flash 培養(yǎng)了代理智能。

LongCat-Flash 作為非思維型基礎模型,在眾多領(lǐng)先模型中表現(xiàn)出高度競爭力,尤其在代理任務中表現(xiàn)出色。LongCat-Flash 的模型檢查點已開源,以促進社區(qū)研究。

一、主要貢獻

大型語言模型 (LLM) 的快速發(fā)展證明了模型規(guī)模和計算資源擴展的有效性。LongCat-Flash 旨在通過計算效率和代理能力這兩個協(xié)同方向,推動語言模型的前沿發(fā)展。

  • 實現(xiàn)計算效率的可擴展架構(gòu)設計零計算專家機制:根據(jù)Token的重要性動態(tài)分配計算預算,激活186億至313億參數(shù)(總計5600億),平均每個Token激活約270億參數(shù)。采用PID控制器調(diào)整專家偏差以確保計算負載一致。
  • 快捷連接MoE(ScMoE):擴展計算-通信重疊窗口,結(jié)合定制的基礎設施優(yōu)化,實現(xiàn)大規(guī)模訓練和高吞吐、低延遲的推理。
  • 有效的模型擴展策略超參數(shù)遷移:通過理論保證,將小規(guī)模代理模型的最佳超參數(shù)配置遷移到目標大模型。
  • 模型增長初始化:從一個預訓練的半規(guī)模模型開始,通過層堆疊技術(shù)擴展參數(shù),提高性能。
  • 多管齊下的穩(wěn)定性套件:包括原則性的路由器梯度平衡、隱藏z-loss以抑制大規(guī)模激活以及精調(diào)的優(yōu)化器配置。
  • 確定性計算:確保實驗的精確可復現(xiàn)性,并支持訓練過程中SDC(靜默數(shù)據(jù)損壞)的檢測。
  • 多階段代理能力訓練流程基礎模型構(gòu)建:設計兩階段預訓練數(shù)據(jù)融合策略,集中推理密集型領(lǐng)域數(shù)據(jù)。
  • 中訓階段:增強推理和編碼能力,并將上下文長度擴展至128k。
  • 后訓階段:設計多代理合成框架,根據(jù)信息處理、工具集復雜性和用戶交互三個維度定義任務難度,生成需要迭代推理和環(huán)境交互的復雜任務。

整體表現(xiàn):

LongCat-Flash 在可擴展架構(gòu)設計、訓練策略和基礎設施協(xié)同作用下,實現(xiàn)了高訓練吞吐量和低推理延遲。模型在 30 天內(nèi)完成 20 萬億 Token 的預訓練,可用性高達 98.48%。推理部署效率超過 H800 上 100 TPS,每百萬輸出 Token 成本 0.7 美元。

評估結(jié)果:

LongCat-Flash 在 ArenaHard-V2 上得分 86.5,TerminalBench 上得分 39.5,τ2-Bench 上得分 67.7,在通用領(lǐng)域、編碼和代理工具使用方面展現(xiàn)出強大的能力。為緩解現(xiàn)有開源基準測試的潛在污染,團隊構(gòu)建了兩個新基準:Meeseeks(模擬真實人機交互評估多輪指令遵循能力)和 VitaBench(利用真實商業(yè)場景評估解決復雜現(xiàn)實任務的能力),LongCat-Flash 在這些基準上均表現(xiàn)出色。

二、架構(gòu)

LongCat-Flash 采用了一種新穎的 MoE 架構(gòu),具有兩個關(guān)鍵創(chuàng)新:

1.零計算專家 (Zero-Computation Experts)

MoE 塊中包含零計算專家,允許 Token 根據(jù)其上下文重要性動態(tài)消耗可變計算資源。通過自適應專家偏差控制平均計算負載。

  • 動態(tài)計算資源分配:模型通過激活不同數(shù)量的FFN專家(以及Z個零計算專家,它們只返回輸入而不產(chǎn)生額外計算成本)來實現(xiàn)動態(tài)計算。這使得模型能將更多計算資源分配給具有更高上下文重要性的Token,從而在相同計算容量下實現(xiàn)優(yōu)越性能。
  • 計算預算控制:通過一個PID控制器引入專家特定偏差項,動態(tài)調(diào)整路由分數(shù),以確保FFN專家和零計算專家之間的平均選擇比例保持在目標范圍內(nèi)。這有助于在預訓練期間將平均激活專家數(shù)量穩(wěn)定在預期值附近,同時保持激活參數(shù)的顯著可變性。
  • 負載均衡控制:除了語料庫層面的負載均衡,還引入了設備層面的負載均衡損失,以進一步防止EP組內(nèi)序列級別的極端不平衡。

2.快捷連接 MoE (Shortcut-Connected MoE)

每個層集成兩個多頭潛在注意力 (MLA) 塊和多個異構(gòu)前饋網(wǎng)絡 (FFN) 塊。從第一個 MLA 輸出直接到 MoE 塊的快捷連接被采用。

  • 克服通信瓶頸:傳統(tǒng)MoE模型中,專家并行會導致通信延遲成為瓶頸。ScMoE通過引入跨層快捷連接,重新排序執(zhí)行管道,使得前一個塊的密集FFN可以與當前MoE層的分發(fā)/組合通信并行執(zhí)行,從而創(chuàng)建更大的重疊窗口。
  • 質(zhì)量中立:訓練損失曲線顯示,ScMoE架構(gòu)與基線(無ScMoE)模型幾乎相同,證明其執(zhí)行重排序不影響模型性能。

顯著的系統(tǒng)級效率提升

  • 大規(guī)模訓練:擴展的重疊窗口允許前一個塊的計算與MoE層的分發(fā)和組合通信階段完全并行。
  • 高效推理:ScMoE實現(xiàn)“單批次重疊”(SBO)管道,將理論上的每輸出Token時間(TPOT)減少近50%。它還允許節(jié)點內(nèi)張量并行通信(NVLink)與節(jié)點間專家并行通信(RDMA)并發(fā)執(zhí)行,最大化網(wǎng)絡利用率。
  • 可擴展性的方差對齊設計MLA的尺度校正:采用修正的多頭潛在注意力(MLA)機制,引入尺度校正因子αq和αkv,解決非對稱低秩分解中固有的方差不平衡問題,確保在模型擴展時注意力得分的穩(wěn)定性。
  • 專家初始化方差補償:針對DeepSeek-MoE中細粒度專家策略的性能敏感性,提出方差補償機制,通過一個縮放因子γ抵消專家分割導致的初始化方差減少。
  • 模型信息分詞器(Tokenizer):采用字節(jié)對編碼(BPE),在多語言語料庫上訓練,詞匯量優(yōu)化為131,072個Token,增強了中文處理和數(shù)學能力。
  • 多Token預測(Multi-TokenPrediction,MTP):作為輔助訓練目標,通過單個密集層MTP頭在訓練中期引入,以提高推理效率(評估中接受率>90%)。
  • 模型配置:LongCat-Flash包含28層(不包括MTP層),隱藏狀態(tài)維度為6144。MLA塊使用64個注意力頭,每個頭維度128。FFN密集路徑使用12288中間維度,每個FFN專家使用2048維度。每層包含512個FFN專家和256個零計算專家,每個Token激活12個專家??倕?shù)5600億,每個Token平均激活約270億參數(shù)。

三、 預訓練

LongCat-Flash 的預訓練遵循三階段課程:

階段 1:通用預訓練:在約 20 萬億 Token 上訓練,序列長度為 8192,建立穩(wěn)健的基礎模型

  • 數(shù)據(jù)處理:包括內(nèi)容提取、兩步質(zhì)量過濾和基于MinHash的大規(guī)模去重。
  • 數(shù)據(jù)混合策略:采用兩階段調(diào)度,逐步增加高質(zhì)量推理數(shù)據(jù)(如STEM和代碼)的比例,并根據(jù)質(zhì)量和多樣性分數(shù)進行實例級數(shù)據(jù)混合。

階段 2:推理和編碼增強:使用數(shù)萬億數(shù)據(jù)進一步增強推理和編碼能力

  • 系統(tǒng)化合成數(shù)據(jù)工作流:通過知識圖譜遍歷、多階段迭代細化和雙模態(tài)生成與驗證來優(yōu)化數(shù)據(jù)質(zhì)量和多樣性,確保概念復雜性、CoT推理質(zhì)量和數(shù)學準確性。

階段 3:長上下文擴展:通過在長上下文語料庫上訓練,將上下文長度擴展到 128k

  • 兩階段擴展策略:第一階段從8k擴展到32kToken,RoPE基頻從1,000,000提高到5,000,000。第二階段進一步擴展到128kToken,基頻提高到10,000,000。
  • 訓練語料庫:基于自然產(chǎn)生的長文本數(shù)據(jù)(如書籍、小說)和系統(tǒng)組織的代碼庫數(shù)據(jù)。
  • 訓練策略超參數(shù)遷移:基于寬度縮放,通過在較小代理模型上確定最佳超參數(shù),然后根據(jù)理論縮放規(guī)則將其遷移到目標模型。
  • 模型增長初始化:從一個預訓練的半規(guī)模模型(14層)開始,通過層堆疊技術(shù)擴展到目標規(guī)模(28層),實驗顯示其優(yōu)于隨機初始化,并能加速收斂。

訓練穩(wěn)定性

  • 路由器穩(wěn)定性:通過監(jiān)控路由器權(quán)重相似度和梯度范數(shù)比(Rg),確保負載均衡損失作為正則化項,而不會壓倒語言模型損失。
  • 激活穩(wěn)定性(隱藏z-loss):引入隱藏z-loss以抑制訓練期間大規(guī)模激活的發(fā)生,從而減少數(shù)值誤差和性能下降風險。
  • Adamepsilon的實際配置:將Adam優(yōu)化器中的epsilon(ε)參數(shù)設置為非常小的值(1e-16),以保持數(shù)值穩(wěn)定性并保留優(yōu)化器的自適應特性。

數(shù)據(jù)凈化 (Decontamination)

對所有訓練數(shù)據(jù)進行嚴格凈化,通過 13-gram 重疊和語義相似性(使用 BGE-m3 嵌入)檢測,防止基準測試集的數(shù)據(jù)泄露。

評估

LongCat-Flash 基礎模型在通用任務、通用推理、數(shù)學推理和編碼方面表現(xiàn)出色,與 DeepSeek-V3.1 Base、Llama-4-Maverick Base 和 Kimi-K2 Base 等最先進的開源 MoE 模型相比,參數(shù)效率更高,性能具有競爭力甚至更優(yōu)。

四、后訓練

LongCat-Flash 采用傳統(tǒng)的多階段后訓練框架,以增強模型在復雜推理、編碼、代理工具使用任務和通用能力方面的表現(xiàn)。

  • 推理和編碼數(shù)學:通過“角色(persona)”和“自指令(self-instruct)”范式生成高質(zhì)量和新穎的數(shù)學問題,并進行兩階段答案驗證(多LLM一致性選擇和推理增強型獎勵模型評分)。
  • 編碼:匯集來自公共數(shù)據(jù)集、GitHub代碼片段和CodeEvol-Instruct方法生成的編碼查詢,并通過嚴格的過濾管道和Docker鏡像測試用例驗證來確保質(zhì)量。
  • 邏輯推理:構(gòu)建涵蓋演繹、假設和歸納推理的邏輯推理數(shù)據(jù)集,并進行難度管理(通過Pass@k指標和過濾策略),同時關(guān)注最終答案的正確性、推理的完整性和清晰度。
  • 代理工具使用任務定義:將代理任務定義為通過系統(tǒng)性環(huán)境交互解決復雜問題,任務難度歸因于信息處理復雜度、工具集復雜度和用戶交互復雜度。

多代理數(shù)據(jù)合成框架

  • UserProfileAgent:生成用戶配置文件,控制對話風格、溝通意愿和信息披露模式。
  • ToolSetAgent:枚舉40個領(lǐng)域和1600個應用,構(gòu)建80,000個模擬工具的廣泛工具圖,通過隨機游走采樣子圖控制工具集復雜度。
  • InstructionAgent:根據(jù)約束復雜度、推理點數(shù)量和推理鏈長度量化推理難度,生成全面描述完整任務的指令。
  • EnvironmentAgent:增強環(huán)境信息并引入混淆元素以增加推理復雜度。
  • RubricAgent:構(gòu)建任務相關(guān)的檢查清單,并采用滑動窗口評估整個軌跡。
  • ValidatorAgent和DeduplicatorAgent:檢查最終任務的質(zhì)量并去除相似任務。
  • 通用能力指令遵循:策劃單輪和多輪指令遵循數(shù)據(jù)集,并通過可驗證規(guī)則和模型驗證確保響應滿足所有約束。
  • 長上下文:開發(fā)三類長序列數(shù)據(jù)集(閱讀理解、表格問答、定制任務),通過聚合相關(guān)上下文段落來促進長序列中突出信息的學習,并優(yōu)化模型在上下文不完整時的拒絕能力以緩解幻覺。
  • 安全性:基于Muetal.[2024]的框架開發(fā)內(nèi)容安全策略,將查詢分類為40多個不同的安全類別和五種響應類型,并采用兩階段上下文感知數(shù)據(jù)合成器(查詢分類和響應映射與優(yōu)化)進行訓練。
  • 評估基準測試:涵蓋通用領(lǐng)域、指令遵循(IFEval、COLLIE、Meeseeks)、數(shù)學推理(MATH500、AIME24/25、BeyondAIME)、通用推理(GPQA-diamond、DROP、ZebraLogic、GraphWalks)、編碼(Humaneval+、MBPP+、LiveCodeBench、SWE-Bench-Verified、TerminalBench)和代理工具使用(τ2-Bench、AceBench、VitaBench)。
  • 比較對象:與DeepSeek-V3.1、Qwen3-235B-A22B、Kimi-K2、GPT-4.1、Claude4-Sonnet和Gemini2.5-Flash等非思維型聊天模型進行比較。
  • 評估結(jié)果:LongCat-Flash在通用領(lǐng)域、指令遵循、數(shù)學推理、通用推理、編碼和代理工具使用方面表現(xiàn)出卓越性能,尤其在ArenaHard-V2、IFEval、AIME25、ZebraLogic、TerminalBench和VitaBench上名列前茅。在安全性方面,LongCat-Flash在識別和緩解風險(特別是有害和犯罪類別)方面表現(xiàn)出色。

五、訓練基礎設施

訓練基礎設施的核心設計原則是可擴展性和精確性

  • 數(shù)值精度控制與故障檢測ULP評估:采用ULP(UnitintheLastPlace)作為指標,量化并緩解浮點誤差,確保BF16結(jié)果與CPUFP32真值之間的精度。
  • SDC檢測機制:實現(xiàn)高效的片上原地運算符重計算機制,特別是在FlashAttention梯度(FAG)的反向計算中,通過位差檢測潛在的靜默數(shù)據(jù)損壞(SDC)風險。
  • 確定性和性能的內(nèi)核優(yōu)化確定性FAG:開發(fā)高效的確定性FAG內(nèi)核,通過有限的額外工作空間以確定性順序累積Tile,同時通過雙緩沖流水線、精調(diào)的Tile調(diào)度和負載均衡實現(xiàn)1.6倍于原始確定性版本和0.95倍于非確定性版本的性能。
  • 確定性ScatterAdd:提出分層歸約算法,并行化梯度聚合,實現(xiàn)與非確定性版本相當?shù)男阅堋?/li>
  • 優(yōu)化的分組GEMM:通過雙緩沖流水線、對角線Tile和HBM帶寬控制進行優(yōu)化,實現(xiàn)5%-45%的加速。
  • 融合GemmAdd:將FP32加法融合到GEMM后處理中,避免中間回寫并隱藏加法過程,實現(xiàn)3.12x到3.86x的加速。
  • 大規(guī)模訓練的分布式策略專家并行組(EP):每個EP組包含32個加速器,注意力層采用上下文并行(CP=8),F(xiàn)FN層使用EP分區(qū)而不使用TP。
  • ScMoE結(jié)構(gòu)和分塊:ScMoE結(jié)構(gòu)使分發(fā)/組合通信與單批次中的更多計算重疊,并將MoE層沿Token維度分成兩個塊,實現(xiàn)與密集FFN計算和彼此之間的重疊。
  • 優(yōu)化通信:采用帶流水線的All-gather/reduce-scatter內(nèi)核,將非重疊分發(fā)/組合通信時間比例從25.3%降低到8.4%。
  • V-ZB算法:采用V-ZB算法平衡所有階段的內(nèi)存使用,并將峰值內(nèi)存降低到60GB以下,實現(xiàn)零理論氣泡。
  • 可靠性和可觀測性可用性:異步檢查點將訓練停頓減少到2-4秒,結(jié)合在線關(guān)鍵日志過濾、優(yōu)化初始化和全面自動化,將恢復時間減少到<10分鐘,實現(xiàn)了98.48%的可用性。
  • 可觀測性:結(jié)合細粒度(PyTorchprofiler)和粗粒度(低開銷運行時分析)性能分析,以及一個度量平臺,用于快速評估模型狀態(tài)。

六、推理與部署

LongCat-Flash 采用模型與系統(tǒng)協(xié)同設計,顯著提高了吞吐量和降低了延遲。

  • 模型特定的推理優(yōu)化計算與通信協(xié)同:設計了單批次重疊(SBO)調(diào)度策略,利用模塊級重疊充分發(fā)揮LongCat-Flash的潛力,將通信開銷隱藏在單個批次內(nèi)。ScMoE架構(gòu)還促進了節(jié)點內(nèi)NVLink帶寬利用和節(jié)點間RDMA通信的重疊。
  • 推測解碼(SpeculativeDecoding):利用MTP作為草稿模型,通過在后期預訓練階段集成一個輕量級MTP頭(單個密集層),實現(xiàn)約90%的Token接受率。同時采用C2T方法,使用分類模型在驗證前過濾掉不太可能被接受的Token,以降低驗證成本。
  • 減少KV緩存:MLA機制(64個頭)有效壓縮KV緩存,減少存儲和帶寬壓力。
  • 系統(tǒng)級推理技術(shù)最小化調(diào)度開銷:采用TVD融合策略將目標前向、驗證和草稿前向融合到單個CUDA圖中。引入多步重疊調(diào)度器,在一個調(diào)度迭代中啟動多個前向步驟的內(nèi)核,以隱藏CPU調(diào)度和同步開銷。

定制內(nèi)核

  • MoEGEMM:利用SwapAB技術(shù),將權(quán)重視為左手矩陣,激活視為右手矩陣,最大化TensorCore利用率,解決Token計數(shù)不足時的填充問題。
  • 通信內(nèi)核:利用NVLinkSharp的硬件加速廣播和內(nèi)交換機歸約功能,通過內(nèi)聯(lián)PTX匯編實現(xiàn)高效的數(shù)據(jù)傳輸,性能優(yōu)于NCCL和MSCCL++。
  • 量化:采用與DeepSeek-V3相同的細粒度塊級量化方案(激活每個[1,128]塊,權(quán)重每個[128,128]塊),并基于FPTQ和Super-Expert方法,應用層級混合精度量化,以實現(xiàn)最佳性能-精度權(quán)衡。
  • 部署與性能測量性能:采用PD-Disaggregated架構(gòu)獨立優(yōu)化預填充和解碼階段,并實現(xiàn)層級傳輸以降低TTFT。LongCat-Flash在H800上實現(xiàn)100TPS的生成速度,每百萬輸出Token成本0.7美元。
  • 理論性能:在EP數(shù)量為128,每設備批處理大小為96的配置下,LongCat-Flash的理論TPOT為16毫秒,每百萬輸出Token成本0.09美元,比DeepSeek-V3和Qwen3-235B-A22B有顯著理論改進。

七、結(jié)論

LongCat-Flash 是一個 5600 億參數(shù)的 MoE 模型,其核心創(chuàng)新包括:

  1. 上下文感知動態(tài)計算機制和快捷連接MoE,在訓練和推理中實現(xiàn)高效率。
  2. 確保穩(wěn)定大規(guī)模訓練的集成策略。
  3. 培養(yǎng)LongCat-Flash代理能力的多階段訓練流程,使其能夠執(zhí)行需要迭代推理和環(huán)境交互的復雜任務。

LongCat-Flash 作為開源模型發(fā)布,旨在推動高效 MoE 架構(gòu)、高質(zhì)量數(shù)據(jù)策略和代理模型開發(fā)的研究,促進大型語言模型的社區(qū)創(chuàng)新。

本文由 @夢寐ai分享 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!