欧美黑人疯狂性受xxxxx喷水,欧美性猛片aaaaaaa做受

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

美團龍貓LongCat-Flash詳細報告

夢寐ai分享

2025-09-01

0 評論 1746 瀏覽 2 收藏

23 分鐘

LongCat-Flash 是美團龍貓智能體體系中的關(guān)鍵一環(huán)，承載著從任務執(zhí)行到系統(tǒng)協(xié)同的能力躍遷。本文將從架構(gòu)設計、能力演進到落地場景，系統(tǒng)拆解 LongCat-Flash 的技術(shù)邏輯與產(chǎn)品價值，為理解企業(yè)級智能體的構(gòu)建路徑提供參考樣本。

LongCat-Flash 是美團 LongCat 團隊開發(fā)的一個擁有 5600 億參數(shù)的混合專家 (MoE) 語言模型。該模型旨在實現(xiàn)計算效率和高級代理能力。其核心創(chuàng)新包括：

零計算專家(Zero-computationExperts)：實現(xiàn)動態(tài)計算預算分配，根據(jù)上下文需求激活186億至313億參數(shù)（平均270億），從而優(yōu)化資源利用。
快捷連接MoE(Shortcut-connectedMoE,ScMoE)：擴大計算-通信重疊窗口，顯著提升推理效率和吞吐量。

LongCat-Flash 采用全面的大模型擴展框架，結(jié)合超參數(shù)遷移、模型增長初始化、多管齊下的穩(wěn)定性套件和確定性計算，以實現(xiàn)穩(wěn)定和可重現(xiàn)的訓練。模型在 30 天內(nèi)完成了超過 20 萬億 Token 的訓練，推理速度超過 100 TPS，每百萬輸出 Token 成本為 0.70 美元。通過大規(guī)模預訓練、有針對性的中訓和后訓（包括推理、代碼和指令，并輔以合成數(shù)據(jù)和工具使用任務），LongCat-Flash 培養(yǎng)了代理智能。

LongCat-Flash 作為非思維型基礎模型，在眾多領(lǐng)先模型中表現(xiàn)出高度競爭力，尤其在代理任務中表現(xiàn)出色。LongCat-Flash 的模型檢查點已開源，以促進社區(qū)研究。

一、主要貢獻

大型語言模型 (LLM) 的快速發(fā)展證明了模型規(guī)模和計算資源擴展的有效性。LongCat-Flash 旨在通過計算效率和代理能力這兩個協(xié)同方向，推動語言模型的前沿發(fā)展。

實現(xiàn)計算效率的可擴展架構(gòu)設計零計算專家機制：根據(jù)Token的重要性動態(tài)分配計算預算，激活186億至313億參數(shù)（總計5600億），平均每個Token激活約270億參數(shù)。采用PID控制器調(diào)整專家偏差以確保計算負載一致。
快捷連接MoE(ScMoE)：擴展計算-通信重疊窗口，結(jié)合定制的基礎設施優(yōu)化，實現(xiàn)大規(guī)模訓練和高吞吐、低延遲的推理。
有效的模型擴展策略超參數(shù)遷移：通過理論保證，將小規(guī)模代理模型的最佳超參數(shù)配置遷移到目標大模型。
模型增長初始化：從一個預訓練的半規(guī)模模型開始，通過層堆疊技術(shù)擴展參數(shù)，提高性能。
多管齊下的穩(wěn)定性套件：包括原則性的路由器梯度平衡、隱藏z-loss以抑制大規(guī)模激活以及精調(diào)的優(yōu)化器配置。
確定性計算：確保實驗的精確可復現(xiàn)性，并支持訓練過程中SDC（靜默數(shù)據(jù)損壞）的檢測。
多階段代理能力訓練流程基礎模型構(gòu)建：設計兩階段預訓練數(shù)據(jù)融合策略，集中推理密集型領(lǐng)域數(shù)據(jù)。
中訓階段：增強推理和編碼能力，并將上下文長度擴展至128k。
后訓階段：設計多代理合成框架，根據(jù)信息處理、工具集復雜性和用戶交互三個維度定義任務難度，生成需要迭代推理和環(huán)境交互的復雜任務。

整體表現(xiàn)：

LongCat-Flash 在可擴展架構(gòu)設計、訓練策略和基礎設施協(xié)同作用下，實現(xiàn)了高訓練吞吐量和低推理延遲。模型在 30 天內(nèi)完成 20 萬億 Token 的預訓練，可用性高達 98.48%。推理部署效率超過 H800 上 100 TPS，每百萬輸出 Token 成本 0.7 美元。

評估結(jié)果：

LongCat-Flash 在 ArenaHard-V2 上得分 86.5，TerminalBench 上得分 39.5，τ2-Bench 上得分 67.7，在通用領(lǐng)域、編碼和代理工具使用方面展現(xiàn)出強大的能力。為緩解現(xiàn)有開源基準測試的潛在污染，團隊構(gòu)建了兩個新基準：Meeseeks（模擬真實人機交互評估多輪指令遵循能力）和 VitaBench（利用真實商業(yè)場景評估解決復雜現(xiàn)實任務的能力），LongCat-Flash 在這些基準上均表現(xiàn)出色。

二、架構(gòu)

LongCat-Flash 采用了一種新穎的 MoE 架構(gòu)，具有兩個關(guān)鍵創(chuàng)新：

1.零計算專家 (Zero-Computation Experts)

MoE 塊中包含零計算專家，允許 Token 根據(jù)其上下文重要性動態(tài)消耗可變計算資源。通過自適應專家偏差控制平均計算負載。

動態(tài)計算資源分配：模型通過激活不同數(shù)量的FFN專家（以及Z個零計算專家，它們只返回輸入而不產(chǎn)生額外計算成本）來實現(xiàn)動態(tài)計算。這使得模型能將更多計算資源分配給具有更高上下文重要性的Token，從而在相同計算容量下實現(xiàn)優(yōu)越性能。
計算預算控制：通過一個PID控制器引入專家特定偏差項，動態(tài)調(diào)整路由分數(shù)，以確保FFN專家和零計算專家之間的平均選擇比例保持在目標范圍內(nèi)。這有助于在預訓練期間將平均激活專家數(shù)量穩(wěn)定在預期值附近，同時保持激活參數(shù)的顯著可變性。
負載均衡控制：除了語料庫層面的負載均衡，還引入了設備層面的負載均衡損失，以進一步防止EP組內(nèi)序列級別的極端不平衡。

2.快捷連接 MoE (Shortcut-Connected MoE)

每個層集成兩個多頭潛在注意力 (MLA) 塊和多個異構(gòu)前饋網(wǎng)絡 (FFN) 塊。從第一個 MLA 輸出直接到 MoE 塊的快捷連接被采用。

克服通信瓶頸：傳統(tǒng)MoE模型中，專家并行會導致通信延遲成為瓶頸。ScMoE通過引入跨層快捷連接，重新排序執(zhí)行管道，使得前一個塊的密集FFN可以與當前MoE層的分發(fā)/組合通信并行執(zhí)行，從而創(chuàng)建更大的重疊窗口。
質(zhì)量中立：訓練損失曲線顯示，ScMoE架構(gòu)與基線（無ScMoE）模型幾乎相同，證明其執(zhí)行重排序不影響模型性能。

顯著的系統(tǒng)級效率提升：

大規(guī)模訓練：擴展的重疊窗口允許前一個塊的計算與MoE層的分發(fā)和組合通信階段完全并行。
高效推理：ScMoE實現(xiàn)“單批次重疊”(SBO)管道，將理論上的每輸出Token時間(TPOT)減少近50%。它還允許節(jié)點內(nèi)張量并行通信(NVLink)與節(jié)點間專家并行通信(RDMA)并發(fā)執(zhí)行，最大化網(wǎng)絡利用率。
可擴展性的方差對齊設計MLA的尺度校正：采用修正的多頭潛在注意力(MLA)機制，引入尺度校正因子αq和αkv，解決非對稱低秩分解中固有的方差不平衡問題，確保在模型擴展時注意力得分的穩(wěn)定性。
專家初始化方差補償：針對DeepSeek-MoE中細粒度專家策略的性能敏感性，提出方差補償機制，通過一個縮放因子γ抵消專家分割導致的初始化方差減少。
模型信息分詞器(Tokenizer)：采用字節(jié)對編碼(BPE)，在多語言語料庫上訓練，詞匯量優(yōu)化為131,072個Token，增強了中文處理和數(shù)學能力。
多Token預測(Multi-TokenPrediction,MTP)：作為輔助訓練目標，通過單個密集層MTP頭在訓練中期引入，以提高推理效率（評估中接受率>90%）。
模型配置：LongCat-Flash包含28層（不包括MTP層），隱藏狀態(tài)維度為6144。MLA塊使用64個注意力頭，每個頭維度128。FFN密集路徑使用12288中間維度，每個FFN專家使用2048維度。每層包含512個FFN專家和256個零計算專家，每個Token激活12個專家?？倕?shù)5600億，每個Token平均激活約270億參數(shù)。

三、預訓練

LongCat-Flash 的預訓練遵循三階段課程：

階段 1：通用預訓練：在約 20 萬億 Token 上訓練，序列長度為 8192，建立穩(wěn)健的基礎模型

數(shù)據(jù)處理：包括內(nèi)容提取、兩步質(zhì)量過濾和基于MinHash的大規(guī)模去重。
數(shù)據(jù)混合策略：采用兩階段調(diào)度，逐步增加高質(zhì)量推理數(shù)據(jù)（如STEM和代碼）的比例，并根據(jù)質(zhì)量和多樣性分數(shù)進行實例級數(shù)據(jù)混合。

階段 2：推理和編碼增強：使用數(shù)萬億數(shù)據(jù)進一步增強推理和編碼能力

系統(tǒng)化合成數(shù)據(jù)工作流：通過知識圖譜遍歷、多階段迭代細化和雙模態(tài)生成與驗證來優(yōu)化數(shù)據(jù)質(zhì)量和多樣性，確保概念復雜性、CoT推理質(zhì)量和數(shù)學準確性。

階段 3：長上下文擴展：通過在長上下文語料庫上訓練，將上下文長度擴展到 128k

兩階段擴展策略：第一階段從8k擴展到32kToken，RoPE基頻從1,000,000提高到5,000,000。第二階段進一步擴展到128kToken，基頻提高到10,000,000。
訓練語料庫：基于自然產(chǎn)生的長文本數(shù)據(jù)（如書籍、小說）和系統(tǒng)組織的代碼庫數(shù)據(jù)。
訓練策略超參數(shù)遷移：基于寬度縮放，通過在較小代理模型上確定最佳超參數(shù)，然后根據(jù)理論縮放規(guī)則將其遷移到目標模型。
模型增長初始化：從一個預訓練的半規(guī)模模型（14層）開始，通過層堆疊技術(shù)擴展到目標規(guī)模（28層），實驗顯示其優(yōu)于隨機初始化，并能加速收斂。

訓練穩(wěn)定性

路由器穩(wěn)定性：通過監(jiān)控路由器權(quán)重相似度和梯度范數(shù)比(Rg)，確保負載均衡損失作為正則化項，而不會壓倒語言模型損失。
激活穩(wěn)定性（隱藏z-loss）：引入隱藏z-loss以抑制訓練期間大規(guī)模激活的發(fā)生，從而減少數(shù)值誤差和性能下降風險。
Adamepsilon的實際配置：將Adam優(yōu)化器中的epsilon(ε)參數(shù)設置為非常小的值(1e-16)，以保持數(shù)值穩(wěn)定性并保留優(yōu)化器的自適應特性。

數(shù)據(jù)凈化 (Decontamination)

對所有訓練數(shù)據(jù)進行嚴格凈化，通過 13-gram 重疊和語義相似性（使用 BGE-m3 嵌入）檢測，防止基準測試集的數(shù)據(jù)泄露。

評估

LongCat-Flash 基礎模型在通用任務、通用推理、數(shù)學推理和編碼方面表現(xiàn)出色，與 DeepSeek-V3.1 Base、Llama-4-Maverick Base 和 Kimi-K2 Base 等最先進的開源 MoE 模型相比，參數(shù)效率更高，性能具有競爭力甚至更優(yōu)。

四、后訓練

LongCat-Flash 采用傳統(tǒng)的多階段后訓練框架，以增強模型在復雜推理、編碼、代理工具使用任務和通用能力方面的表現(xiàn)。

推理和編碼數(shù)學：通過“角色（persona）”和“自指令（self-instruct）”范式生成高質(zhì)量和新穎的數(shù)學問題，并進行兩階段答案驗證（多LLM一致性選擇和推理增強型獎勵模型評分）。
編碼：匯集來自公共數(shù)據(jù)集、GitHub代碼片段和CodeEvol-Instruct方法生成的編碼查詢，并通過嚴格的過濾管道和Docker鏡像測試用例驗證來確保質(zhì)量。
邏輯推理：構(gòu)建涵蓋演繹、假設和歸納推理的邏輯推理數(shù)據(jù)集，并進行難度管理（通過Pass@k指標和過濾策略），同時關(guān)注最終答案的正確性、推理的完整性和清晰度。
代理工具使用任務定義：將代理任務定義為通過系統(tǒng)性環(huán)境交互解決復雜問題，任務難度歸因于信息處理復雜度、工具集復雜度和用戶交互復雜度。

多代理數(shù)據(jù)合成框架

UserProfileAgent：生成用戶配置文件，控制對話風格、溝通意愿和信息披露模式。
ToolSetAgent：枚舉40個領(lǐng)域和1600個應用，構(gòu)建80,000個模擬工具的廣泛工具圖，通過隨機游走采樣子圖控制工具集復雜度。
InstructionAgent：根據(jù)約束復雜度、推理點數(shù)量和推理鏈長度量化推理難度，生成全面描述完整任務的指令。
EnvironmentAgent：增強環(huán)境信息并引入混淆元素以增加推理復雜度。
RubricAgent：構(gòu)建任務相關(guān)的檢查清單，并采用滑動窗口評估整個軌跡。
ValidatorAgent和DeduplicatorAgent：檢查最終任務的質(zhì)量并去除相似任務。
通用能力指令遵循：策劃單輪和多輪指令遵循數(shù)據(jù)集，并通過可驗證規(guī)則和模型驗證確保響應滿足所有約束。
長上下文：開發(fā)三類長序列數(shù)據(jù)集（閱讀理解、表格問答、定制任務），通過聚合相關(guān)上下文段落來促進長序列中突出信息的學習，并優(yōu)化模型在上下文不完整時的拒絕能力以緩解幻覺。
安全性：基于Muetal.[2024]的框架開發(fā)內(nèi)容安全策略，將查詢分類為40多個不同的安全類別和五種響應類型，并采用兩階段上下文感知數(shù)據(jù)合成器（查詢分類和響應映射與優(yōu)化）進行訓練。
評估基準測試：涵蓋通用領(lǐng)域、指令遵循（IFEval、COLLIE、Meeseeks）、數(shù)學推理（MATH500、AIME24/25、BeyondAIME）、通用推理（GPQA-diamond、DROP、ZebraLogic、GraphWalks）、編碼（Humaneval+、MBPP+、LiveCodeBench、SWE-Bench-Verified、TerminalBench）和代理工具使用（τ2-Bench、AceBench、VitaBench）。
比較對象：與DeepSeek-V3.1、Qwen3-235B-A22B、Kimi-K2、GPT-4.1、Claude4-Sonnet和Gemini2.5-Flash等非思維型聊天模型進行比較。
評估結(jié)果：LongCat-Flash在通用領(lǐng)域、指令遵循、數(shù)學推理、通用推理、編碼和代理工具使用方面表現(xiàn)出卓越性能，尤其在ArenaHard-V2、IFEval、AIME25、ZebraLogic、TerminalBench和VitaBench上名列前茅。在安全性方面，LongCat-Flash在識別和緩解風險（特別是有害和犯罪類別）方面表現(xiàn)出色。

五、訓練基礎設施

訓練基礎設施的核心設計原則是可擴展性和精確性。

數(shù)值精度控制與故障檢測ULP評估：采用ULP（UnitintheLastPlace）作為指標，量化并緩解浮點誤差，確保BF16結(jié)果與CPUFP32真值之間的精度。
SDC檢測機制：實現(xiàn)高效的片上原地運算符重計算機制，特別是在FlashAttention梯度(FAG)的反向計算中，通過位差檢測潛在的靜默數(shù)據(jù)損壞(SDC)風險。
確定性和性能的內(nèi)核優(yōu)化確定性FAG：開發(fā)高效的確定性FAG內(nèi)核，通過有限的額外工作空間以確定性順序累積Tile，同時通過雙緩沖流水線、精調(diào)的Tile調(diào)度和負載均衡實現(xiàn)1.6倍于原始確定性版本和0.95倍于非確定性版本的性能。
確定性ScatterAdd：提出分層歸約算法，并行化梯度聚合，實現(xiàn)與非確定性版本相當?shù)男阅堋?/li>
優(yōu)化的分組GEMM：通過雙緩沖流水線、對角線Tile和HBM帶寬控制進行優(yōu)化，實現(xiàn)5%-45%的加速。
融合GemmAdd：將FP32加法融合到GEMM后處理中，避免中間回寫并隱藏加法過程，實現(xiàn)3.12x到3.86x的加速。
大規(guī)模訓練的分布式策略專家并行組(EP)：每個EP組包含32個加速器，注意力層采用上下文并行(CP=8)，F(xiàn)FN層使用EP分區(qū)而不使用TP。
ScMoE結(jié)構(gòu)和分塊：ScMoE結(jié)構(gòu)使分發(fā)/組合通信與單批次中的更多計算重疊，并將MoE層沿Token維度分成兩個塊，實現(xiàn)與密集FFN計算和彼此之間的重疊。
優(yōu)化通信：采用帶流水線的All-gather/reduce-scatter內(nèi)核，將非重疊分發(fā)/組合通信時間比例從25.3%降低到8.4%。
V-ZB算法：采用V-ZB算法平衡所有階段的內(nèi)存使用，并將峰值內(nèi)存降低到60GB以下，實現(xiàn)零理論氣泡。
可靠性和可觀測性可用性：異步檢查點將訓練停頓減少到2-4秒，結(jié)合在線關(guān)鍵日志過濾、優(yōu)化初始化和全面自動化，將恢復時間減少到<10分鐘，實現(xiàn)了98.48%的可用性。
可觀測性：結(jié)合細粒度（PyTorchprofiler）和粗粒度（低開銷運行時分析）性能分析，以及一個度量平臺，用于快速評估模型狀態(tài)。

六、推理與部署

LongCat-Flash 采用模型與系統(tǒng)協(xié)同設計，顯著提高了吞吐量和降低了延遲。

模型特定的推理優(yōu)化計算與通信協(xié)同：設計了單批次重疊(SBO)調(diào)度策略，利用模塊級重疊充分發(fā)揮LongCat-Flash的潛力，將通信開銷隱藏在單個批次內(nèi)。ScMoE架構(gòu)還促進了節(jié)點內(nèi)NVLink帶寬利用和節(jié)點間RDMA通信的重疊。
推測解碼(SpeculativeDecoding)：利用MTP作為草稿模型，通過在后期預訓練階段集成一個輕量級MTP頭（單個密集層），實現(xiàn)約90%的Token接受率。同時采用C2T方法，使用分類模型在驗證前過濾掉不太可能被接受的Token，以降低驗證成本。
減少KV緩存：MLA機制（64個頭）有效壓縮KV緩存，減少存儲和帶寬壓力。
系統(tǒng)級推理技術(shù)最小化調(diào)度開銷：采用TVD融合策略將目標前向、驗證和草稿前向融合到單個CUDA圖中。引入多步重疊調(diào)度器，在一個調(diào)度迭代中啟動多個前向步驟的內(nèi)核，以隱藏CPU調(diào)度和同步開銷。

定制內(nèi)核

MoEGEMM：利用SwapAB技術(shù)，將權(quán)重視為左手矩陣，激活視為右手矩陣，最大化TensorCore利用率，解決Token計數(shù)不足時的填充問題。
通信內(nèi)核：利用NVLinkSharp的硬件加速廣播和內(nèi)交換機歸約功能，通過內(nèi)聯(lián)PTX匯編實現(xiàn)高效的數(shù)據(jù)傳輸，性能優(yōu)于NCCL和MSCCL++。
量化：采用與DeepSeek-V3相同的細粒度塊級量化方案（激活每個[1,128]塊，權(quán)重每個[128,128]塊），并基于FPTQ和Super-Expert方法，應用層級混合精度量化，以實現(xiàn)最佳性能-精度權(quán)衡。
部署與性能測量性能：采用PD-Disaggregated架構(gòu)獨立優(yōu)化預填充和解碼階段，并實現(xiàn)層級傳輸以降低TTFT。LongCat-Flash在H800上實現(xiàn)100TPS的生成速度，每百萬輸出Token成本0.7美元。
理論性能：在EP數(shù)量為128，每設備批處理大小為96的配置下，LongCat-Flash的理論TPOT為16毫秒，每百萬輸出Token成本0.09美元，比DeepSeek-V3和Qwen3-235B-A22B有顯著理論改進。