欧美最猛黑人xxxx,freerideoxxx性欧美,成人性三级欧美在线观看

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

華為曝光兩大黑科技！打破推理延遲魔咒，大模型從此「秒回」

新智元

2025-05-22

0 評論 592 瀏覽 0 收藏

16 分鐘

華為推出兩大 AI 黑科技 ——FusionSpec 與 OptiQuant 。FusionSpec 打破大模型推理延遲魔咒，將耗時降至毫秒級；OptiQuant 支持靈活量化，推理性價比更高，二者為超大規(guī)模 MoE 模型推理開辟新路徑，推動中國 AI 發(fā)展。

剛剛，昇騰兩大技術(shù)創(chuàng)新，突破速度瓶頸重塑AI推理。FusionSpec創(chuàng)新的框架設計配合昇騰強大的計算能力，將投機推理框架耗時降至毫秒級，打破延遲魔咒。OptiQuant支持靈活量化，讓推理性價比更高。

「前DeepSeek」時代，人們普遍認為「有卡才能推理，沒卡寸步難行」。

而DeepSeek卻憑借一系列軟件層面的架構(gòu)創(chuàng)新，把這一硬性門檻直接抬走，同時開創(chuàng)了中國人自己的AI大航海時代。

不過，雖然諸如V3和R1等超大規(guī)模MoE性能卓越，但在部署時卻存在著非常大的挑戰(zhàn)——推理的速度和延遲。

心理學和行業(yè)實驗一致表明，LLM吐出第一個token所用的時間（TTFT），以及每秒生成的速度直接決定了用戶的「等候感」。超過100毫秒即可感知，超過2秒即可打斷思考。

對于AI應用來說，這里有一個簡單的公式可以說明：更快速度+更低延遲=更高滿意度+更高轉(zhuǎn)化率。

為了解決這一核心問題，華為通過兩個全新的方法和思路，對MoE模型進行了專門的推理優(yōu)化，讓中國模型在中國的服務器上的推理速度來到了全新的高度！

FusionSpec打破了大模型推理「延遲魔咒」，依托于昇騰「超高」計算帶寬比的特點，創(chuàng)新性地重塑了主模型和投機模型的流程，結(jié)合輕量級步間準備，將投機推理框架耗時做到了1ms。

OptiQuant不僅支持主流量化算法，同時具備靈活的自定義組合能力，涵蓋了業(yè)內(nèi)主流評測數(shù)據(jù)集，為大模型推理提供了更強性價比。

華為挑戰(zhàn)MoE推理的「兩把刷子」

早期LLM的推理通常使用自回歸解碼方式，即「每次只能預測下一個token」。

且需將歷史輸出作為輸入進行下一步解碼，導致推理過程串行、效率低下、計算密集度低。

如何解決這個問題？投機推理技術(shù)應運而生。

投機推理（Speculative Inference），也被稱為推測性解碼，其核心思想是利用計算代價遠低于大模型的小模型（也稱為投機模型），先行對后續(xù)可能的輸出進行猜測，然后由大模型對這些猜測結(jié)果進行驗證，從而實現(xiàn)并行化推理，提升整體推理速度。

這個道理其實也簡單，就像寫作文的時候，你先在草稿上「預測」幾個可能句子（投機模型猜測），再挑出合適的句子寫到正式作文里（大模型或者叫主模型驗證）。

如果草稿上預測的都不對，那就把作文里的擦掉重寫就好了（回退修正）。但要是預測對了，寫作文的速度（大模型的輸出速度）就能更快——畢竟草稿紙上的修改成本遠低于正式作文。

這種「先試錯再優(yōu)化」的思路，讓大模型能更快、更準的給出答案（也就是推理速度又快又好）。

然而，是想要完美將投機模型和主模型相結(jié)合，依然面臨很大的困難。

1. 推測準確性與草稿生成效率的權(quán)衡

小模型的主要任務是快速生成可能的輸出，但這往往與生成結(jié)果的準確性相矛盾。如何在兩者之間找到最佳平衡點，是投機推理技術(shù)面臨的一大挑戰(zhàn)。

2. 批處理推理場景的適配

在實際應用中，批處理推理可以提高系統(tǒng)的整體吞吐量。投機推理本質(zhì)上來說是用空閑的算力換取更高的吞吐，需要處理好投機模型和投機框架引入的耗時，不然無法發(fā)揮投機推理在批處理場景下的加速潛力。

另一方面，僅有投機推理技術(shù)也不夠，推理性能提升還需與模型壓縮、量化、增量式解碼等有效集成。

超大規(guī)模MoE動輒百億、千億參數(shù)量，對顯存帶寬、計算能力和互聯(lián)網(wǎng)帶寬需求，提出了極高要求。尤其長序列推理中的KV cache，更是堪稱顯存「無底洞」。

在此背景下，量化技術(shù)就成了緩解資源約束、優(yōu)化部署效率的「救命稻草」——在大幅降低資源占用的同時，還能盡量保留模型精度。

以INT8量化為例：

權(quán)重量化可以將模型參數(shù)的顯存需求降低50%，配合激活值量化，利用Cube-Core的INT8算力加速矩陣乘運算。

KV cache量化則進一步壓縮了顯存占用，支持更長的序列和更高的并發(fā)請求，大幅提升了Decode階段的系統(tǒng)吞吐量。

盡管低比特量化被視為LLM推理的靈丹妙藥，但若要實現(xiàn)高質(zhì)高效的量化，并非易事。

1. 精度的損失

將模型參數(shù)從高精度壓縮到低精度，不可避免會導致精度下降。尤其是，在極低比特數(shù)（如二值）情況下更為明顯。

2. 算法的「兩難抉擇」

如何去設計高效、抗噪的量化算法，在保持精度同時，降低計算和訪存復雜度，依舊是行業(yè)研究重點。

過于復雜的算法，雖能提升精度，但會增加計算開銷，抵銷量化的效率優(yōu)勢。而過于簡單的算法，又會犧牲過多精度，最終導致模型效果不佳。

3. 硬件兼容的適配

量化后的模型還需與硬件深度適配，而現(xiàn)有的量化算法在昇騰硬件上還有很多創(chuàng)新優(yōu)化的空間。

此外，量化誤差的控制和推理過程中的動態(tài)調(diào)整策略，也充滿了挑戰(zhàn)。

4.校準集泛化性缺失

校準集的泛化性缺失導致了在很多任務上，難以達到與原有模型相近的精度水平，甚至在某些場景下精度下降十分嚴重。

不論是投機推理，還是低比特量化，都是推理優(yōu)化過程核心，它們所面臨的難題，是LLM飆速推理路上最大的絆腳石。

而現(xiàn)在，華為的這套方案，徹底攻克所有挑戰(zhàn)，解鎖了AI模型的中國速度。

投機推理框架FusionSpec創(chuàng)1ms奇跡

具體來說，在投機推理方面，華為團隊提出了投機推理框架FusionSpec。

FusionSpec充分利用了昇騰服務器高計算帶寬比的特點，在低時延大并發(fā)場景下，深度優(yōu)化了DeepSeek提出的MTP在昇騰上的推理性能，將投機推理框架耗時減小至1ms，并在三個方面進行了重大創(chuàng)新：

1. 考慮到DeepSeek的模型架構(gòu)，MTP層需要主體模型的最后一層結(jié)果作為輸入，將MTP層的執(zhí)行直接排在主體模型執(zhí)行之后。

這樣做帶來兩個優(yōu)勢：

優(yōu)化后的調(diào)度順序避免了推理的步間數(shù)據(jù)傳輸

在PD分離的部署場景下，投機模型的后置解耦了PD分離系統(tǒng)與投機框架，同時有效減少了節(jié)點間的數(shù)據(jù)傳輸

昇騰基于PD分離部署的vLLM框架調(diào)度示意圖

2. 參考MTP層訓練模式，將MTP層視為模型的一部分，注意力算子復用主體模型的控制參數(shù)。

DeepSeek V3/R1為代表的主流的大語言模型采用旋轉(zhuǎn)位置編碼RoPE。在使用投機模型進行預測時，會按實際推理的token個數(shù)進行位置編碼。

但對MTP層而言，計算時會忽略輸入的第0個token。因此，研究團隊把MTP層輸入的第0個token舍去，前移其余token，并復用主體模型的控制參數(shù)。

而RoPE保證了對所有token進行平移后的attention score不發(fā)生改變。這樣，就可以保證MTP層的正確計算，同時節(jié)省CPU上的準備時間，并簡化整個系統(tǒng)的block管理。

· 參數(shù)復用省去了控制參數(shù)的重新構(gòu)造，降低了框架耗時

通過主體模型前置與流程拼接，將單步投機推理中輸入準備從兩次降低為一次，避免主體模型和投機模型之間CPU同步打斷流水，壓縮了單步推理內(nèi)主體模型與投機模型間的框架耗時，使得投機推理的整體框架時延與非投機場景一致。

基于上述優(yōu)化，F(xiàn)usionSpec框架實現(xiàn)了在較低時延下的高并發(fā)、大吞吐。

3. 實現(xiàn)了NPU上的輕量步間準備，支撐了vLLM v0的multi-step以及vLLM v1前后處理全異步，進一步降低了步間的框架耗時。

除了模型結(jié)構(gòu)和框架設計優(yōu)化外，在算子級別的細化加速同樣關(guān)鍵——這就是FusionSpec進一步優(yōu)化的重點。

· 投機場景MLA算子加速

DeepSeek提出的對多頭潛注意力機制MLA，通過對Key和Value的低秩聯(lián)合壓縮，不僅大幅減少了所需的KV緩存量，同時性能還超過了傳統(tǒng)的MHA。

為了充分利用昇騰的計算能力，壓縮端到端輸出時間，F(xiàn)usionSpec進一步優(yōu)化了投機場景MLA計算流程，減少矩陣的搬運時間。

投機場景下多頭潛在注意力MLA算子優(yōu)化

· TopK、TopP算子加速

在投機推理場景中，若預測m個token，單步推理需進行1+m次詞表采樣操作，所以采樣操作的速度變得更加重要。

采樣操作一般包含溫度、TopK、TopP三步，其中TopK、TopP需要排序，并且計算前綴和，這些是采樣操作的瓶頸。

未來，F(xiàn)usionSpec將采用流式過濾策略、昇騰歸并排序API優(yōu)化TopK、TopP計算。

量化框架OptiQuant讓MoE巨獸飛起來

在量化方面，華為團隊則提出了OptiQuant量化框架。

它不僅兼容業(yè)界主流量化算法，通過一系列功能創(chuàng)新，為高效部署提供了強力支撐。具體來說，它有四大核心亮點：

· 豐富的量化和數(shù)值類型

OptiQuant支持了Int2/4/8和FP8/HiFloat8等數(shù)據(jù)類型，與業(yè)界Qserve、HQQ、LUT等主流量化方法兼容。

在此基礎上，OptiQuant創(chuàng)新性提出「可學習截斷」、「量化參數(shù)優(yōu)化」等算法，將量化誤差進一步降低。

· 業(yè)內(nèi)主流評測數(shù)據(jù)集

OptiQuant支持多樣化評測任務，包括判斷題、問答題、代碼題和數(shù)學題等多個方向，覆蓋了十種常見的語言。

為了提升量化模型的泛化能力，OptiQuant還引入了混合校準集的方法，按一定的比例混合不同數(shù)據(jù)集。

· 量化權(quán)重以及元數(shù)據(jù)的生成

OptiQuant提出了自適應層間混精算法和PD分離量化權(quán)重，并且根據(jù)對應的量化配置生成對應的權(quán)重參數(shù)，通過去冗余技術(shù)減少參數(shù)保存的參數(shù)量。

同時，F(xiàn)lexSmoothQuant等算法在數(shù)據(jù)校準過程中，將搜索到的元數(shù)據(jù)進行保存，并用于后續(xù)推理過程。

· 量化權(quán)重推理

OptiQuant提出了KVCache量化和MoE TopK專家剪枝技術(shù)。

結(jié)合昇騰親和的量化算子，OptiQuant通過高效數(shù)據(jù)并行/流水并行，針對不同大小的大語言模型實現(xiàn)精度驗證性能加速，將對各個數(shù)據(jù)集精度評估性能提高了5x以上。

此外，OptiQuant還支持Vector Quantization、DFloat11、可逆變換、量化模型微調(diào)等技術(shù)點。

OptiQuant量化框架

通過OptiQuant和相關(guān)優(yōu)化算法，華為實現(xiàn)了W8A8C16/W4A8C16的模型精度，媲美FP8精度的效果，并充分發(fā)揮了昇騰硬件性能。

表1：DeepSeek-R1模型精度測試結(jié)果

注1：如無特殊說明, 測試為單次結(jié)果

注2：測試3次以上結(jié)果取平均

注3：單次測試結(jié)果

表2：DeepSeek-V3-0324模型精度測試結(jié)果

注1：單次測試結(jié)果

下一步，團隊還將探索PD差異量化、KV cache量化、TopK專家剪枝、通用的等價變換建模、和量化微調(diào)等方向，實現(xiàn)更高效、更低比特的權(quán)重、激活和KV cache的量化模型推理技術(shù)。

總而言之，F(xiàn)usionSpec和OptiQuant的雙劍合璧，將為超大規(guī)模MoE模型推理開辟了全新路徑。

這兩大框架的提出，打破了LLM推理的延遲魔咒、資源瓶頸。

這不僅僅是一次技術(shù)的突破，更是中國AI在全球舞臺上的一次強勢發(fā)聲。

本文由人人都是產(chǎn)品經(jīng)理作者【汪仔4260】，微信公眾號：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

170篇作品 359423總閱讀量

MarTech?-CDP實戰(zhàn)手冊-CDP交付驗收（十三）

10-133332 瀏覽

AI產(chǎn)品經(jīng)理工作指南

09-259004 瀏覽

淘寶丑東西頒獎盛典：審美洼地還是商業(yè)高地？

02-275936 瀏覽

B端業(yè)務規(guī)劃產(chǎn)品戰(zhàn)略，應對外部變化？

01-035384 瀏覽

董潔小紅書直播賣貨3000萬的背后啟發(fā)

03-307358 瀏覽

評論

目前還沒評論，等你發(fā)揮！

重磅！微軟發(fā)布 ChatGPT 版搜索引擎，用上了比 ChatGPT 更強大的技術(shù)

02-082705 瀏覽
無感考勤系統(tǒng)需求設計說明書

06-129107 瀏覽
向量數(shù)據(jù)庫：AI時代的下一個熱點

08-042701 瀏覽

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

華為曝光兩大黑科技！打破推理延遲魔咒，大模型從此「秒回」

華為挑戰(zhàn)MoE推理的「兩把刷子」

投機推理框架FusionSpec創(chuàng)1ms奇跡

量化框架OptiQuant讓MoE巨獸飛起來

華為曝光兩大黑科技！打破推理延遲魔咒，大模型從此「秒回」