關(guān)于AI算力的若干神話與現(xiàn)實
算力作為AI發(fā)展的核心驅(qū)動力,一直是業(yè)界關(guān)注的焦點。然而,在這一領(lǐng)域中,存在著不少神話和誤解。本文深入探討了AI算力的現(xiàn)實與神話,供大家參考。
算力將是未來很長一段時間最重要的“戰(zhàn)略資源”之一,這一點已經(jīng)得到了專業(yè)人士和資本市場的普遍認(rèn)可。正因為算力實在太重要,與算力相關(guān)的產(chǎn)業(yè)鏈又太長太復(fù)雜,所以圍繞著算力總是會產(chǎn)生許多“神話”。各種各樣的人都在發(fā)表與這個話題有關(guān)的言論,有些純粹是出于興趣,有些則是出于利益(最典型的例子是炒股票)。無論在中文互聯(lián)網(wǎng)還是英文互聯(lián)網(wǎng)上,英偉達(dá)每天都在被顛覆,臺積電則每周或每個月都在被顛覆,甚至連GPU這個概念也經(jīng)常被顛覆。
有人說,華為昇騰芯片的算力已經(jīng)超過了英偉達(dá)的“大卡”,而且證據(jù)確鑿。還有人說,新興芯片設(shè)計公司Groq的自研芯片的推理效率遠(yuǎn)遠(yuǎn)高于英偉達(dá)的同類產(chǎn)品,至少可以在推理端實現(xiàn)對英偉達(dá)的替代。上述兩個神話的共同點是:都有一定的基礎(chǔ)論據(jù),不是完全的空想,但都與事實相去甚遠(yuǎn)。就好比盲人摸象,有人只摸到了大象身上的一根毛發(fā),就激動地自稱抓住了大象的本質(zhì)——這就是關(guān)于算力的“神話”層出不窮的根本原因。
此時此刻,關(guān)于AI算力有三個最引人注目、也最富爭議的“神話”:
- 英偉達(dá)的護(hù)城河沒有多寬,很容易被競爭對手攻破;
- 只要攻破了英偉達(dá)的護(hù)城河,我們就能解決AI算力的緊缺問題;
- AI算力很快將從數(shù)據(jù)中心下放到端側(cè),從而為“AI手機”等消費級產(chǎn)品帶來機遇。
對于第一個“神話”,只有做過AI研發(fā)的人最能理解其荒謬性。外人往往認(rèn)為,衡量硬件算力的唯一標(biāo)準(zhǔn)是技術(shù)指標(biāo),只要在關(guān)鍵技術(shù)指標(biāo)上超越了英偉達(dá),就可以取而代之——如果真的這么簡單就好了!英偉達(dá)的L40“中卡”,在某些技術(shù)指標(biāo)上甚至超過了自家的H100“大卡”,更不要說與上一代“大卡”A100相比了。AMD的數(shù)據(jù)中心GPU產(chǎn)品線,也不乏在某些技術(shù)指標(biāo)上超過H100的產(chǎn)品。為什么沒有想到用這些產(chǎn)品代替H100?
因為英偉達(dá)的護(hù)城河不止硬件本身,還包括CUDA軟件社區(qū)和NVLink互聯(lián)技術(shù)。有些AI開發(fā)者把英偉達(dá)稱為“三頭怪”:競爭對手必須同時砍下硬件、CUDA和NVLink三個頭,才能將其擊敗。在這三大護(hù)城河當(dāng)中,硬件層面已經(jīng)是最容易逾越的了!假設(shè)不考慮成本、不考慮兼容性和使用效率,華為、阿里等國內(nèi)科技公司都有能力開發(fā)出“看上去比英偉達(dá)更好”的數(shù)據(jù)中心GPU,在全世界范圍內(nèi)具備這種能力的公司就更多了;可是有什么用呢?“看上去比英偉達(dá)更好”是毫無意義的。
目前主流的AI訓(xùn)練服務(wù)器包括8塊H100 GPU;英偉達(dá)的下一代“超級芯片”GB200包括兩塊B200 GPU和一塊Grace CPU,一臺服務(wù)器由多塊這樣的“超級芯片”組成。GPU與GPU之間、GPU與CPU之間無時無刻不在交換數(shù)據(jù),而NVLink是一種高速的、久經(jīng)考驗的芯片互聯(lián)解決方案。在2014年NVLink發(fā)布之前,市面上最流行的芯片互聯(lián)技術(shù)是英特爾、IBM、戴爾和惠普共同開發(fā)的PCI Express(簡稱PCIe),它適用于絕大多數(shù)的主流芯片,問題是速度太慢、而且對通用計算GPU的優(yōu)化程度不夠。NVLink 4.0的傳輸速率能夠達(dá)到PCIe 5.0的7倍以上,能源消耗則只有后者的五分之一。在實踐中,大部分用戶都認(rèn)可NVLink在所有類似的解決方案當(dāng)中是最快的。
按照英偉達(dá)的說法,NVLink把GPU變成了“樂高積木”:8個GPU組成一個服務(wù)器,32個服務(wù)器組成一個算力集群;微軟、亞馬遜這樣的大廠還可以組建更大規(guī)模的超級算力集群,直至所謂“萬卡集群”,GPT-4就是在這樣的集群上訓(xùn)練出來的。當(dāng)然,NVLink只適用于英偉達(dá)的產(chǎn)品,以及英偉達(dá)的技術(shù)合作伙伴IBM的Power系列產(chǎn)品。準(zhǔn)確地說,即便在英偉達(dá)的GPU當(dāng)中,也只有“大卡”具備完整的NVLink支持,“中卡”“小卡”要么根本不支持NVLink,要么只支持很低的傳輸速率。這顯然是英偉達(dá)為了區(qū)分產(chǎn)品層級而使用的謀略:要訓(xùn)練大模型,就必須買昂貴的“大卡”,想通過組合大批“中卡”瞞天過海是不可能的。
如果企業(yè)客戶選擇英偉達(dá)之外的GPU,就只能使用PCIe等通用互聯(lián)技術(shù),組建算力集群的效率要下一個臺階。PCIe也在不斷進(jìn)化,但是其與NVLink的差距不是幾年內(nèi)能彌補的。理論上,客戶也可以自己“魔改”,強行在英偉達(dá)“中卡”甚至其競爭對手的顯卡上使用NVLink技術(shù),但是這樣做的風(fēng)險實在太大。從NVLink首次發(fā)布至今已經(jīng)經(jīng)歷了十年以上,任何競爭對手若想做出足以取而代之的技術(shù),恐怕要花費同樣長的時間。
至于推理環(huán)節(jié),芯片互聯(lián)的需求沒那么大,確實可以不考慮NVLink,以Groq為代表的專業(yè)推理芯片設(shè)計公司有機會,國內(nèi)科技企業(yè)也有機會。但是,對于一般的企業(yè)客戶來說,采購英偉達(dá)的“中卡”“小卡”可以完成多種任務(wù),還可以做圖形渲染、做云游戲;而其他公司推出的“專業(yè)推理芯片”往往是高度特化的,只適合執(zhí)行大模型推理任務(wù)。對于科技巨頭來說,就連推理環(huán)節(jié)也出現(xiàn)了以英偉達(dá)“大卡”代替“中卡”的趨勢,因為這樣能提升推理速度、實現(xiàn)算力的靈活配置。綜合各項顯性和隱性成本考慮,絕大部分企業(yè)不會主動考慮在推理環(huán)節(jié)把英偉達(dá)替換掉。
至于CUDA的重要性,更是怎么高估也不過分:它包括一系列代碼庫、一整套工具和開發(fā)環(huán)境,數(shù)以百計的軟件開發(fā)商是其長期合作伙伴。開發(fā)者不需要熟悉GPU的底層架構(gòu)即可上手。更重要的是,CUDA積累了數(shù)以百萬計的開發(fā)者群體。從學(xué)術(shù)界到產(chǎn)業(yè)界,到處是精通CUDA的開發(fā)者,他們也會教自己的下屬和后輩使用CUDA。在你使用CUDA開發(fā)的時候,你其實是站在無數(shù)前人經(jīng)驗的基礎(chǔ)之上。一位在國內(nèi)從事AI開發(fā)的技術(shù)人員告訴我:“全球擁有博士學(xué)位的CUDA開發(fā)者可能有50萬人,他們精通高性能計算,由此實現(xiàn)了CUDA社區(qū)資源的良性循環(huán)。整個英偉達(dá)生態(tài)的線下線上免費活動非常多,我自己就加入了好幾個英偉達(dá)中國交流群,每天收到各種會議交流信息。除非實在沒有使用CUDA的條件,否則很難想象有人會主動放棄CUDA!”
不可否認(rèn)的是,在十多年的發(fā)展歷程中,CUDA變得日益臃腫、復(fù)雜,開發(fā)難度逐漸提升了。曾任職于蘋果和AMD的著名芯片架構(gòu)師吉姆·凱勒(Jim Keller)曾指出:“CUDA是一片沼澤,而不是護(hù)城河。CUDA并不漂亮,它是通過一次次堆積功能而構(gòu)建起來的?!迸c其說這是英偉達(dá)的問題,倒不如說是所有大型應(yīng)用開發(fā)生態(tài)的共同問題:需要實現(xiàn)的功能太多,而且必須保持向下兼容的特性,于是生態(tài)系統(tǒng)變得越來越復(fù)雜混亂,開發(fā)效率不斷降低。除非推倒重來,這樣的問題是不能避免的;而專業(yè)開發(fā)人員都知道,CUDA就算再臃腫,也遠(yuǎn)遠(yuǎn)沒到需要推倒重來的地步。
真正能對英偉達(dá)構(gòu)成威脅的力量來自開源社區(qū)。英偉達(dá)的顯卡驅(qū)動程序是閉源的,因此飽受詬病。2022年,由于受到黑客的威脅,英偉達(dá)對部分GPU驅(qū)動程序的內(nèi)核模塊(Kernel Module)進(jìn)行了開源,但只是聊勝于無,實用價值不大。外部開發(fā)者以反向工程的技術(shù)手段開發(fā)了一些英偉達(dá)顯卡的開源驅(qū)動程序,可想而知,它們的技術(shù)水平不會很高。英偉達(dá)堅持閉源的原因很簡單,就是要最大限度地保持對自家產(chǎn)品的控制、謀取最高的利潤,這一點對于盈利性公司而言無可厚非。
英偉達(dá)的老對手AMD則于2014年推出了名為”AMDGPU”的開源驅(qū)動程序。作為落后幅度很大的追趕者,AMD必須通過開源實現(xiàn)差異化,力爭建立一個足以與英偉達(dá)競爭的開源軟件生態(tài)。在信息科技的歷史上,我們經(jīng)??吹健耙粋€強大的閉源產(chǎn)品VS一個豐富的開源生態(tài)”的競爭格局——閉源的Windows和開源的Linux共同構(gòu)成了PC操作系統(tǒng)的雙峰,而閉源的iOS和開源的安卓又構(gòu)成了智能手機操作系統(tǒng)的雙峰。遺憾的是,由于AMD的產(chǎn)品力太弱,開源策略還不足以讓它真正挑戰(zhàn)英偉達(dá)。Linux和安卓的成功,很大程度上是因為它們是“純軟件”,開源社區(qū)的包容性和創(chuàng)造力足以做出能與商用軟件匹敵的產(chǎn)品;英偉達(dá)的統(tǒng)治地位卻是軟硬件一體化的產(chǎn)物,要讓開源社區(qū)一口氣砍掉它的“三個頭”,實屬強人所難。
再說第二個“神話”。假如明天發(fā)生奇跡,市面上驟然出現(xiàn)幾個性能比英偉達(dá)更好、軟件生態(tài)比英偉達(dá)更發(fā)達(dá)的競品,全球算力緊缺的問題是不是就能解決呢?當(dāng)然不能。無論是誰設(shè)計出了世界上最好的GPU,在當(dāng)前情況下,它都要去找臺積電代工,因為那是全球5納米以下制造能力最強、良品率最高的半導(dǎo)體制造企業(yè)。而且,臺積電的5納米及3納米產(chǎn)能,幾乎全部位于臺灣南部工業(yè)園區(qū)的第18號晶圓廠.至于廣受外界關(guān)注的臺積電美國亞利桑那工廠,其一號和二號工廠分別要到2025年和2028年才投產(chǎn);號稱使用最先進(jìn)技術(shù)的三號工廠,至今尚未確定投產(chǎn)日期。
芯片制造是典型的重資產(chǎn)行業(yè),重資產(chǎn)行業(yè)的特點就是供需關(guān)系很少完美匹配,總是處于供不應(yīng)求和供大于求的循環(huán)之中。因為資本開支需要時間轉(zhuǎn)化為產(chǎn)能,而客戶需求往往呈現(xiàn)突發(fā)性增長的態(tài)勢,等到產(chǎn)能追上來了,需求增長可能也就結(jié)束了。ChatGPT引發(fā)的生成式AI浪潮出乎所有人的意料,臺積電當(dāng)然不可能事先為之?dāng)M定資本開支計劃。老實說,現(xiàn)在最希望三星和英特爾能夠追上臺積電的,應(yīng)該是英偉達(dá)。
1990年代以前,美國芯片制造業(yè)一度占據(jù)過世界領(lǐng)先地位,后來是它自己半主動地放棄了這個地位,這也是美國“去制造業(yè)化”進(jìn)程的一部分?,F(xiàn)在,《芯片法案》試圖促進(jìn)芯片代工廠回流美國,通過該法案拿到補貼、在美國設(shè)廠的不止臺積電一家。然而,臺積電創(chuàng)始人反復(fù)表達(dá)過自己不看好美國重振芯片制造業(yè)的努力:第一是因為美國工程師不及東亞地區(qū)的人勤奮,第二是因為美國地廣人稀、難以通過基礎(chǔ)設(shè)施實現(xiàn)產(chǎn)業(yè)鏈的富集效應(yīng)。
三星、英特爾面臨的問題說明了一個事實:光刻機不是決定芯片產(chǎn)業(yè)發(fā)展的唯一因素。如果買上幾臺最先進(jìn)的光刻機就能做好芯片代工,美國商務(wù)部完全可以直接買下大批光刻機并送給英特爾等美國本土芯片制造商,而不是花大力氣勸說臺積電來建廠。過去三十多年,芯片制造業(yè)積累了太多的技術(shù)流程知識(technological know-how),只有經(jīng)驗豐富的工程師、中層經(jīng)理和管理層加在一起,才能完整地掌握并使用這些知識。中芯國際的崛起,既得益于曾長期在臺灣工作的創(chuàng)始人張汝京,也離不開一批在臺灣半導(dǎo)體產(chǎn)業(yè)積累了深厚經(jīng)驗的技術(shù)骨干和經(jīng)理人。
在臺灣,除了臺積電,還存在聯(lián)電等一批芯片代工廠;可是近二十年來,它們與臺積電的差距越拉越大。這種“馬太效應(yīng)”的形成,固然有企業(yè)自身決策和執(zhí)行力的影響,但也是由芯片制造業(yè)的特性決定的——資本開支太大、技術(shù)迭代太快,最優(yōu)質(zhì)的客戶只會選擇最先進(jìn)的代工廠,從而形成“強者恒強”的趨勢。臺積電在臺灣半導(dǎo)體產(chǎn)業(yè)的領(lǐng)先地位早在2003年前后就已形成,而在全球半導(dǎo)體行業(yè)的領(lǐng)先地位則是在2014年蘋果全面轉(zhuǎn)移芯片訂單之后才確立的。2022年,英偉達(dá)把H100芯片代工合約全部交給臺積電,一方面體現(xiàn)了對臺積電5納米以下制程技術(shù)的認(rèn)可,一方面也進(jìn)一步打消了三星在短期內(nèi)追上來的希望!
總結(jié)下來就是:算力供應(yīng)的瓶頸在于臺積電,解決瓶頸只有兩種可能性——要么等待臺積電把產(chǎn)能擴張出來,要么等待三星、英特爾或其他代工廠的技術(shù)水平趕上來。因此我們可以理解,為何英偉達(dá)在財報當(dāng)中反復(fù)指出“下一代芯片仍將處于供不應(yīng)求的狀態(tài)”。這種持續(xù)的供不應(yīng)求,對所有人都造成了影響,但是科技巨頭受到的影響相對較小,因為它們總能得到英偉達(dá)的優(yōu)待。算力緊缺的時代也是科技行業(yè)重新洗牌的時代,創(chuàng)業(yè)公司必須牢牢抱住算力資源豐富的大廠的大腿,大廠的統(tǒng)治力其實更加穩(wěn)固了。
至于第三個“神話”,其實有一定的實現(xiàn)可能性,只是市場在短期的期望值太高了。所謂“端側(cè)計算”(Terminal Computing)的概念其實并不新鮮了,我們?nèi)粘J褂玫碾娔X、智能手機乃至智能家電都是“客戶端”,也都具備一定的算力。以玩游戲為例,常見的游戲方式是把游戲下載到本地、由“端側(cè)算力”運行游戲程序;云游戲則是在數(shù)據(jù)中心運行游戲程序,計算結(jié)果通過串流的方式輸出到客戶端。到底哪一種方式更優(yōu)越?考慮到網(wǎng)絡(luò)串流有延遲,在客戶端硬件條件較好的情況下,大部分人會首選“端側(cè)計算”。
但是在生成式AI方面,情況明顯不同:絕大部分桌面級電腦的顯卡算力不足以執(zhí)行大模型推理任務(wù),手機算力就更不夠了。在當(dāng)前的主流消費級顯卡當(dāng)中,只有英偉達(dá)的RTX系列可以勝任一定程度的推理任務(wù),所以英偉達(dá)正在推廣“基于RTX的桌面AI推理”;可是RTX對一般消費者而言還是太貴了,只有游戲發(fā)燒友買得起。何況,英偉達(dá)推廣桌面推理的主要對象并不是消費者,而是輕量級的專業(yè)開發(fā)者。
在全球范圍內(nèi),已經(jīng)有多家手機廠商提出了“AI手機”的概念。不過,迄今還沒有一家主流手機廠商推出過具備完整的“端側(cè)AI算力”的手機。嚴(yán)格地說,“AI手機”不一定意味著要通過端側(cè)算力進(jìn)行AI推理;手機廠商完全可以租用大量云平臺算力,或者自己儲備一批算力,專門用于解決自身用戶的AI推理需求——蘋果可能正在做這樣的事情。除了算力,手機廠商還有很多可以做的事情,包括推出自己的大模型,基于大模型開發(fā)更好的聊天應(yīng)用和生產(chǎn)力工具,把AI與手機的硬件功能更緊密地結(jié)合起來,等等。算力固然很重要,但算力不是全部。
不過,如果手機廠商非要嘗試把算力下放到端側(cè),又該怎么做呢?我們知道,為了降低耗電量和發(fā)熱量,智能手機采用的都是低功耗的ARM架構(gòu)芯片。英特爾曾經(jīng)嘗試把x86芯片用于手機,以慘敗告終。現(xiàn)在ARM也可以勝任復(fù)雜的計算任務(wù)了,英偉達(dá)在2023年推出的Grace CPU就是基于ARM架構(gòu);但是,用于數(shù)據(jù)中心和桌面工作站的ARM芯片,其功耗水平還是手機端完全無法接受的。在現(xiàn)有技術(shù)條件下,硬要為智能手機設(shè)計“端側(cè)推理芯片”,得到的恐怕只是推理能力孱弱、功耗遠(yuǎn)高于一般水平的四不像。
算力究竟應(yīng)該放在云端還是終端,是由具體需求決定的。在游戲場景中,用戶對傳輸延遲的忍受程度很低,所以云游戲至今沒有成為主流。而在生成式AI場景中,到目前為止,用戶對傳輸延遲不太敏感。因為AI大模型推理本身消耗的時間就很長了,網(wǎng)絡(luò)傳輸所消耗的時間壓根算不了什么。哪怕我們真能在手機上搭載專業(yè)級的推理芯片,從而節(jié)約幾十毫秒的傳輸時間,用戶可能根本就感受不到;我們?nèi)绾握f服用戶為自己感受不到的功能付費呢?
因此,五到十年乃至更長的時間以后,完全可能出現(xiàn)端側(cè)算力和云端算力同時承擔(dān)AI推理任務(wù)的情況。我們的電腦、手機、汽車、智能電視乃至掃地機器人都會具備一定的推理算力。至于這些端側(cè)算力究竟要強大到什么地步?推理算力在端側(cè)和云端究竟會以什么比例分配?那就完全無從預(yù)測了。
這就是消費電子廠商的困境所在:它們對未來毫無頭緒,不知道該采取什么動作,還是該安靜地等待一陣子。這也是2023-2024年蘋果在硅谷科技巨頭當(dāng)中股價表現(xiàn)較差、失去市值最大公司地位的根本原因。
從這個角度講,還是A股機構(gòu)投資者具備天然優(yōu)勢——他們不需要真正理解世界上發(fā)生的任何事情,只需要沉浸在自己(以及上市公司)營造的幻覺之中,就可以一路遙遙領(lǐng)先,創(chuàng)造神話。至于這種遙遙領(lǐng)先是如何把他們帶到滅亡邊緣的,那就是另一個故事了。
本文摘自互聯(lián)網(wǎng)怪盜團新書《巨浪:生成式AI的史詩與現(xiàn)實》一書的第五章,有刪節(jié)。原書第五章題為《算力戰(zhàn)爭》,全面描述了英偉達(dá)、臺積電等芯片產(chǎn)業(yè)鏈巨頭在算力經(jīng)濟中的地位,以及全球AI算力緊缺的原因和發(fā)展態(tài)勢。
本文由人人都是產(chǎn)品經(jīng)理作者【互聯(lián)網(wǎng)怪盜團】,微信公眾號:【互聯(lián)網(wǎng)怪盜團】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!