AI infra賽道再現(xiàn)3000萬(wàn)美元大額融資,當(dāng)數(shù)據(jù)處理遇上AI,如何重新定義多模態(tài)數(shù)據(jù)的未來(lái)
Daft 以 “工具適應(yīng)數(shù)據(jù)” 為設(shè)計(jì)理念,原生支持多模態(tài)數(shù)據(jù)處理,具備無(wú)縫擴(kuò)展、深度優(yōu)化 AI 工作流等優(yōu)勢(shì),正試圖解決多模態(tài)數(shù)據(jù)處理的核心難題。本文將深入探討 Eventual 的解決方案、技術(shù)創(chuàng)新及背后的行業(yè)意義,解析多模態(tài)數(shù)據(jù)處理領(lǐng)域的現(xiàn)狀與未來(lái)。
你有沒有想過,為什么那些最聰明的AI工程師要把80%的時(shí)間浪費(fèi)在修復(fù)數(shù)據(jù)基礎(chǔ)設(shè)施上,而不是構(gòu)建真正改變世界的AI應(yīng)用?這個(gè)看似不合理的現(xiàn)象,正是Eventual創(chuàng)始人Sammy Sidhu和Jay Chia在Lyft自動(dòng)駕駛部門工作時(shí)親身經(jīng)歷的痛苦。自動(dòng)駕駛汽車每天產(chǎn)生海量的多模態(tài)數(shù)據(jù)——3D掃描、照片、文本、音頻,但沒有任何一個(gè)工具能夠同時(shí)理解和處理所有這些不同類型的數(shù)據(jù)。工程師們只能將各種開源工具拼湊在一起,這個(gè)過程既漫長(zhǎng)又不可靠。更讓人沮喪的是,這些擁有博士學(xué)位的頂尖人才,本應(yīng)專注于構(gòu)建核心應(yīng)用,卻被迫將大部分精力投入到基礎(chǔ)設(shè)施的維護(hù)上。
這種現(xiàn)象并非Lyft獨(dú)有。隨著生成式AI的爆發(fā),每一家構(gòu)建AI應(yīng)用的公司都需要處理大量的文本、圖像、文檔和視頻數(shù)據(jù),但他們使用的工具卻仍然是為處理網(wǎng)頁(yè)點(diǎn)擊和銀行交易而設(shè)計(jì)的傳統(tǒng)系統(tǒng)。這種錯(cuò)配不僅效率低下,更是在系統(tǒng)性地阻礙整個(gè)行業(yè)的創(chuàng)新步伐。正是這種深刻的痛點(diǎn)體驗(yàn),促使Sidhu和Chia決定構(gòu)建一個(gè)全新的解決方案,這就是現(xiàn)在獲得3000萬(wàn)美元融資的Eventual。
多模態(tài)數(shù)據(jù)處理的痛點(diǎn)有多深
在深入了解Eventual的解決方案之前,我想先幫大家理解現(xiàn)有數(shù)據(jù)處理工具在面對(duì)多模態(tài)AI工作負(fù)載時(shí)的根本性局限。傳統(tǒng)的數(shù)據(jù)處理引擎,比如Apache Spark,最初是為處理結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的——想想銀行交易記錄、用戶點(diǎn)擊流這類規(guī)整的表格數(shù)據(jù)。這些系統(tǒng)在處理數(shù)字和文本時(shí)表現(xiàn)出色,但當(dāng)你讓它們處理圖像、視頻或者LiDAR掃描數(shù)據(jù)時(shí),就像是讓一臺(tái)為城市道路設(shè)計(jì)的小汽車去爬珠穆朗瑪峰一樣不現(xiàn)實(shí)。
我在與一些AI公司的工程師交流時(shí)發(fā)現(xiàn),他們經(jīng)常遇到這樣的困境:為了讓Spark處理圖像數(shù)據(jù),他們不得不寫大量的適配代碼,將圖像轉(zhuǎn)換成Spark能理解的格式,然后再轉(zhuǎn)換回來(lái)。這個(gè)過程不僅繁瑣,還極其脆肪。在測(cè)試環(huán)境中0.1%的失敗率可能是可以接受的,但當(dāng)你要在生產(chǎn)環(huán)境中處理數(shù)百萬(wàn)個(gè)文件時(shí),這個(gè)失敗率就變成了災(zāi)難。更糟糕的是,現(xiàn)代AI工作負(fù)載還需要運(yùn)行自定義模型、調(diào)用外部API,以及處理各種各樣的數(shù)據(jù)類型,這些需求遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)數(shù)據(jù)處理引擎的設(shè)計(jì)范圍。
Sidhu在接受采訪時(shí)提到了一個(gè)令人深思的觀察:”我們看到所有這些優(yōu)秀的博士、業(yè)界的杰出人才在開發(fā)自動(dòng)駕駛汽車,但他們花費(fèi)大約80%的時(shí)間在處理基礎(chǔ)設(shè)施問題,而不是構(gòu)建他們的核心應(yīng)用。”這種資源錯(cuò)配的程度是驚人的。想象一下,如果一家制藥公司的頂級(jí)科學(xué)家需要花80%的時(shí)間來(lái)維修實(shí)驗(yàn)室設(shè)備,而只有20%的時(shí)間用于藥物研發(fā),這將對(duì)整個(gè)行業(yè)的創(chuàng)新速度產(chǎn)生多大的影響。
這個(gè)問題在ChatGPT發(fā)布后變得更加嚴(yán)重。隨著生成式AI的普及,越來(lái)越多的公司開始在他們的應(yīng)用中使用圖像、文檔和視頻。但他們很快發(fā)現(xiàn),現(xiàn)有的數(shù)據(jù)基礎(chǔ)設(shè)施完全無(wú)法應(yīng)對(duì)這種多模態(tài)數(shù)據(jù)的處理需求。Sidhu觀察到:”ChatGPT的爆發(fā)讓我們看到很多其他人開始構(gòu)建具有不同模態(tài)的AI應(yīng)用。然后每個(gè)人都開始在他們的應(yīng)用中使用圖像、文檔和視頻等內(nèi)容。這正是我們看到使用量急劇增長(zhǎng)的地方。”
Eventual的革命性解決方案
Eventual的核心創(chuàng)新在于他們從零開始構(gòu)建了一個(gè)專門為多模態(tài)AI工作負(fù)載設(shè)計(jì)的數(shù)據(jù)處理引擎——Daft。這不是對(duì)現(xiàn)有工具的改進(jìn)或適配,而是一個(gè)全新的架構(gòu),將多模態(tài)數(shù)據(jù)的固有復(fù)雜性視為特性而不是缺陷。在我看來(lái),這種設(shè)計(jì)理念的轉(zhuǎn)變是革命性的:不再試圖將復(fù)雜的多模態(tài)數(shù)據(jù)強(qiáng)行塞入為簡(jiǎn)單表格設(shè)計(jì)的框架中,而是構(gòu)建一個(gè)原生理解和處理各種數(shù)據(jù)類型的系統(tǒng)。
Daft的強(qiáng)大之處在于它是Python原生的開源數(shù)據(jù)處理引擎,專門設(shè)計(jì)用于快速處理從文本到音頻和視頻等不同模態(tài)的數(shù)據(jù)。Sidhu說(shuō)他們的目標(biāo)是讓Daft對(duì)非結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)生與SQL對(duì)表格數(shù)據(jù)集產(chǎn)生的同樣變革性影響。這個(gè)對(duì)比很有啟發(fā)性:SQL的出現(xiàn)讓任何人都能夠查詢和分析結(jié)構(gòu)化數(shù)據(jù),而不需要深入了解底層的數(shù)據(jù)庫(kù)架構(gòu)。Daft希望為多模態(tài)數(shù)據(jù)帶來(lái)同樣的簡(jiǎn)便性和強(qiáng)大功能。我深刻理解這種愿景的重要性,因?yàn)楫?dāng)前處理多模態(tài)數(shù)據(jù)就像是在沒有SQL的時(shí)代直接操作文件系統(tǒng)一樣痛苦。每種數(shù)據(jù)類型都需要專門的處理邏輯,每個(gè)項(xiàng)目都要重新發(fā)明輪子,這種重復(fù)勞動(dòng)不僅浪費(fèi)時(shí)間,還容易出錯(cuò)。
從技術(shù)實(shí)現(xiàn)角度看,Daft使用Rust構(gòu)建,這確保了在單節(jié)點(diǎn)上與DuckDB和Polars相當(dāng)?shù)男阅?,同時(shí)可以輕松擴(kuò)展到分布式集群,無(wú)需更改任何代碼。這種設(shè)計(jì)讓開發(fā)者可以在筆記本電腦上開發(fā)和測(cè)試代碼,然后直接部署到生產(chǎn)環(huán)境的大規(guī)模集群上。我認(rèn)為這種無(wú)縫擴(kuò)展能力對(duì)于AI工作負(fù)載特別重要,因?yàn)閿?shù)據(jù)量通常從開發(fā)階段的幾MB增長(zhǎng)到生產(chǎn)環(huán)境的PB級(jí)別。這種擴(kuò)展能力的實(shí)現(xiàn)原理很巧妙:Daft將計(jì)算邏輯抽象成任務(wù)圖,可以在單機(jī)上順序執(zhí)行,也可以在集群上并行執(zhí)行,而開發(fā)者只需要改變一行配置代碼。這消除了傳統(tǒng)分布式系統(tǒng)開發(fā)中最痛苦的部分——在本地開發(fā)和集群部署之間的巨大鴻溝。
更讓我印象深刻的是Daft對(duì)AI工作流的深度優(yōu)化。它不僅支持傳統(tǒng)的分析操作如分組、連接和聚合,還允許開發(fā)者編寫任意的Python代碼作為用戶定義函數(shù)(UDF)。這意味著你可以在同一個(gè)數(shù)據(jù)處理流水線中進(jìn)行數(shù)據(jù)清洗、特征提取、模型推理和結(jié)果分析,而不需要在多個(gè)工具之間切換。這種一體化的設(shè)計(jì)解決了一個(gè)長(zhǎng)期困擾AI工程師的問題:工具鏈的碎片化。傳統(tǒng)上,你可能需要用pandas做數(shù)據(jù)清洗,用Spark做大規(guī)模處理,用Ray做分布式訓(xùn)練,用不同的工具做模型部署。每個(gè)工具之間的數(shù)據(jù)傳遞都是一個(gè)潛在的故障點(diǎn),而且維護(hù)這樣的工具鏈需要大量的運(yùn)維工作。
Daft的UDF系統(tǒng)特別值得深入討論。它不僅支持普通的Python函數(shù),還專門為AI工作負(fù)載設(shè)計(jì)了異步UDF。在他們的演示案例中,通過使用異步UDF,GPU推理的吞吐量提高了5-6倍。這種性能提升的原理在于,傳統(tǒng)的同步推理會(huì)導(dǎo)致GPU在等待I/O操作時(shí)空閑,而異步UDF可以在一個(gè)請(qǐng)求等待時(shí)處理其他請(qǐng)求,從而充分利用GPU的計(jì)算能力。這種優(yōu)化對(duì)于大規(guī)模AI推理至關(guān)重要,因?yàn)镚PU的成本很高,任何空閑時(shí)間都意味著資源浪費(fèi)。更重要的是,Daft計(jì)劃進(jìn)一步優(yōu)化這個(gè)過程,包括支持流式UDF,讓結(jié)果可以在生成時(shí)立即返回,而不是等待整個(gè)批次完成。
在他們的演示中,工程師能夠在兩天內(nèi)構(gòu)建一個(gè)AI招聘平臺(tái),處理了15000個(gè)GitHub倉(cāng)庫(kù)、3300萬(wàn)次提交,并對(duì)25萬(wàn)名開發(fā)者進(jìn)行了AI代碼審查——這種速度在傳統(tǒng)工具下是不可想象的。讓我們深入分析這個(gè)案例的技術(shù)細(xì)節(jié):他們首先使用GitHub API收集了15000個(gè)熱門倉(cāng)庫(kù),然后克隆所有倉(cāng)庫(kù)并解析git日志提取提交信息。這個(gè)過程在傳統(tǒng)工具下可能需要數(shù)周時(shí)間,因?yàn)槟阈枰幚鞟PI限制、存儲(chǔ)管理、錯(cuò)誤恢復(fù)等復(fù)雜問題。但使用Daft,他們只需要將API調(diào)用包裝成UDF,系統(tǒng)自動(dòng)處理并發(fā)、重試和結(jié)果存儲(chǔ)。接下來(lái)的數(shù)據(jù)清洗和聚合步驟,包括按開發(fā)者分組提交記錄和去重處理,在Daft中只需要幾行代碼,而在傳統(tǒng)工具中可能需要復(fù)雜的MapReduce作業(yè)。最令人印象深刻的是AI代碼審查階段:他們使用大語(yǔ)言模型對(duì)25萬(wàn)名開發(fā)者進(jìn)行評(píng)估,整個(gè)過程只用了3小時(shí)。這種效率的實(shí)現(xiàn)依賴于Daft的異步UDF支持和智能批處理策略。
Eventual的商業(yè)化策略也很明智。他們首先構(gòu)建了強(qiáng)大的開源核心Daft,已經(jīng)在Amazon、CloudKitchens和Together AI等公司的關(guān)鍵任務(wù)工作負(fù)載中處理PB級(jí)別的多模態(tài)數(shù)據(jù)?,F(xiàn)在他們正在基于這個(gè)開源引擎構(gòu)建Eventual Cloud——第一個(gè)從頭開始為多模態(tài)AI工作負(fù)載構(gòu)建的生產(chǎn)就緒平臺(tái)。通過這種方式,他們既建立了強(qiáng)大的技術(shù)護(hù)城河,又培養(yǎng)了活躍的開源社區(qū),為商業(yè)化產(chǎn)品奠定了堅(jiān)實(shí)基礎(chǔ)。這種開源+云服務(wù)的策略很聰明,因?yàn)樗層脩艨梢韵韧ㄟ^開源版本體驗(yàn)Daft的強(qiáng)大功能,然后自然地升級(jí)到提供更多企業(yè)級(jí)功能的云服務(wù)。這種策略在數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域特別有效,因?yàn)槠髽I(yè)在選擇關(guān)鍵基礎(chǔ)設(shè)施時(shí)非常謹(jǐn)慎,他們需要先驗(yàn)證技術(shù)的可靠性和性能。
為什么現(xiàn)在是多模態(tài)數(shù)據(jù)處理的關(guān)鍵時(shí)刻
我認(rèn)為Eventual獲得投資者青睞的原因,不僅在于他們解決了一個(gè)真實(shí)存在的技術(shù)痛點(diǎn),更在于他們抓住了一個(gè)巨大的市場(chǎng)時(shí)機(jī)。據(jù)管理咨詢公司MarketsandMarkets預(yù)測(cè),多模態(tài)AI行業(yè)在2023年到2028年間將以35%的復(fù)合年增長(zhǎng)率增長(zhǎng)。這個(gè)增長(zhǎng)速度反映了企業(yè)對(duì)多模態(tài)AI應(yīng)用的迫切需求,也意味著對(duì)專門處理多模態(tài)數(shù)據(jù)的基礎(chǔ)設(shè)施的巨大需求。
數(shù)據(jù)量的爆炸性增長(zhǎng)為這種需求提供了更深層的支撐。Felicis的普通合伙人Astasia Myers指出:”年度數(shù)據(jù)生成量在過去20年中增長(zhǎng)了1000倍,世界上90%的數(shù)據(jù)是在過去兩年中生成的,根據(jù)IDC的數(shù)據(jù),絕大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化的。”這些數(shù)字讓人震撼,但更重要的是其背后的含義:我們正處在一個(gè)數(shù)據(jù)性質(zhì)發(fā)生根本性轉(zhuǎn)變的時(shí)代。過去的數(shù)據(jù)主要是數(shù)字和文本,現(xiàn)在越來(lái)越多的是圖像、視頻、音頻和傳感器數(shù)據(jù)。
這種轉(zhuǎn)變對(duì)現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施提出了前所未有的挑戰(zhàn)。傳統(tǒng)工具不僅在技術(shù)上難以應(yīng)對(duì),在成本上也變得不可持續(xù)。想象一下,如果你需要處理數(shù)百萬(wàn)小時(shí)的視頻內(nèi)容來(lái)訓(xùn)練一個(gè)計(jì)算機(jī)視覺模型,使用為處理銀行交易設(shè)計(jì)的系統(tǒng)會(huì)有多么低效。你不僅需要大量的適配工作,還會(huì)面臨極高的計(jì)算和存儲(chǔ)成本,更不用說(shuō)系統(tǒng)的可靠性問題了。
從投資者角度看,Myers表示她通過市場(chǎng)映射發(fā)現(xiàn)了Eventual,當(dāng)時(shí)她正在尋找能夠支持日益增長(zhǎng)的多模態(tài)AI模型的數(shù)據(jù)基礎(chǔ)設(shè)施。Eventual之所以脫穎而出,不僅因?yàn)樗麄兪沁@個(gè)領(lǐng)域的先行者,更因?yàn)閯?chuàng)始人親身經(jīng)歷過這個(gè)數(shù)據(jù)處理問題。這種第一手經(jīng)驗(yàn)確保了他們構(gòu)建的解決方案真正解決了實(shí)際問題,而不是象牙塔中的理論構(gòu)想。
我特別認(rèn)同Myers關(guān)于宏觀趨勢(shì)的觀察:”Daft適應(yīng)了圍繞文本、圖像、視頻和語(yǔ)音構(gòu)建生成式AI的巨大宏觀趨勢(shì)。你需要一個(gè)多模態(tài)原生的數(shù)據(jù)處理引擎。”這句話點(diǎn)出了關(guān)鍵:不是改造現(xiàn)有工具來(lái)適應(yīng)新需求,而是構(gòu)建原生支持新需求的工具。這種思維轉(zhuǎn)變對(duì)于技術(shù)基礎(chǔ)設(shè)施的發(fā)展至關(guān)重要。
技術(shù)創(chuàng)新背后的深層思考
在研究Eventual的技術(shù)架構(gòu)時(shí),我發(fā)現(xiàn)他們的創(chuàng)新不僅體現(xiàn)在功能層面,更重要的是在設(shè)計(jì)哲學(xué)上的突破。傳統(tǒng)數(shù)據(jù)處理系統(tǒng)遵循的是”數(shù)據(jù)適應(yīng)工具”的邏輯——你需要將數(shù)據(jù)轉(zhuǎn)換成工具能夠處理的格式。而Daft則實(shí)現(xiàn)了”工具適應(yīng)數(shù)據(jù)”的邏輯——系統(tǒng)原生理解各種數(shù)據(jù)類型,不需要強(qiáng)制轉(zhuǎn)換。這種哲學(xué)轉(zhuǎn)變的意義遠(yuǎn)比表面看起來(lái)更深刻。
這種差異的影響是深遠(yuǎn)的。在傳統(tǒng)系統(tǒng)中,每當(dāng)你需要處理新類型的數(shù)據(jù)時(shí),都需要編寫大量的預(yù)處理和后處理代碼。這不僅增加了開發(fā)復(fù)雜性,還引入了潛在的錯(cuò)誤源。更嚴(yán)重的是,這種方法本質(zhì)上是在為每種數(shù)據(jù)類型重新發(fā)明輪子。而在Daft的架構(gòu)中,系統(tǒng)從底層就被設(shè)計(jì)為多模態(tài)原生,新數(shù)據(jù)類型的支持變成了配置問題而不是開發(fā)問題。我認(rèn)為這種設(shè)計(jì)哲學(xué)的轉(zhuǎn)變類似于從面向過程編程到面向?qū)ο缶幊痰目缭?,它從根本上改變了我們思考和解決問題的方式。
從性能角度看,這種設(shè)計(jì)帶來(lái)的優(yōu)勢(shì)更加明顯。傳統(tǒng)系統(tǒng)在處理多模態(tài)數(shù)據(jù)時(shí)會(huì)有大量的序列化和反序列化開銷,而Daft通過原生支持避免了這些不必要的轉(zhuǎn)換。在他們的演示案例中,處理15000個(gè)倉(cāng)庫(kù)和3300萬(wàn)次提交只用了30分鐘,這種性能提升不僅來(lái)自于分布式架構(gòu),更來(lái)自于對(duì)多模態(tài)數(shù)據(jù)的原生優(yōu)化。這種性能差異在大規(guī)模生產(chǎn)環(huán)境中會(huì)被放大數(shù)倍,意味著企業(yè)可以用更少的資源完成更多的工作,或者在相同時(shí)間內(nèi)處理更大規(guī)模的數(shù)據(jù)。
我特別欣賞Daft對(duì)異步處理的支持。在演示中,工程師通過使用異步UDF將GPU推理的吞吐量提高了5-6倍。這種優(yōu)化對(duì)于AI工作負(fù)載至關(guān)重要,因?yàn)槟P屯评硗ǔJ钦麄€(gè)流水線的瓶頸。通過原生支持異步操作,Daft讓開發(fā)者能夠充分利用現(xiàn)代硬件的并行處理能力,而不需要自己管理復(fù)雜的并發(fā)邏輯。這種設(shè)計(jì)的巧妙之處在于,它將復(fù)雜的異步編程模式抽象成簡(jiǎn)單的API,讓數(shù)據(jù)科學(xué)家和AI工程師可以專注于業(yè)務(wù)邏輯,而不需要成為分布式系統(tǒng)專家。
讓我深入分析一下剛才提到的AI招聘平臺(tái)案例中的技術(shù)細(xì)節(jié),因?yàn)樗昝勒故玖薉aft的技術(shù)優(yōu)勢(shì)。整個(gè)項(xiàng)目在兩天內(nèi)完成,處理流程包括數(shù)據(jù)收集、清洗、AI推理和結(jié)果展示四個(gè)階段。在數(shù)據(jù)收集階段,他們首先通過GitHub API搜索熱門倉(cāng)庫(kù),這本身就是一個(gè)挑戰(zhàn),因?yàn)锳PI有嚴(yán)格的速率限制。傳統(tǒng)方法可能需要編寫復(fù)雜的重試機(jī)制和隊(duì)列系統(tǒng),但在Daft中,他們只需要將API調(diào)用包裝成UDF,系統(tǒng)自動(dòng)處理并發(fā)控制和錯(cuò)誤恢復(fù)。當(dāng)遇到API限制時(shí),他們巧妙地轉(zhuǎn)向直接克隆倉(cāng)庫(kù)并解析git日志,這種靈活性在傳統(tǒng)數(shù)據(jù)處理框架中很難實(shí)現(xiàn),因?yàn)槟阈枰诓煌墓ぞ咧g切換。
數(shù)據(jù)清洗階段揭示了另一個(gè)有趣的技術(shù)問題:開發(fā)者可能使用多個(gè)郵箱地址提交代碼,導(dǎo)致同一個(gè)人被識(shí)別為多個(gè)不同的貢獻(xiàn)者。這是一個(gè)典型的實(shí)體解析問題,在傳統(tǒng)工具中可能需要復(fù)雜的MapReduce作業(yè)或者專門的數(shù)據(jù)清洗工具。但在Daft中,他們通過簡(jiǎn)單的分組和聚合操作就解決了這個(gè)問題。這種簡(jiǎn)潔性不僅提高了開發(fā)效率,還降低了出錯(cuò)的可能性。更重要的是,這種處理方式展示了Daft在數(shù)據(jù)質(zhì)量管理方面的優(yōu)勢(shì)——它讓數(shù)據(jù)清洗變成了數(shù)據(jù)分析的自然延續(xù),而不是一個(gè)單獨(dú)的流程。
AI推理階段是最能體現(xiàn)Daft技術(shù)優(yōu)勢(shì)的部分。他們需要對(duì)25萬(wàn)名開發(fā)者進(jìn)行代碼審查,這需要調(diào)用大語(yǔ)言模型數(shù)十萬(wàn)次。傳統(tǒng)方法可能需要搭建復(fù)雜的任務(wù)隊(duì)列系統(tǒng),處理失敗重試、負(fù)載均衡、成本控制等問題。但使用Daft的異步UDF,他們只需要將LLM調(diào)用包裝成一個(gè)函數(shù),系統(tǒng)自動(dòng)處理并發(fā)控制和資源優(yōu)化。更巧妙的是,他們使用Pydantic模型來(lái)標(biāo)準(zhǔn)化LLM的輸出格式,確保結(jié)果可以直接集成到Daft的數(shù)據(jù)框架中。這種設(shè)計(jì)展示了Daft在AI工作流集成方面的深度思考——它不僅是一個(gè)數(shù)據(jù)處理引擎,更是一個(gè)AI應(yīng)用的構(gòu)建平臺(tái)。
性能優(yōu)化方面,異步UDF的5-6倍性能提升特別值得深入分析。這種提升的原理在于充分利用了GPU和網(wǎng)絡(luò)I/O的并行性。在同步模式下,每個(gè)推理請(qǐng)求都需要等待前一個(gè)請(qǐng)求完成,導(dǎo)致GPU在等待網(wǎng)絡(luò)I/O時(shí)空閑。而異步模式允許系統(tǒng)在一個(gè)請(qǐng)求等待時(shí)處理其他請(qǐng)求,從而保持GPU的高利用率。這種優(yōu)化在大規(guī)模AI推理中價(jià)值巨大,因?yàn)镚PU是最昂貴的資源,提高利用率直接轉(zhuǎn)化為成本節(jié)約。據(jù)我估算,在大規(guī)模部署中,這種優(yōu)化可能為企業(yè)節(jié)省數(shù)百萬(wàn)美元的GPU成本。
更令人興奮的是Daft的發(fā)展路線圖。他們計(jì)劃擴(kuò)展對(duì)新數(shù)據(jù)類型如視頻和變體的多模態(tài)支持,為AI工作負(fù)載提供更好的原語(yǔ)包括流式和異步UDF,繼續(xù)投資數(shù)據(jù)目錄如Iceberg和Unity,以及構(gòu)建下一代分布式執(zhí)行引擎代號(hào)為”Flotilla”的系統(tǒng)。這個(gè)路線圖顯示了他們對(duì)多模態(tài)數(shù)據(jù)處理未來(lái)的清晰愿景,不僅要解決當(dāng)前的痛點(diǎn),還要為未來(lái)的需求做好準(zhǔn)備。特別是流式UDF的支持,將使實(shí)時(shí)AI應(yīng)用成為可能,這對(duì)于自動(dòng)駕駛、實(shí)時(shí)推薦系統(tǒng)等場(chǎng)景意義重大。新的分布式執(zhí)行引擎”Flotilla”暗示著他們?cè)诘讓蛹軜?gòu)上的持續(xù)創(chuàng)新,可能會(huì)帶來(lái)更大的性能突破。
Daft的另一個(gè)值得關(guān)注的特性是其對(duì)數(shù)據(jù)目錄的深度集成?,F(xiàn)代企業(yè)的數(shù)據(jù)分布在各種系統(tǒng)中,包括云存儲(chǔ)、數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)等。Daft對(duì)Iceberg、Unity等數(shù)據(jù)目錄的支持,意味著它可以無(wú)縫訪問企業(yè)現(xiàn)有的數(shù)據(jù)資產(chǎn),而不需要數(shù)據(jù)遷移。這種能力對(duì)于企業(yè)采用新工具至關(guān)重要,因?yàn)閿?shù)據(jù)遷移往往是最大的障礙。通過消除這個(gè)障礙,Daft大大降低了企業(yè)的采用門檻,這也是它能夠快速獲得Amazon、CloudKitchens等大客戶的重要原因。
對(duì)整個(gè)AI基礎(chǔ)設(shè)施行業(yè)的啟示
Eventual的成功對(duì)整個(gè)AI基礎(chǔ)設(shè)施行業(yè)具有重要的啟示意義。我認(rèn)為我們正在見證AI基礎(chǔ)設(shè)施的第二次革命。第一次革命是從通用計(jì)算轉(zhuǎn)向AI專用硬件,如GPU和TPU的普及?,F(xiàn)在我們正在經(jīng)歷第二次革命:從為結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì)的軟件架構(gòu)轉(zhuǎn)向?yàn)槎嗄B(tài)AI工作負(fù)載原生設(shè)計(jì)的軟件架構(gòu)。
這種轉(zhuǎn)變對(duì)整個(gè)技術(shù)棧都有深遠(yuǎn)影響。在存儲(chǔ)層面,我們需要能夠高效存儲(chǔ)和檢索各種數(shù)據(jù)類型的系統(tǒng)。在計(jì)算層面,我們需要能夠原生處理多模態(tài)數(shù)據(jù)的引擎。在應(yīng)用層面,我們需要能夠無(wú)縫集成各種AI模型和工具的框架。Eventual在計(jì)算層面的創(chuàng)新為整個(gè)棧的演進(jìn)指明了方向。
從商業(yè)角度看,Eventual的成功也驗(yàn)證了專業(yè)化基礎(chǔ)設(shè)施工具的市場(chǎng)需求。過去,企業(yè)可能會(huì)選擇通用解決方案并接受一定的性能損失,但隨著AI應(yīng)用的復(fù)雜性和規(guī)模不斷增長(zhǎng),專業(yè)化工具變得不可或缺。這為專注于特定技術(shù)領(lǐng)域的初創(chuàng)公司創(chuàng)造了巨大機(jī)會(huì),也解釋了為什么投資者愿意為Eventual這樣的公司投入大量資金。
我觀察到,越來(lái)越多的AI公司開始意識(shí)到數(shù)據(jù)基礎(chǔ)設(shè)施的重要性。過去,數(shù)據(jù)基礎(chǔ)設(shè)施被視為支持性功能,現(xiàn)在它正在成為核心競(jìng)爭(zhēng)優(yōu)勢(shì)。能夠更快、更可靠地處理多模態(tài)數(shù)據(jù)的公司,在構(gòu)建AI應(yīng)用時(shí)就擁有了顯著優(yōu)勢(shì)。這種認(rèn)知轉(zhuǎn)變推動(dòng)了對(duì)專業(yè)化數(shù)據(jù)處理工具的需求,也為Eventual這樣的公司創(chuàng)造了廣闊的市場(chǎng)空間。
從技術(shù)人才角度看,Eventual的團(tuán)隊(duì)構(gòu)成也很有啟發(fā)性。他們匯集了來(lái)自Databricks Photon、GitHub Copilot、Pinecone矢量數(shù)據(jù)庫(kù)、Render和AWS PartiQL等項(xiàng)目的開發(fā)者,這些都是大規(guī)模系統(tǒng)的構(gòu)建者。這種人才配置表明,構(gòu)建下一代AI基礎(chǔ)設(shè)施需要深厚的分布式系統(tǒng)經(jīng)驗(yàn)和對(duì)AI工作負(fù)載的深刻理解,而不僅僅是AI算法知識(shí)。
挑戰(zhàn)與未來(lái)展望
盡管Eventual在多模態(tài)數(shù)據(jù)處理領(lǐng)域取得了突破性進(jìn)展,但我認(rèn)為他們?nèi)匀幻媾R一些重要挑戰(zhàn)。首先是生態(tài)系統(tǒng)的建設(shè)。雖然Daft在技術(shù)上很先進(jìn),但要讓更多開發(fā)者采用,還需要建立完整的工具鏈、文檔、培訓(xùn)資源和社區(qū)支持。目前大多數(shù)數(shù)據(jù)工程師都熟悉Spark和pandas,切換到新工具需要學(xué)習(xí)成本。
我也關(guān)注到多模態(tài)數(shù)據(jù)處理的標(biāo)準(zhǔn)化問題。不同的AI模型和應(yīng)用對(duì)數(shù)據(jù)格式的要求各不相同,如何在保持靈活性的同時(shí)建立某種程度的標(biāo)準(zhǔn)化,將是一個(gè)長(zhǎng)期挑戰(zhàn)。Eventual需要在支持各種數(shù)據(jù)格式的同時(shí),推動(dòng)行業(yè)形成一些最佳實(shí)踐和通用標(biāo)準(zhǔn)。
從競(jìng)爭(zhēng)角度看,Eventual作為先行者有明顯優(yōu)勢(shì),但這個(gè)領(lǐng)域很可能變得擁擠。大型云服務(wù)提供商可能會(huì)推出自己的多模態(tài)數(shù)據(jù)處理解決方案,傳統(tǒng)數(shù)據(jù)庫(kù)公司也可能加強(qiáng)在這個(gè)方向的投入。Eventual需要繼續(xù)保持技術(shù)領(lǐng)先優(yōu)勢(shì),同時(shí)快速擴(kuò)大市場(chǎng)份額。
成本優(yōu)化也是一個(gè)重要考慮因素。雖然Daft在性能上有優(yōu)勢(shì),但多模態(tài)數(shù)據(jù)處理本身就是資源密集型的。如何幫助客戶在獲得更好性能的同時(shí)控制成本,將是Eventual商業(yè)化成功的關(guān)鍵。他們需要提供清晰的ROI證明,讓企業(yè)愿意為更好的工具付費(fèi)。
盡管存在這些挑戰(zhàn),我對(duì)Eventual的未來(lái)充滿信心。他們正在解決一個(gè)真實(shí)存在且日益嚴(yán)重的問題,擁有強(qiáng)大的技術(shù)團(tuán)隊(duì)和充足的資金支持。更重要的是,隨著AI應(yīng)用的普及,對(duì)多模態(tài)數(shù)據(jù)處理的需求只會(huì)繼續(xù)增長(zhǎng)。Eventual不僅在構(gòu)建一個(gè)產(chǎn)品,更是在定義一個(gè)新的技術(shù)類別。
從更宏觀的角度看,我相信Eventual代表了AI基礎(chǔ)設(shè)施演進(jìn)的方向。我們正在從”讓AI適應(yīng)現(xiàn)有基礎(chǔ)設(shè)施”轉(zhuǎn)向”讓基礎(chǔ)設(shè)施原生支持AI”。這種轉(zhuǎn)變將釋放AI技術(shù)的真正潛力,讓更多企業(yè)能夠構(gòu)建強(qiáng)大的AI應(yīng)用,而不是被基礎(chǔ)設(shè)施的限制所束縛。最終,像Eventual這樣的公司將成為AI時(shí)代的基礎(chǔ)設(shè)施提供商,就像AWS為云計(jì)算時(shí)代提供基礎(chǔ)設(shè)施一樣。他們的成功不僅將推動(dòng)自身業(yè)務(wù)的增長(zhǎng),更將加速整個(gè)AI行業(yè)的發(fā)展。
本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號(hào):【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
Eventual的Daft引擎高效處理多模態(tài)數(shù)據(jù),為AI應(yīng)用帶來(lái)新變革,推動(dòng)AI基礎(chǔ)設(shè)施發(fā)展。