а√天堂资源官网在线资源,最近中文字幕免费完整,国产成人综合在线观看不卡

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

AI infra賽道再現(xiàn)3000萬(wàn)美元大額融資，當(dāng)數(shù)據(jù)處理遇上AI，如何重新定義多模態(tài)數(shù)據(jù)的未來(lái)

深思圈

2025-07-09

1 評(píng)論 1377 瀏覽 1 收藏

30 分鐘

Daft 以 “工具適應(yīng)數(shù)據(jù)” 為設(shè)計(jì)理念，原生支持多模態(tài)數(shù)據(jù)處理，具備無(wú)縫擴(kuò)展、深度優(yōu)化 AI 工作流等優(yōu)勢(shì)，正試圖解決多模態(tài)數(shù)據(jù)處理的核心難題。本文將深入探討 Eventual 的解決方案、技術(shù)創(chuàng)新及背后的行業(yè)意義，解析多模態(tài)數(shù)據(jù)處理領(lǐng)域的現(xiàn)狀與未來(lái)。

你有沒有想過，為什么那些最聰明的AI工程師要把80%的時(shí)間浪費(fèi)在修復(fù)數(shù)據(jù)基礎(chǔ)設(shè)施上，而不是構(gòu)建真正改變世界的AI應(yīng)用？這個(gè)看似不合理的現(xiàn)象，正是Eventual創(chuàng)始人Sammy Sidhu和Jay Chia在Lyft自動(dòng)駕駛部門工作時(shí)親身經(jīng)歷的痛苦。自動(dòng)駕駛汽車每天產(chǎn)生海量的多模態(tài)數(shù)據(jù)——3D掃描、照片、文本、音頻，但沒有任何一個(gè)工具能夠同時(shí)理解和處理所有這些不同類型的數(shù)據(jù)。工程師們只能將各種開源工具拼湊在一起，這個(gè)過程既漫長(zhǎng)又不可靠。更讓人沮喪的是，這些擁有博士學(xué)位的頂尖人才，本應(yīng)專注于構(gòu)建核心應(yīng)用，卻被迫將大部分精力投入到基礎(chǔ)設(shè)施的維護(hù)上。

這種現(xiàn)象并非Lyft獨(dú)有。隨著生成式AI的爆發(fā)，每一家構(gòu)建AI應(yīng)用的公司都需要處理大量的文本、圖像、文檔和視頻數(shù)據(jù)，但他們使用的工具卻仍然是為處理網(wǎng)頁(yè)點(diǎn)擊和銀行交易而設(shè)計(jì)的傳統(tǒng)系統(tǒng)。這種錯(cuò)配不僅效率低下，更是在系統(tǒng)性地阻礙整個(gè)行業(yè)的創(chuàng)新步伐。正是這種深刻的痛點(diǎn)體驗(yàn)，促使Sidhu和Chia決定構(gòu)建一個(gè)全新的解決方案，這就是現(xiàn)在獲得3000萬(wàn)美元融資的Eventual。

多模態(tài)數(shù)據(jù)處理的痛點(diǎn)有多深

在深入了解Eventual的解決方案之前，我想先幫大家理解現(xiàn)有數(shù)據(jù)處理工具在面對(duì)多模態(tài)AI工作負(fù)載時(shí)的根本性局限。傳統(tǒng)的數(shù)據(jù)處理引擎，比如Apache Spark，最初是為處理結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的——想想銀行交易記錄、用戶點(diǎn)擊流這類規(guī)整的表格數(shù)據(jù)。這些系統(tǒng)在處理數(shù)字和文本時(shí)表現(xiàn)出色，但當(dāng)你讓它們處理圖像、視頻或者LiDAR掃描數(shù)據(jù)時(shí)，就像是讓一臺(tái)為城市道路設(shè)計(jì)的小汽車去爬珠穆朗瑪峰一樣不現(xiàn)實(shí)。

我在與一些AI公司的工程師交流時(shí)發(fā)現(xiàn)，他們經(jīng)常遇到這樣的困境：為了讓Spark處理圖像數(shù)據(jù)，他們不得不寫大量的適配代碼，將圖像轉(zhuǎn)換成Spark能理解的格式，然后再轉(zhuǎn)換回來(lái)。這個(gè)過程不僅繁瑣，還極其脆肪。在測(cè)試環(huán)境中0.1%的失敗率可能是可以接受的，但當(dāng)你要在生產(chǎn)環(huán)境中處理數(shù)百萬(wàn)個(gè)文件時(shí)，這個(gè)失敗率就變成了災(zāi)難。更糟糕的是，現(xiàn)代AI工作負(fù)載還需要運(yùn)行自定義模型、調(diào)用外部API，以及處理各種各樣的數(shù)據(jù)類型，這些需求遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)數(shù)據(jù)處理引擎的設(shè)計(jì)范圍。

Sidhu在接受采訪時(shí)提到了一個(gè)令人深思的觀察：”我們看到所有這些優(yōu)秀的博士、業(yè)界的杰出人才在開發(fā)自動(dòng)駕駛汽車，但他們花費(fèi)大約80%的時(shí)間在處理基礎(chǔ)設(shè)施問題，而不是構(gòu)建他們的核心應(yīng)用。”這種資源錯(cuò)配的程度是驚人的。想象一下，如果一家制藥公司的頂級(jí)科學(xué)家需要花80%的時(shí)間來(lái)維修實(shí)驗(yàn)室設(shè)備，而只有20%的時(shí)間用于藥物研發(fā)，這將對(duì)整個(gè)行業(yè)的創(chuàng)新速度產(chǎn)生多大的影響。

這個(gè)問題在ChatGPT發(fā)布后變得更加嚴(yán)重。隨著生成式AI的普及，越來(lái)越多的公司開始在他們的應(yīng)用中使用圖像、文檔和視頻。但他們很快發(fā)現(xiàn)，現(xiàn)有的數(shù)據(jù)基礎(chǔ)設(shè)施完全無(wú)法應(yīng)對(duì)這種多模態(tài)數(shù)據(jù)的處理需求。Sidhu觀察到：”ChatGPT的爆發(fā)讓我們看到很多其他人開始構(gòu)建具有不同模態(tài)的AI應(yīng)用。然后每個(gè)人都開始在他們的應(yīng)用中使用圖像、文檔和視頻等內(nèi)容。這正是我們看到使用量急劇增長(zhǎng)的地方。”

Eventual的革命性解決方案

Eventual的核心創(chuàng)新在于他們從零開始構(gòu)建了一個(gè)專門為多模態(tài)AI工作負(fù)載設(shè)計(jì)的數(shù)據(jù)處理引擎——Daft。這不是對(duì)現(xiàn)有工具的改進(jìn)或適配，而是一個(gè)全新的架構(gòu)，將多模態(tài)數(shù)據(jù)的固有復(fù)雜性視為特性而不是缺陷。在我看來(lái)，這種設(shè)計(jì)理念的轉(zhuǎn)變是革命性的：不再試圖將復(fù)雜的多模態(tài)數(shù)據(jù)強(qiáng)行塞入為簡(jiǎn)單表格設(shè)計(jì)的框架中，而是構(gòu)建一個(gè)原生理解和處理各種數(shù)據(jù)類型的系統(tǒng)。

Daft的強(qiáng)大之處在于它是Python原生的開源數(shù)據(jù)處理引擎，專門設(shè)計(jì)用于快速處理從文本到音頻和視頻等不同模態(tài)的數(shù)據(jù)。Sidhu說(shuō)他們的目標(biāo)是讓Daft對(duì)非結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)生與SQL對(duì)表格數(shù)據(jù)集產(chǎn)生的同樣變革性影響。這個(gè)對(duì)比很有啟發(fā)性：SQL的出現(xiàn)讓任何人都能夠查詢和分析結(jié)構(gòu)化數(shù)據(jù)，而不需要深入了解底層的數(shù)據(jù)庫(kù)架構(gòu)。Daft希望為多模態(tài)數(shù)據(jù)帶來(lái)同樣的簡(jiǎn)便性和強(qiáng)大功能。我深刻理解這種愿景的重要性，因?yàn)楫?dāng)前處理多模態(tài)數(shù)據(jù)就像是在沒有SQL的時(shí)代直接操作文件系統(tǒng)一樣痛苦。每種數(shù)據(jù)類型都需要專門的處理邏輯，每個(gè)項(xiàng)目都要重新發(fā)明輪子，這種重復(fù)勞動(dòng)不僅浪費(fèi)時(shí)間，還容易出錯(cuò)。

從技術(shù)實(shí)現(xiàn)角度看，Daft使用Rust構(gòu)建，這確保了在單節(jié)點(diǎn)上與DuckDB和Polars相當(dāng)?shù)男阅?，同時(shí)可以輕松擴(kuò)展到分布式集群，無(wú)需更改任何代碼。這種設(shè)計(jì)讓開發(fā)者可以在筆記本電腦上開發(fā)和測(cè)試代碼，然后直接部署到生產(chǎn)環(huán)境的大規(guī)模集群上。我認(rèn)為這種無(wú)縫擴(kuò)展能力對(duì)于AI工作負(fù)載特別重要，因?yàn)閿?shù)據(jù)量通常從開發(fā)階段的幾MB增長(zhǎng)到生產(chǎn)環(huán)境的PB級(jí)別。這種擴(kuò)展能力的實(shí)現(xiàn)原理很巧妙：Daft將計(jì)算邏輯抽象成任務(wù)圖，可以在單機(jī)上順序執(zhí)行，也可以在集群上并行執(zhí)行，而開發(fā)者只需要改變一行配置代碼。這消除了傳統(tǒng)分布式系統(tǒng)開發(fā)中最痛苦的部分——在本地開發(fā)和集群部署之間的巨大鴻溝。

更讓我印象深刻的是Daft對(duì)AI工作流的深度優(yōu)化。它不僅支持傳統(tǒng)的分析操作如分組、連接和聚合，還允許開發(fā)者編寫任意的Python代碼作為用戶定義函數(shù)（UDF）。這意味著你可以在同一個(gè)數(shù)據(jù)處理流水線中進(jìn)行數(shù)據(jù)清洗、特征提取、模型推理和結(jié)果分析，而不需要在多個(gè)工具之間切換。這種一體化的設(shè)計(jì)解決了一個(gè)長(zhǎng)期困擾AI工程師的問題：工具鏈的碎片化。傳統(tǒng)上，你可能需要用pandas做數(shù)據(jù)清洗，用Spark做大規(guī)模處理，用Ray做分布式訓(xùn)練，用不同的工具做模型部署。每個(gè)工具之間的數(shù)據(jù)傳遞都是一個(gè)潛在的故障點(diǎn)，而且維護(hù)這樣的工具鏈需要大量的運(yùn)維工作。

Daft的UDF系統(tǒng)特別值得深入討論。它不僅支持普通的Python函數(shù)，還專門為AI工作負(fù)載設(shè)計(jì)了異步UDF。在他們的演示案例中，通過使用異步UDF，GPU推理的吞吐量提高了5-6倍。這種性能提升的原理在于，傳統(tǒng)的同步推理會(huì)導(dǎo)致GPU在等待I/O操作時(shí)空閑，而異步UDF可以在一個(gè)請(qǐng)求等待時(shí)處理其他請(qǐng)求，從而充分利用GPU的計(jì)算能力。這種優(yōu)化對(duì)于大規(guī)模AI推理至關(guān)重要，因?yàn)镚PU的成本很高，任何空閑時(shí)間都意味著資源浪費(fèi)。更重要的是，Daft計(jì)劃進(jìn)一步優(yōu)化這個(gè)過程，包括支持流式UDF，讓結(jié)果可以在生成時(shí)立即返回，而不是等待整個(gè)批次完成。

在他們的演示中，工程師能夠在兩天內(nèi)構(gòu)建一個(gè)AI招聘平臺(tái)，處理了15000個(gè)GitHub倉(cāng)庫(kù)、3300萬(wàn)次提交，并對(duì)25萬(wàn)名開發(fā)者進(jìn)行了AI代碼審查——這種速度在傳統(tǒng)工具下是不可想象的。讓我們深入分析這個(gè)案例的技術(shù)細(xì)節(jié)：他們首先使用GitHub API收集了15000個(gè)熱門倉(cāng)庫(kù)，然后克隆所有倉(cāng)庫(kù)并解析git日志提取提交信息。這個(gè)過程在傳統(tǒng)工具下可能需要數(shù)周時(shí)間，因?yàn)槟阈枰幚鞟PI限制、存儲(chǔ)管理、錯(cuò)誤恢復(fù)等復(fù)雜問題。但使用Daft，他們只需要將API調(diào)用包裝成UDF，系統(tǒng)自動(dòng)處理并發(fā)、重試和結(jié)果存儲(chǔ)。接下來(lái)的數(shù)據(jù)清洗和聚合步驟，包括按開發(fā)者分組提交記錄和去重處理，在Daft中只需要幾行代碼，而在傳統(tǒng)工具中可能需要復(fù)雜的MapReduce作業(yè)。最令人印象深刻的是AI代碼審查階段：他們使用大語(yǔ)言模型對(duì)25萬(wàn)名開發(fā)者進(jìn)行評(píng)估，整個(gè)過程只用了3小時(shí)。這種效率的實(shí)現(xiàn)依賴于Daft的異步UDF支持和智能批處理策略。

Eventual的商業(yè)化策略也很明智。他們首先構(gòu)建了強(qiáng)大的開源核心Daft，已經(jīng)在Amazon、CloudKitchens和Together AI等公司的關(guān)鍵任務(wù)工作負(fù)載中處理PB級(jí)別的多模態(tài)數(shù)據(jù)?，F(xiàn)在他們正在基于這個(gè)開源引擎構(gòu)建Eventual Cloud——第一個(gè)從頭開始為多模態(tài)AI工作負(fù)載構(gòu)建的生產(chǎn)就緒平臺(tái)。通過這種方式，他們既建立了強(qiáng)大的技術(shù)護(hù)城河，又培養(yǎng)了活躍的開源社區(qū)，為商業(yè)化產(chǎn)品奠定了堅(jiān)實(shí)基礎(chǔ)。這種開源+云服務(wù)的策略很聰明，因?yàn)樗層脩艨梢韵韧ㄟ^開源版本體驗(yàn)Daft的強(qiáng)大功能，然后自然地升級(jí)到提供更多企業(yè)級(jí)功能的云服務(wù)。這種策略在數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域特別有效，因?yàn)槠髽I(yè)在選擇關(guān)鍵基礎(chǔ)設(shè)施時(shí)非常謹(jǐn)慎，他們需要先驗(yàn)證技術(shù)的可靠性和性能。

為什么現(xiàn)在是多模態(tài)數(shù)據(jù)處理的關(guān)鍵時(shí)刻

我認(rèn)為Eventual獲得投資者青睞的原因，不僅在于他們解決了一個(gè)真實(shí)存在的技術(shù)痛點(diǎn)，更在于他們抓住了一個(gè)巨大的市場(chǎng)時(shí)機(jī)。據(jù)管理咨詢公司MarketsandMarkets預(yù)測(cè)，多模態(tài)AI行業(yè)在2023年到2028年間將以35%的復(fù)合年增長(zhǎng)率增長(zhǎng)。這個(gè)增長(zhǎng)速度反映了企業(yè)對(duì)多模態(tài)AI應(yīng)用的迫切需求，也意味著對(duì)專門處理多模態(tài)數(shù)據(jù)的基礎(chǔ)設(shè)施的巨大需求。

數(shù)據(jù)量的爆炸性增長(zhǎng)為這種需求提供了更深層的支撐。Felicis的普通合伙人Astasia Myers指出：”年度數(shù)據(jù)生成量在過去20年中增長(zhǎng)了1000倍，世界上90%的數(shù)據(jù)是在過去兩年中生成的，根據(jù)IDC的數(shù)據(jù)，絕大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化的。”這些數(shù)字讓人震撼，但更重要的是其背后的含義：我們正處在一個(gè)數(shù)據(jù)性質(zhì)發(fā)生根本性轉(zhuǎn)變的時(shí)代。過去的數(shù)據(jù)主要是數(shù)字和文本，現(xiàn)在越來(lái)越多的是圖像、視頻、音頻和傳感器數(shù)據(jù)。

這種轉(zhuǎn)變對(duì)現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施提出了前所未有的挑戰(zhàn)。傳統(tǒng)工具不僅在技術(shù)上難以應(yīng)對(duì)，在成本上也變得不可持續(xù)。想象一下，如果你需要處理數(shù)百萬(wàn)小時(shí)的視頻內(nèi)容來(lái)訓(xùn)練一個(gè)計(jì)算機(jī)視覺模型，使用為處理銀行交易設(shè)計(jì)的系統(tǒng)會(huì)有多么低效。你不僅需要大量的適配工作，還會(huì)面臨極高的計(jì)算和存儲(chǔ)成本，更不用說(shuō)系統(tǒng)的可靠性問題了。

從投資者角度看，Myers表示她通過市場(chǎng)映射發(fā)現(xiàn)了Eventual，當(dāng)時(shí)她正在尋找能夠支持日益增長(zhǎng)的多模態(tài)AI模型的數(shù)據(jù)基礎(chǔ)設(shè)施。Eventual之所以脫穎而出，不僅因?yàn)樗麄兪沁@個(gè)領(lǐng)域的先行者，更因?yàn)閯?chuàng)始人親身經(jīng)歷過這個(gè)數(shù)據(jù)處理問題。這種第一手經(jīng)驗(yàn)確保了他們構(gòu)建的解決方案真正解決了實(shí)際問題，而不是象牙塔中的理論構(gòu)想。

我特別認(rèn)同Myers關(guān)于宏觀趨勢(shì)的觀察：”Daft適應(yīng)了圍繞文本、圖像、視頻和語(yǔ)音構(gòu)建生成式AI的巨大宏觀趨勢(shì)。你需要一個(gè)多模態(tài)原生的數(shù)據(jù)處理引擎。”這句話點(diǎn)出了關(guān)鍵：不是改造現(xiàn)有工具來(lái)適應(yīng)新需求，而是構(gòu)建原生支持新需求的工具。這種思維轉(zhuǎn)變對(duì)于技術(shù)基礎(chǔ)設(shè)施的發(fā)展至關(guān)重要。

技術(shù)創(chuàng)新背后的深層思考

在研究Eventual的技術(shù)架構(gòu)時(shí)，我發(fā)現(xiàn)他們的創(chuàng)新不僅體現(xiàn)在功能層面，更重要的是在設(shè)計(jì)哲學(xué)上的突破。傳統(tǒng)數(shù)據(jù)處理系統(tǒng)遵循的是”數(shù)據(jù)適應(yīng)工具”的邏輯——你需要將數(shù)據(jù)轉(zhuǎn)換成工具能夠處理的格式。而Daft則實(shí)現(xiàn)了”工具適應(yīng)數(shù)據(jù)”的邏輯——系統(tǒng)原生理解各種數(shù)據(jù)類型，不需要強(qiáng)制轉(zhuǎn)換。這種哲學(xué)轉(zhuǎn)變的意義遠(yuǎn)比表面看起來(lái)更深刻。

這種差異的影響是深遠(yuǎn)的。在傳統(tǒng)系統(tǒng)中，每當(dāng)你需要處理新類型的數(shù)據(jù)時(shí)，都需要編寫大量的預(yù)處理和后處理代碼。這不僅增加了開發(fā)復(fù)雜性，還引入了潛在的錯(cuò)誤源。更嚴(yán)重的是，這種方法本質(zhì)上是在為每種數(shù)據(jù)類型重新發(fā)明輪子。而在Daft的架構(gòu)中，系統(tǒng)從底層就被設(shè)計(jì)為多模態(tài)原生，新數(shù)據(jù)類型的支持變成了配置問題而不是開發(fā)問題。我認(rèn)為這種設(shè)計(jì)哲學(xué)的轉(zhuǎn)變類似于從面向過程編程到面向?qū)ο缶幊痰目缭?，它從根本上改變了我們思考和解決問題的方式。

從性能角度看，這種設(shè)計(jì)帶來(lái)的優(yōu)勢(shì)更加明顯。傳統(tǒng)系統(tǒng)在處理多模態(tài)數(shù)據(jù)時(shí)會(huì)有大量的序列化和反序列化開銷，而Daft通過原生支持避免了這些不必要的轉(zhuǎn)換。在他們的演示案例中，處理15000個(gè)倉(cāng)庫(kù)和3300萬(wàn)次提交只用了30分鐘，這種性能提升不僅來(lái)自于分布式架構(gòu)，更來(lái)自于對(duì)多模態(tài)數(shù)據(jù)的原生優(yōu)化。這種性能差異在大規(guī)模生產(chǎn)環(huán)境中會(huì)被放大數(shù)倍，意味著企業(yè)可以用更少的資源完成更多的工作，或者在相同時(shí)間內(nèi)處理更大規(guī)模的數(shù)據(jù)。

我特別欣賞Daft對(duì)異步處理的支持。在演示中，工程師通過使用異步UDF將GPU推理的吞吐量提高了5-6倍。這種優(yōu)化對(duì)于AI工作負(fù)載至關(guān)重要，因?yàn)槟Ｐ屯评硗ǔＪ钦麄€(gè)流水線的瓶頸。通過原生支持異步操作，Daft讓開發(fā)者能夠充分利用現(xiàn)代硬件的并行處理能力，而不需要自己管理復(fù)雜的并發(fā)邏輯。這種設(shè)計(jì)的巧妙之處在于，它將復(fù)雜的異步編程模式抽象成簡(jiǎn)單的API，讓數(shù)據(jù)科學(xué)家和AI工程師可以專注于業(yè)務(wù)邏輯，而不需要成為分布式系統(tǒng)專家。

讓我深入分析一下剛才提到的AI招聘平臺(tái)案例中的技術(shù)細(xì)節(jié)，因?yàn)樗昝勒故玖薉aft的技術(shù)優(yōu)勢(shì)。整個(gè)項(xiàng)目在兩天內(nèi)完成，處理流程包括數(shù)據(jù)收集、清洗、AI推理和結(jié)果展示四個(gè)階段。在數(shù)據(jù)收集階段，他們首先通過GitHub API搜索熱門倉(cāng)庫(kù)，這本身就是一個(gè)挑戰(zhàn)，因?yàn)锳PI有嚴(yán)格的速率限制。傳統(tǒng)方法可能需要編寫復(fù)雜的重試機(jī)制和隊(duì)列系統(tǒng)，但在Daft中，他們只需要將API調(diào)用包裝成UDF，系統(tǒng)自動(dòng)處理并發(fā)控制和錯(cuò)誤恢復(fù)。當(dāng)遇到API限制時(shí)，他們巧妙地轉(zhuǎn)向直接克隆倉(cāng)庫(kù)并解析git日志，這種靈活性在傳統(tǒng)數(shù)據(jù)處理框架中很難實(shí)現(xiàn)，因?yàn)槟阈枰诓煌墓ぞ咧g切換。

數(shù)據(jù)清洗階段揭示了另一個(gè)有趣的技術(shù)問題：開發(fā)者可能使用多個(gè)郵箱地址提交代碼，導(dǎo)致同一個(gè)人被識(shí)別為多個(gè)不同的貢獻(xiàn)者。這是一個(gè)典型的實(shí)體解析問題，在傳統(tǒng)工具中可能需要復(fù)雜的MapReduce作業(yè)或者專門的數(shù)據(jù)清洗工具。但在Daft中，他們通過簡(jiǎn)單的分組和聚合操作就解決了這個(gè)問題。這種簡(jiǎn)潔性不僅提高了開發(fā)效率，還降低了出錯(cuò)的可能性。更重要的是，這種處理方式展示了Daft在數(shù)據(jù)質(zhì)量管理方面的優(yōu)勢(shì)——它讓數(shù)據(jù)清洗變成了數(shù)據(jù)分析的自然延續(xù)，而不是一個(gè)單獨(dú)的流程。

AI推理階段是最能體現(xiàn)Daft技術(shù)優(yōu)勢(shì)的部分。他們需要對(duì)25萬(wàn)名開發(fā)者進(jìn)行代碼審查，這需要調(diào)用大語(yǔ)言模型數(shù)十萬(wàn)次。傳統(tǒng)方法可能需要搭建復(fù)雜的任務(wù)隊(duì)列系統(tǒng)，處理失敗重試、負(fù)載均衡、成本控制等問題。但使用Daft的異步UDF，他們只需要將LLM調(diào)用包裝成一個(gè)函數(shù)，系統(tǒng)自動(dòng)處理并發(fā)控制和資源優(yōu)化。更巧妙的是，他們使用Pydantic模型來(lái)標(biāo)準(zhǔn)化LLM的輸出格式，確保結(jié)果可以直接集成到Daft的數(shù)據(jù)框架中。這種設(shè)計(jì)展示了Daft在AI工作流集成方面的深度思考——它不僅是一個(gè)數(shù)據(jù)處理引擎，更是一個(gè)AI應(yīng)用的構(gòu)建平臺(tái)。

性能優(yōu)化方面，異步UDF的5-6倍性能提升特別值得深入分析。這種提升的原理在于充分利用了GPU和網(wǎng)絡(luò)I/O的并行性。在同步模式下，每個(gè)推理請(qǐng)求都需要等待前一個(gè)請(qǐng)求完成，導(dǎo)致GPU在等待網(wǎng)絡(luò)I/O時(shí)空閑。而異步模式允許系統(tǒng)在一個(gè)請(qǐng)求等待時(shí)處理其他請(qǐng)求，從而保持GPU的高利用率。這種優(yōu)化在大規(guī)模AI推理中價(jià)值巨大，因?yàn)镚PU是最昂貴的資源，提高利用率直接轉(zhuǎn)化為成本節(jié)約。據(jù)我估算，在大規(guī)模部署中，這種優(yōu)化可能為企業(yè)節(jié)省數(shù)百萬(wàn)美元的GPU成本。

更令人興奮的是Daft的發(fā)展路線圖。他們計(jì)劃擴(kuò)展對(duì)新數(shù)據(jù)類型如視頻和變體的多模態(tài)支持，為AI工作負(fù)載提供更好的原語(yǔ)包括流式和異步UDF，繼續(xù)投資數(shù)據(jù)目錄如Iceberg和Unity，以及構(gòu)建下一代分布式執(zhí)行引擎代號(hào)為”Flotilla”的系統(tǒng)。這個(gè)路線圖顯示了他們對(duì)多模態(tài)數(shù)據(jù)處理未來(lái)的清晰愿景，不僅要解決當(dāng)前的痛點(diǎn)，還要為未來(lái)的需求做好準(zhǔn)備。特別是流式UDF的支持，將使實(shí)時(shí)AI應(yīng)用成為可能，這對(duì)于自動(dòng)駕駛、實(shí)時(shí)推薦系統(tǒng)等場(chǎng)景意義重大。新的分布式執(zhí)行引擎”Flotilla”暗示著他們?cè)诘讓蛹軜?gòu)上的持續(xù)創(chuàng)新，可能會(huì)帶來(lái)更大的性能突破。

Daft的另一個(gè)值得關(guān)注的特性是其對(duì)數(shù)據(jù)目錄的深度集成?，F(xiàn)代企業(yè)的數(shù)據(jù)分布在各種系統(tǒng)中，包括云存儲(chǔ)、數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)等。Daft對(duì)Iceberg、Unity等數(shù)據(jù)目錄的支持，意味著它可以無(wú)縫訪問企業(yè)現(xiàn)有的數(shù)據(jù)資產(chǎn)，而不需要數(shù)據(jù)遷移。這種能力對(duì)于企業(yè)采用新工具至關(guān)重要，因?yàn)閿?shù)據(jù)遷移往往是最大的障礙。通過消除這個(gè)障礙，Daft大大降低了企業(yè)的采用門檻，這也是它能夠快速獲得Amazon、CloudKitchens等大客戶的重要原因。

對(duì)整個(gè)AI基礎(chǔ)設(shè)施行業(yè)的啟示

Eventual的成功對(duì)整個(gè)AI基礎(chǔ)設(shè)施行業(yè)具有重要的啟示意義。我認(rèn)為我們正在見證AI基礎(chǔ)設(shè)施的第二次革命。第一次革命是從通用計(jì)算轉(zhuǎn)向AI專用硬件，如GPU和TPU的普及?，F(xiàn)在我們正在經(jīng)歷第二次革命：從為結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì)的軟件架構(gòu)轉(zhuǎn)向?yàn)槎嗄B(tài)AI工作負(fù)載原生設(shè)計(jì)的軟件架構(gòu)。

這種轉(zhuǎn)變對(duì)整個(gè)技術(shù)棧都有深遠(yuǎn)影響。在存儲(chǔ)層面，我們需要能夠高效存儲(chǔ)和檢索各種數(shù)據(jù)類型的系統(tǒng)。在計(jì)算層面，我們需要能夠原生處理多模態(tài)數(shù)據(jù)的引擎。在應(yīng)用層面，我們需要能夠無(wú)縫集成各種AI模型和工具的框架。Eventual在計(jì)算層面的創(chuàng)新為整個(gè)棧的演進(jìn)指明了方向。

從商業(yè)角度看，Eventual的成功也驗(yàn)證了專業(yè)化基礎(chǔ)設(shè)施工具的市場(chǎng)需求。過去，企業(yè)可能會(huì)選擇通用解決方案并接受一定的性能損失，但隨著AI應(yīng)用的復(fù)雜性和規(guī)模不斷增長(zhǎng)，專業(yè)化工具變得不可或缺。這為專注于特定技術(shù)領(lǐng)域的初創(chuàng)公司創(chuàng)造了巨大機(jī)會(huì)，也解釋了為什么投資者愿意為Eventual這樣的公司投入大量資金。

我觀察到，越來(lái)越多的AI公司開始意識(shí)到數(shù)據(jù)基礎(chǔ)設(shè)施的重要性。過去，數(shù)據(jù)基礎(chǔ)設(shè)施被視為支持性功能，現(xiàn)在它正在成為核心競(jìng)爭(zhēng)優(yōu)勢(shì)。能夠更快、更可靠地處理多模態(tài)數(shù)據(jù)的公司，在構(gòu)建AI應(yīng)用時(shí)就擁有了顯著優(yōu)勢(shì)。這種認(rèn)知轉(zhuǎn)變推動(dòng)了對(duì)專業(yè)化數(shù)據(jù)處理工具的需求，也為Eventual這樣的公司創(chuàng)造了廣闊的市場(chǎng)空間。

從技術(shù)人才角度看，Eventual的團(tuán)隊(duì)構(gòu)成也很有啟發(fā)性。他們匯集了來(lái)自Databricks Photon、GitHub Copilot、Pinecone矢量數(shù)據(jù)庫(kù)、Render和AWS PartiQL等項(xiàng)目的開發(fā)者，這些都是大規(guī)模系統(tǒng)的構(gòu)建者。這種人才配置表明，構(gòu)建下一代AI基礎(chǔ)設(shè)施需要深厚的分布式系統(tǒng)經(jīng)驗(yàn)和對(duì)AI工作負(fù)載的深刻理解，而不僅僅是AI算法知識(shí)。

挑戰(zhàn)與未來(lái)展望

盡管Eventual在多模態(tài)數(shù)據(jù)處理領(lǐng)域取得了突破性進(jìn)展，但我認(rèn)為他們?nèi)匀幻媾R一些重要挑戰(zhàn)。首先是生態(tài)系統(tǒng)的建設(shè)。雖然Daft在技術(shù)上很先進(jìn)，但要讓更多開發(fā)者采用，還需要建立完整的工具鏈、文檔、培訓(xùn)資源和社區(qū)支持。目前大多數(shù)數(shù)據(jù)工程師都熟悉Spark和pandas，切換到新工具需要學(xué)習(xí)成本。

我也關(guān)注到多模態(tài)數(shù)據(jù)處理的標(biāo)準(zhǔn)化問題。不同的AI模型和應(yīng)用對(duì)數(shù)據(jù)格式的要求各不相同，如何在保持靈活性的同時(shí)建立某種程度的標(biāo)準(zhǔn)化，將是一個(gè)長(zhǎng)期挑戰(zhàn)。Eventual需要在支持各種數(shù)據(jù)格式的同時(shí)，推動(dòng)行業(yè)形成一些最佳實(shí)踐和通用標(biāo)準(zhǔn)。

從競(jìng)爭(zhēng)角度看，Eventual作為先行者有明顯優(yōu)勢(shì)，但這個(gè)領(lǐng)域很可能變得擁擠。大型云服務(wù)提供商可能會(huì)推出自己的多模態(tài)數(shù)據(jù)處理解決方案，傳統(tǒng)數(shù)據(jù)庫(kù)公司也可能加強(qiáng)在這個(gè)方向的投入。Eventual需要繼續(xù)保持技術(shù)領(lǐng)先優(yōu)勢(shì)，同時(shí)快速擴(kuò)大市場(chǎng)份額。

成本優(yōu)化也是一個(gè)重要考慮因素。雖然Daft在性能上有優(yōu)勢(shì)，但多模態(tài)數(shù)據(jù)處理本身就是資源密集型的。如何幫助客戶在獲得更好性能的同時(shí)控制成本，將是Eventual商業(yè)化成功的關(guān)鍵。他們需要提供清晰的ROI證明，讓企業(yè)愿意為更好的工具付費(fèi)。

盡管存在這些挑戰(zhàn)，我對(duì)Eventual的未來(lái)充滿信心。他們正在解決一個(gè)真實(shí)存在且日益嚴(yán)重的問題，擁有強(qiáng)大的技術(shù)團(tuán)隊(duì)和充足的資金支持。更重要的是，隨著AI應(yīng)用的普及，對(duì)多模態(tài)數(shù)據(jù)處理的需求只會(huì)繼續(xù)增長(zhǎng)。Eventual不僅在構(gòu)建一個(gè)產(chǎn)品，更是在定義一個(gè)新的技術(shù)類別。

從更宏觀的角度看，我相信Eventual代表了AI基礎(chǔ)設(shè)施演進(jìn)的方向。我們正在從”讓AI適應(yīng)現(xiàn)有基礎(chǔ)設(shè)施”轉(zhuǎn)向”讓基礎(chǔ)設(shè)施原生支持AI”。這種轉(zhuǎn)變將釋放AI技術(shù)的真正潛力，讓更多企業(yè)能夠構(gòu)建強(qiáng)大的AI應(yīng)用，而不是被基礎(chǔ)設(shè)施的限制所束縛。最終，像Eventual這樣的公司將成為AI時(shí)代的基礎(chǔ)設(shè)施提供商，就像AWS為云計(jì)算時(shí)代提供基礎(chǔ)設(shè)施一樣。他們的成功不僅將推動(dòng)自身業(yè)務(wù)的增長(zhǎng)，更將加速整個(gè)AI行業(yè)的發(fā)展。

本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】，微信公眾號(hào)：【深思圈】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App