5人團(tuán)隊,1700萬融資,現(xiàn)金流為正,繼Reducto獲Benchmark 2450萬投資后,文檔處理賽道又迎來重量級玩家
在數(shù)字化轉(zhuǎn)型浪潮中,文檔處理一直是企業(yè)面臨的痛點(diǎn)。盡管技術(shù)不斷進(jìn)步,但如何高效、準(zhǔn)確地處理海量非結(jié)構(gòu)化文檔,依然是許多企業(yè)難以攻克的難題。本文將介紹一家名為 Extend 的初創(chuàng)公司,他們在文檔處理領(lǐng)域取得了令人矚目的成就。
你有沒有想過,為什么在這個云計算和AI橫行的時代,PDF文檔處理依然是企業(yè)最大的痛點(diǎn)之一?
想象一下這樣的場景:一份包含數(shù)百頁的貸款申請文檔躺在銀行系統(tǒng)里,等待人工審核,而申請人只能苦苦等待幾天甚至幾周才能知道結(jié)果。
與此同時,醫(yī)院里的醫(yī)療記錄還在用打印機(jī)輸出,然后手工傳遞給下一個醫(yī)生。這些看似平常的場景,實際上暴露了現(xiàn)代企業(yè)面臨的一個巨大問題:80%的企業(yè)數(shù)據(jù)被困在非結(jié)構(gòu)化文檔中,無法被有效利用。
當(dāng)我深入研究這個市場時,發(fā)現(xiàn)了一個有趣的現(xiàn)象:就在我之前分析過Reducto這家獲得Benchmark 2450萬美元投資的文檔處理公司后不久,另一家名為Extend的公司也在這個賽道取得了突破性進(jìn)展。
這家專注于文檔處理的AI初創(chuàng)公司剛剛完成了1700萬美元的種子輪和A輪融資,由Innovation Endeavors領(lǐng)投,Y Combinator、Homebrew、Character等知名投資機(jī)構(gòu)參與,還包括前Adobe首席戰(zhàn)略官Scott Belsky和Vercel CEO Guillermo Rauch等重量級天使投資人。
更讓我驚訝的是,他們在團(tuán)隊規(guī)模只有5人、融資不到200萬美元的情況下,就已經(jīng)實現(xiàn)了超過融資總額的年度經(jīng)常性收入,并且現(xiàn)金流為正。這樣的成績讓我不得不深入了解他們到底在做什么,以及與市場上其他玩家相比,Extend的獨(dú)特之處在哪里。
從他們的融資情況來看,這輪1700萬美元的種子輪和A輪由Innovation Endeavors領(lǐng)投,Y Combinator、Homebrew、Character等現(xiàn)有投資者參與其中。
這些投資者的參與本身就說明了市場對文檔處理AI技術(shù)的高度認(rèn)可。而讓我更感興趣的是,Extend的創(chuàng)始團(tuán)隊并非初出茅廬的新人。
創(chuàng)始人Kushal Byatnal和Rahul Bhattacharya此前曾共同創(chuàng)立過Slintel,那是一個銷售智能平臺,曾獲得2500萬美元融資,擁有超過300家客戶和100多名員工,最終在2021年被6sense收購。
加上首席AI官Anirudh Badam從微軟西雅圖總部帶來的十多年AI/ML專業(yè)知識,這樣的創(chuàng)業(yè)和技術(shù)經(jīng)驗讓人對他們的新項目充滿信心。
文檔處理為什么這么難
在我看來,文檔處理問題之所以一直沒有得到很好的解決,主要是因為大多數(shù)人低估了它的復(fù)雜性。
很多人以為只要有了OCR技術(shù),就能輕松從PDF中提取數(shù)據(jù),但現(xiàn)實遠(yuǎn)比想象復(fù)雜。
我曾經(jīng)親身經(jīng)歷過這種痛苦:在一個項目中,我們需要處理大量的發(fā)票和收據(jù),起初以為幾個API調(diào)用就能搞定,結(jié)果發(fā)現(xiàn)現(xiàn)實中的文檔千奇百怪——有的倒著掃描、有的模糊不清、有的被咖啡漬覆蓋、有的還有手寫的小費(fèi)金額。
對于那些需要99%以上準(zhǔn)確率的關(guān)鍵業(yè)務(wù)場景,比如金融機(jī)構(gòu)處理貸款申請或醫(yī)療機(jī)構(gòu)處理患者記錄,即使是微小的錯誤都可能導(dǎo)致嚴(yán)重后果。
家庭無法按時搬進(jìn)新家,因為運(yùn)營團(tuán)隊需要審查100多頁的PDF貸款申請;患者在醫(yī)療記錄被打印出來并從一個提供者傳遞到另一個提供者時無法得到所需的護(hù)理;小企業(yè)因為發(fā)票詳細(xì)信息需要手動審查和輸入而無法按時收到付款。
Extend的創(chuàng)始人Kushal Byatnal在Brex的經(jīng)歷完美說明了這個問題的本質(zhì)。當(dāng)時他們想為用戶創(chuàng)造一個神奇的體驗,通過解析收據(jù)自動匹配費(fèi)用報銷。
聽起來很簡單對吧?
但現(xiàn)實是,用戶上傳的收據(jù)有無數(shù)種邊緣情況需要考慮。
除了數(shù)百萬種不同的商家格式,收據(jù)還可能顛倒、模糊、皺巴巴、被咖啡弄臟、有手寫的小費(fèi)金額等等。
他們測試了市場上幾乎所有的解決方案,從傳統(tǒng)OCR供應(yīng)商到專門的機(jī)器學(xué)習(xí)方案,雖然在少數(shù)幾個例子上看起來有希望,但團(tuán)隊有足夠的經(jīng)驗知道,雖然演示很容易構(gòu)建并且能夠快速激發(fā)靈感,但真正的問題在生產(chǎn)規(guī)模中等待著他們。
盡管他們盡最大努力,團(tuán)隊的多名成員費(fèi)力地標(biāo)注了數(shù)百個復(fù)雜示例和他們在生產(chǎn)中預(yù)期的邊緣情況,但他們從未達(dá)到可以向客戶展示的準(zhǔn)確性水平。
作為一家雄心勃勃的公司,從頭開始構(gòu)建現(xiàn)代軟件(他們甚至自主構(gòu)建了整個卡處理基礎(chǔ)設(shè)施?。?,他們意識到需要對最終用戶體驗進(jìn)行完全控制和靈活性。
他們的許多要求,如低延遲、多語言支持和自定義數(shù)據(jù)字段,根本無法通過現(xiàn)成解決方案的”一刀切”方法滿足。
最終,他們不得不自己構(gòu)建大部分功能,這迅速成為他們最復(fù)雜的工程項目之一,花費(fèi)了數(shù)月的實施、迭代和維護(hù)時間。
他們使用了各種技巧,結(jié)合機(jī)器學(xué)習(xí)模型與定制代碼,甚至建立了內(nèi)部的正則表達(dá)式規(guī)則和啟發(fā)式評分系統(tǒng)來構(gòu)建必要的基礎(chǔ)數(shù)據(jù)架構(gòu)。只有在適當(dāng)?shù)幕貧w測試和性能監(jiān)控到位后,他們才能開始在此基礎(chǔ)上構(gòu)建用戶體驗。
雖然最終他們確實發(fā)布了那個設(shè)想中的神奇功能,并且多年來一直是客戶給Brex打10/10 NPS評分的主要原因之一,但六年后,他們必須編寫和維護(hù)的代碼量仍然讓Kushal心有余悸。
這種痛苦的經(jīng)歷讓他們添加新模型以跟上不斷增長的數(shù)據(jù)流,在每次出現(xiàn)邊緣情況時調(diào)整啟發(fā)式方法,并在工程師根本沒有帶寬時取消新功能請求的優(yōu)先級。
這個例子完美地揭示了文檔處理的真正挑戰(zhàn):雖然transformer模型大大提高了文檔處理可能性的下限,但構(gòu)建生產(chǎn)級文檔工作流仍然需要對”文檔處理基礎(chǔ)設(shè)施”進(jìn)行巨大的投資。
如果你與那些有這些關(guān)鍵任務(wù)、產(chǎn)品內(nèi)文檔用例的公司交談,你會聽到一個一致的故事:他們?yōu)檫@個問題分配了5-10名工程師的團(tuán)隊,工作了一年以上,并圍繞VLM和OCR模型構(gòu)建了大量工具。
這包括為內(nèi)部主題專家提供的標(biāo)注工具、處理奇怪文檔邊緣情況的人工干預(yù)工作流、從用戶行為中學(xué)習(xí)和適應(yīng)的強(qiáng)化學(xué)習(xí)和微調(diào)工作流、確保達(dá)到99%以上準(zhǔn)確率的評估工作流、協(xié)調(diào)復(fù)雜有向無環(huán)圖的工作流編排,將不同模型結(jié)合在一起,包括光學(xué)字符識別、文檔分割、文檔提取、文檔分類等等,以及處理文檔中無數(shù)邊緣情況的邏輯——如手寫、簽名、刪除線和龐大的表格。
讓我深有感觸的是,基礎(chǔ)模型實際上暴露了問題而不是解決了問題。它們給了團(tuán)隊”像編程API一樣編程文檔”的體驗,直到他們最終意識到模型層只是冰山一角,高質(zhì)量的文檔處理實際上是一個系統(tǒng)工程問題。
實際上,我發(fā)現(xiàn)對于許多公司——包括一些知名的投資組合公司——文檔處理是其產(chǎn)品路線圖和收入增長目標(biāo)的最大瓶頸。這正是為什么Extend這樣的解決方案如此有價值的原因。
Extend的創(chuàng)新之處
我深入研究Extend后發(fā)現(xiàn),他們的聰明之處在于認(rèn)識到文檔處理實際上是一個系統(tǒng)工程問題,而不僅僅是一個模型問題。
原始OCR或基礎(chǔ)模型并不能完全解決問題,你需要的是一個統(tǒng)一的基礎(chǔ)設(shè)施和工具集,能夠讓尖端團(tuán)隊在一個地方處理所有混亂的文檔。
Extend不僅僅是另一個文檔API,它是一個完整的端到端平臺,建立在尖端的大語言模型基礎(chǔ)上,結(jié)合了可靠處理復(fù)雜文檔所需的所有其他開發(fā)者原語。
讓我印象深刻的是Extend處理這個問題的全棧方法。
他們提供了一個先進(jìn)的解析引擎來處理混亂的手寫字體和表格,提供確??煽啃缘脑u估工具,以及部署生產(chǎn)就緒管道的編排功能。
這意味著團(tuán)隊避免了數(shù)月的研發(fā)來解決邊緣情況和準(zhǔn)確性差距,可以快速從原始PDF轉(zhuǎn)換為結(jié)構(gòu)化、驗證過的、生產(chǎn)就緒的數(shù)據(jù)——在從干凈文檔到降級掃描的所有內(nèi)容上都能達(dá)到95%以上的準(zhǔn)確率。
更重要的是,Extend的產(chǎn)品設(shè)計理念體現(xiàn)了對企業(yè)實際需求的深刻理解。他們不試圖成為”黑盒解決方案”或以任何方式限制軟件工程師。
實際上,Extend提供的很多價值在于允許軟件工程師嘗試、測試和評估不同的AI模型或處理策略。
Extend加速和增強(qiáng)你的內(nèi)部構(gòu)建,而不是限制它,這對于服務(wù)最復(fù)雜的公司和團(tuán)隊來說是絕對必須的。
從他們的客戶反饋來看,這種方法確實解決了實際問題。
Brex的CEO Pedro Franceschi表示:”Extend在我們測試的每個解決方案中表現(xiàn)最佳——包括其他供應(yīng)商、開源甚至基礎(chǔ)模型。它現(xiàn)在為我們30,000個客戶的關(guān)鍵文檔工作流提供支持,幫助我們構(gòu)建最智能和最現(xiàn)代的金融平臺。”這種反饋在我看來代表了客戶對技術(shù)解決方案的最高認(rèn)可:不僅解決了問題,還成為了競爭優(yōu)勢。
我特別欣賞Extend在產(chǎn)品設(shè)計上的兩個關(guān)鍵決策。
第一,他們專注于為構(gòu)建基于文檔的工作流的復(fù)雜軟件團(tuán)隊服務(wù),而不是后臺勞動自動化或RPA。想想Brex的賬單支付或Flatiron Health的電子健康記錄數(shù)據(jù)攝取。這些工作流如果做對了價值極高,但它們也是最難做對的。
第二,Extend允許軟件工程師嘗試、測試和評估不同的AI模型或處理策略,這種靈活性對于服務(wù)最復(fù)雜的公司和團(tuán)隊來說至關(guān)重要。正如Innovation Endeavors的Davis Treybig所說:”Extend用全棧方法重新構(gòu)想文檔智能,將尖端LLM與可靠處理復(fù)雜文檔所需的所有其他開發(fā)者原語相結(jié)合。產(chǎn)品如此強(qiáng)大,以至于許多Extend的客戶不僅能夠自動化現(xiàn)有工作流,還能推出推動競爭差異化的全新功能。”
我特別注意到Extend在工程和產(chǎn)品團(tuán)隊授權(quán)方面的獨(dú)特之處。
他們推出的自服務(wù)版本平臺讓團(tuán)隊能夠立即開始使用,這對于那些想要快速驗證用例或在真實示例上驗證準(zhǔn)確性的企業(yè)來說非常有價值。沙盒模式提供了一種快速、無摩擦的方式來體驗Extend的全部功能,如果需要幫助,團(tuán)隊可以在產(chǎn)品中快速發(fā)送消息尋求支持。
這種產(chǎn)品體驗設(shè)計體現(xiàn)了他們對開發(fā)者友好性的重視,這與許多傳統(tǒng)文檔處理供應(yīng)商形成了鮮明對比。
Extend vs Reducto:文檔處理賽道的兩種路徑
有趣的是,當(dāng)我對比Extend和我之前深度分析過的Reducto時,發(fā)現(xiàn)了兩家公司在解決同一問題上的不同策略。
這種對比很有啟發(fā)性,展現(xiàn)了文檔處理市場的復(fù)雜性和多樣化需求。
Reducto由MIT校友創(chuàng)立,獲得了Benchmark領(lǐng)投的2450萬美元A輪融資,他們的方法更側(cè)重于打造”魔法般”的解析精度,強(qiáng)調(diào)單一傳遞就能達(dá)到極高的準(zhǔn)確率。
而Extend則采用了更加全棧和系統(tǒng)化的方法,專注于為開發(fā)者提供完整的文檔處理云基礎(chǔ)設(shè)施。
從技術(shù)路徑上看,Reducto的Agent OCR框架采用多次傳遞方法,通過基于代理的系統(tǒng)自動審查輸出,捕捉錯誤并進(jìn)行修正,類似于人在循環(huán)中的過程。
這種方法在處理復(fù)雜文檔時能實現(xiàn)近乎完美的解析準(zhǔn)確性。
而Extend的方法更注重工作流編排和端到端的生產(chǎn)就緒解決方案,他們不僅解決解析問題,還提供了分類、分割、驗證、人工審核等完整的工具鏈。
從客戶群體來看,兩家公司都服務(wù)于高端企業(yè)客戶,但側(cè)重點(diǎn)有所不同。
Reducto的客戶包括Airtable、Scale AI和多家FAANG企業(yè),他們更看重的是超高精度的文檔解析能力。而Extend的客戶如Brex、Square、Checkr、Flatiron Health等,更需要的是能夠快速部署到生產(chǎn)環(huán)境的完整解決方案。
這反映了市場上兩種不同的需求:一種是對精度要求極高的專業(yè)應(yīng)用,另一種是需要快速集成和部署的企業(yè)級應(yīng)用。
在商業(yè)模式上,Reducto專注于按頁計費(fèi)的API服務(wù),并且為簡單頁面提供成本優(yōu)化,在零準(zhǔn)確性損失的情況下將處理簡單頁面的成本降低了一半。而Extend則提供了更多樣化的服務(wù)模式,包括自服務(wù)平臺、定制化配置生成、以及完整的人工干預(yù)工作流。
這種差異體現(xiàn)了兩家公司對市場定位的不同理解:Reducto更像是文檔處理的”高精度引擎”,而Extend更像是”文檔處理的完整操作系統(tǒng)”。
我認(rèn)為這兩種方法都有其價值,也反映了文檔處理市場的成熟度。對于那些已有技術(shù)團(tuán)隊、主要需要解決準(zhǔn)確性問題的企業(yè),Reducto的高精度解析可能是更好的選擇。而對于那些希望快速構(gòu)建端到端文檔處理能力、減少工程投入的企業(yè),Extend的全棧方案更有吸引力。從投資者的角度看,Benchmark押注Reducto的精度優(yōu)勢,而Innovation Endeavors投資Extend的平臺化能力,都體現(xiàn)了對文檔處理這個巨大市場不同發(fā)展路徑的認(rèn)可。
AI時代的文檔處理新范式
我認(rèn)為我們正處在文檔處理領(lǐng)域的一個轉(zhuǎn)折點(diǎn)。過去幾年中,大語言模型的進(jìn)步終于在這個領(lǐng)域產(chǎn)生了真正的影響。
我們現(xiàn)在生活在這樣一個世界里:你可以直接調(diào)用OpenAI API,對相當(dāng)復(fù)雜的文檔進(jìn)行非常復(fù)雜的分類和提取。這些改進(jìn)如此顯著,以至于許多人現(xiàn)在認(rèn)為文檔處理已經(jīng)成為一種商品。
但仔細(xì)觀察后,事情實際上并不那么簡單。
如果你只是在構(gòu)建文檔搜索或某種基于RAG的文檔系統(tǒng),你可能不需要比基礎(chǔ)模型提供的更多功能,因為這些是80-90%準(zhǔn)確率通常就足夠的用例。
然而,對于許多最有價值的文檔用例來說,這種準(zhǔn)確率水平是不夠的。
想象一下,你正在向金融科技服務(wù)上傳工資單,該服務(wù)使用提取的數(shù)據(jù)來批準(zhǔn)或拒絕你的貸款申請——在這種情況下,準(zhǔn)確性和可靠性真的很重要。
錯誤的代價很高,但能夠自動化這種工作流的價值是巨大的,而不是必須等待人工審核并要求用戶等待24-48小時才能得到答案。LLM可以讓你在這里起步,但它們無法單獨(dú)讓你達(dá)到所需的可靠性。
換句話說,雖然transformer模型大大提高了文檔處理可能性的下限,但構(gòu)建生產(chǎn)級文檔工作流仍然需要對”文檔處理基礎(chǔ)設(shè)施”進(jìn)行巨大投資。
這就是為什么Extend的方法如此有價值。
他們認(rèn)識到,基礎(chǔ)模型實際上暴露了問題而不是解決了問題。它們給了團(tuán)隊”像編程API一樣編程文檔”的體驗,直到他們最終意識到模型層只是冰山一角,高質(zhì)量的文檔處理實際上是一個系統(tǒng)工程問題。正如Extend在其自動配置生成功能中展示的那樣,文檔處理中最大的瓶頸之一是團(tuán)隊花費(fèi)在調(diào)整架構(gòu)、制作提示和調(diào)試邊緣情況以提高準(zhǔn)確性上的手動時間。
只需上傳幾個樣本文檔,Extend就會生成一個針對文檔結(jié)構(gòu)優(yōu)化的定制架構(gòu)。
很快,Extend將把這種體驗與評估集集成,并部署一個在后臺持續(xù)運(yùn)行優(yōu)化循環(huán)的agent,這樣即使在你睡覺時,你的準(zhǔn)確率也會提高。
從Extend推出的新功能來看,他們正在朝著更智能、更自主、更具代理性的方向發(fā)展——持續(xù)優(yōu)化文檔流的準(zhǔn)確性、速度和可靠性。他們的北極星很簡單:消除阻礙團(tuán)隊與其非結(jié)構(gòu)化數(shù)據(jù)之間的每一個瓶頸,這樣他們就可以專注于使其業(yè)務(wù)獨(dú)特的東西(而不是與PDF格斗)。
世界已經(jīng)有了用于存儲、計算和協(xié)作的云平臺,但直到現(xiàn)在,還沒有人構(gòu)建過真正的文檔處理云——一個專門構(gòu)建的全棧系統(tǒng),用于處理規(guī)模化現(xiàn)實世界文檔的復(fù)雜性、混亂性和細(xì)微差別。
想想這種技術(shù)對不同行業(yè)的影響。
- 在房地產(chǎn)行業(yè),Extend正在幫助企業(yè)讓家庭更快地搬進(jìn)新家,通過fleet agent自動化所有50個州的房地產(chǎn)交易。
- 在金融科技領(lǐng)域,它們使客戶能夠通過嵌入式agent實時解析金融文檔,更快地支付和收款。
- 在人力資源和薪資平臺中,它們通過驗證教育和就業(yè)文檔的agent,讓員工能夠更快地入職和獲得工作批準(zhǔn)。
- 在采購平臺中,它們通過agent攝取銷售文檔來浮現(xiàn)數(shù)據(jù)洞察,在競爭中領(lǐng)先。
- 在醫(yī)療保健領(lǐng)域,它們通過由專業(yè)護(hù)士訓(xùn)練的agent來浮現(xiàn)醫(yī)療洞察,推動更好的患者結(jié)果。
這些用例顯示了文檔處理技術(shù)的廣泛適用性和巨大潛力。
我特別感興趣的是Extend的工作流程和人工干預(yù)功能,這體現(xiàn)了他們對生產(chǎn)環(huán)境復(fù)雜性的深刻理解。
在實際的生產(chǎn)環(huán)境中,100%的準(zhǔn)確率并不能保證。模糊的視覺效果、模糊的數(shù)據(jù)和模型錯誤可能導(dǎo)致錯誤的輸出——以及嚴(yán)重的下游后果。
Extend包含內(nèi)置的人工干預(yù)工具來捕獲和糾正這些問題。
你可以在任何步驟配置審查觸發(fā)器:
- 置信度閾值(比如如果total_amount < 0.95置信度就標(biāo)記)
- 驗證失?。ū热缧许椖靠傆嫴幌嗉樱?、外部系統(tǒng)檢查(比如在你的數(shù)據(jù)庫中找不到客戶ID)
- 意外文檔類型(比如客戶上傳了無效的文檔類型)。
被標(biāo)記的文檔會被路由到Extend的內(nèi)置審查UI,團(tuán)隊成員可以編輯任何提取的值、重新分類文檔、批準(zhǔn)或拒絕運(yùn)行、將更正反饋到評估集中。
這不僅僅是一個安全網(wǎng)——它是一個緊密的反饋循環(huán),隨著時間的推移改進(jìn)你的模型。
這種從人工審查到完全自動化的進(jìn)化路徑特別有意思,展現(xiàn)了AI系統(tǒng)逐步成熟的過程。
以HomeLight為例,他們最初幾乎審查每個文檔。但在一個月的近乎完美的準(zhǔn)確率和零更正后,他們完全移除了人工干預(yù)。
這表明,隨著模型和配置的改進(jìn),審查需求會急劇下降,最終達(dá)到完全自動化的狀態(tài)。
當(dāng)啟動關(guān)鍵任務(wù)用例時,團(tuán)隊啟用人工審查來捕獲早期問題并加速迭代。
隨著時間的推移,隨著模型和配置的改進(jìn),審查需求急劇下降。
這種漸進(jìn)式的自動化方法比一開始就追求完全自動化更加務(wù)實和可靠。
文檔處理云的技術(shù)深度
深入了解Extend的技術(shù)架構(gòu)后,我發(fā)現(xiàn)他們的”文檔處理云”概念遠(yuǎn)比表面看起來復(fù)雜。
他們構(gòu)建的不僅僅是一個API,而是一個完整的生態(tài)系統(tǒng),包括:
- VLM解析引擎來處理復(fù)雜的邊緣情況——跨圖像、表格、手寫、簽名等等;
- LLM上下文管理技術(shù),如語義分塊或表格標(biāo)題延續(xù);
- 數(shù)據(jù)標(biāo)記和評估工具,用于測量性能并改進(jìn)它;
- 編排分類、分割和提取以更好地實現(xiàn)準(zhǔn)確性的管道;
- 為其領(lǐng)域?qū)<姨峁┑臉?biāo)注工具;
- 強(qiáng)化學(xué)習(xí)和反饋循環(huán),以更多數(shù)據(jù)改進(jìn)系統(tǒng);
- 以及人工干預(yù)工具來標(biāo)記和升級低置信度邊緣情況。
讓我印象深刻的是Extend團(tuán)隊的技術(shù)背景和經(jīng)驗。
首席AI官Anirudh Badam從微軟西雅圖總部帶來了十多年的AI/ML專業(yè)知識,而創(chuàng)始AI工程師Vijay Sagar在谷歌硅谷辦公室度過了十年時間,開發(fā)機(jī)器學(xué)習(xí)模型。這種深厚的技術(shù)背景讓他們能夠構(gòu)建真正的全棧解決方案,而不是簡單地封裝現(xiàn)有的API。
正如團(tuán)隊成員的背景所展示的,Ishaan曾短暫保持蒙眼魔方的世界紀(jì)錄,盡管是自學(xué)成才的軟件工程師,卻是頂級競技程序員。
Gus創(chuàng)建了世界上最大的表格數(shù)據(jù)基準(zhǔn)集之一,并且是AWS SageMaker的創(chuàng)始工程師之一。
這些技術(shù)深度使得Extend能夠解決其他公司無法解決的復(fù)雜問題。
從工程角度看,Extend解決的問題本質(zhì)上是一個數(shù)據(jù)和系統(tǒng)工程問題,而原始OCR或基礎(chǔ)模型并不能完全解決這個問題。
就像Kushal Byatnal所說:”OCR已死。問題不再是’我們能從PDF中提取文本嗎?’這是基本要求。
相反,問題變成了:’我們?nèi)绾斡行У亟淌诰哂胁┦考壷悄艿腁I模型我們文檔、業(yè)務(wù)和工作流程的復(fù)雜性,使它們能夠推動業(yè)務(wù)影響?'”這種對問題本質(zhì)的深刻理解,讓Extend能夠提供真正解決根本問題的解決方案。
我特別注意到Extend在處理文檔復(fù)雜性方面的創(chuàng)新。
文檔是復(fù)雜的、多樣的,充滿歧義。給團(tuán)隊提供正確的工具集并賦能非技術(shù)領(lǐng)域?qū)<遗c工程師一起工作,是如何快速推動影響的方法,而不是花費(fèi)數(shù)月迭代和處理邊緣情況。
AI系統(tǒng)是不確定的,可能以意想不到的方式失敗。適當(dāng)?shù)姆雷o(hù)措施、可解釋性和人工監(jiān)督對于自信地部署到生產(chǎn)環(huán)境是必要的。
數(shù)據(jù)復(fù)雜性,由客戶需求和不斷增長的數(shù)據(jù)流驅(qū)動,只會隨著時間的推移而增加。持續(xù)學(xué)習(xí)和適應(yīng)的自我改進(jìn)系統(tǒng)是跟上步伐的唯一方法。
在自動化配置生成方面,Extend展現(xiàn)了對用戶痛點(diǎn)的深刻理解。
文檔處理中最大的瓶頸之一是團(tuán)隊花費(fèi)在調(diào)整架構(gòu)、制作提示和調(diào)試邊緣情況以提高準(zhǔn)確性上的手動時間。
他們發(fā)布了自動配置生成的測試版來減少這種負(fù)擔(dān)。只需上傳幾個樣本文檔,Extend就會生成一個針對文檔結(jié)構(gòu)優(yōu)化的定制架構(gòu)。
很快,Extend將把這種體驗與評估集集成,并部署一個在后臺持續(xù)運(yùn)行優(yōu)化循環(huán)的agent,這樣即使在你睡覺時,你的準(zhǔn)確率也會提高。這種持續(xù)優(yōu)化的理念體現(xiàn)了AI時代軟件應(yīng)該具備的自我進(jìn)化能力。
企業(yè)數(shù)字化轉(zhuǎn)型的催化劑
在我看來,Extend代表的不僅僅是文檔處理技術(shù)的進(jìn)步,更是企業(yè)數(shù)字化轉(zhuǎn)型的一個重要里程碑。被困在文檔中的非結(jié)構(gòu)化數(shù)據(jù)是未開發(fā)數(shù)據(jù)的最后一個重大前沿——也是最痛苦的一個。
Extend的使命就是讓這些數(shù)據(jù)變得可訪問、準(zhǔn)確和可操作。
當(dāng)企業(yè)能夠有效地處理這些數(shù)據(jù)時,它將釋放巨大的價值。正如他們所說,他們的使命很簡單:消除阻礙團(tuán)隊與其非結(jié)構(gòu)化數(shù)據(jù)之間的每一個瓶頸,這樣他們就可以專注于使其業(yè)務(wù)獨(dú)特的東西(而不是與PDF格斗)。
從商業(yè)角度來看,Extend的成功也說明了一個重要趨勢:最好的基礎(chǔ)設(shè)施公司不僅解決工程問題,還使他們的客戶能夠提供他們原本無法構(gòu)建的新穎產(chǎn)品體驗。
正如Innovation Endeavors的合伙人Davis Treybig所說:”產(chǎn)品如此強(qiáng)大,以至于許多Extend的客戶不僅能夠自動化現(xiàn)有工作流,還能推出推動競爭差異化的全新功能。”這種反饋在我看來代表了對基礎(chǔ)設(shè)施公司的最高認(rèn)可:不僅解決了問題,還創(chuàng)造了新的可能性。
值得注意的是,Extend在非常精簡的團(tuán)隊規(guī)模下實現(xiàn)了驚人的商業(yè)成績。他們快速達(dá)到了數(shù)百萬美元的年度經(jīng)常性收入,超過了種子輪的總?cè)谫Y金額,同時還實現(xiàn)了現(xiàn)金流正增長。
在與Zillow、Flatiron Health、Brex、Opendoor、Square等客戶合作的過程中,所有這些都是在團(tuán)隊規(guī)模直到最近還只有約5人、融資不到200萬美元的情況下實現(xiàn)的。
實際上,當(dāng)他們進(jìn)行A輪融資時,Extend的ARR實際上超過了融資金額!這種效率體現(xiàn)了他們對產(chǎn)品市場契合度的精準(zhǔn)把握和技術(shù)解決方案的有效性。
從客戶反饋來看,Extend確實解決了實際的業(yè)務(wù)痛點(diǎn)。
他們的客戶包括Brex、Square、Checkr、Flatiron Health和多家財富500強(qiáng)公司——這些團(tuán)隊依靠Extend的平臺精確可靠地處理數(shù)百萬份文檔。正如我之前提到的一些客戶反饋所顯示的,他們收到的關(guān)于Extend的反饋是他們在A輪公司中收到的最好的反饋之一。
相當(dāng)多的客戶表示,他們將Extend視為極大的競爭優(yōu)勢。”這些家伙到現(xiàn)在還不是C輪或D輪公司,這讓我感到困惑”是一個代表性的反饋。這種客戶滿意度水平說明了Extend解決方案的實際價值。
我相信,隨著大語言模型繼續(xù)改進(jìn),它們將開始以甚至人類都無法做到的方式理解最復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)。
組織將有數(shù)百(或數(shù)千)個專業(yè)agent查看每個非結(jié)構(gòu)化數(shù)據(jù)片段,連接點(diǎn),并浮現(xiàn)我們甚至不知道要尋找的洞察。這將徹底改變企業(yè)處理信息的方式,從被動的數(shù)據(jù)存儲轉(zhuǎn)變?yōu)橹鲃拥闹悄芊治觥?/p>
隨著越來越多的公司尋求使用AI加速工作的方法,Extend團(tuán)隊期待推出一個用戶友好的界面,任何人都可以使用它來自動化數(shù)據(jù)處理和管道構(gòu)建。
最終,我認(rèn)為像Extend這樣的公司正在構(gòu)建的不僅僅是文檔處理工具,而是企業(yè)智能的基礎(chǔ)設(shè)施。
他們正在創(chuàng)建一個世界,在這個世界里,編程文檔與調(diào)用API沒有什么不同。這種轉(zhuǎn)變將使企業(yè)能夠充分利用其所有數(shù)據(jù)資產(chǎn),而不僅僅是那些已經(jīng)結(jié)構(gòu)化的數(shù)據(jù)。對于那些能夠率先采用這種技術(shù)的企業(yè)來說,這將成為巨大的競爭優(yōu)勢。
正如Extend所展示的,未來已經(jīng)到來,而且它充滿了可能性。在這個新的文檔處理云時代,成功的企業(yè)將是那些能夠?qū)⒒靵y的PDF轉(zhuǎn)化為有價值洞察的企業(yè)。
本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號:【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
該文深入剖析了Extend在文檔處理賽道的獨(dú)特優(yōu)勢及成功路徑,為創(chuàng)業(yè)者和投資者提供了寶貴參考。