bootstrap 到十億美元 ARR:Surge AI 這匹黑馬如何顛覆 Scale 霸權(quán) ?

0 評(píng)論 813 瀏覽 0 收藏 35 分鐘

不靠融資、不打廣告,Surge AI 用四年時(shí)間把“高質(zhì)量數(shù)據(jù)標(biāo)注”做成十億美元 ARR 的生意,一舉反超 Scale AI。本文拆解它的技術(shù)壁壘、客戶(hù)打法與反硅谷套路的冷啟動(dòng)心法,看懂如何用“慢就是快”顛覆行業(yè)霸權(quán)。

Surge AI 成立于 2020 年,是一家專(zhuān)注于數(shù)據(jù)標(biāo)注的公司。自成立以來(lái),主創(chuàng)團(tuán)隊(duì)都極為低調(diào),社交平臺(tái)上鮮有公開(kāi)動(dòng)態(tài)。即便如此,Surge AI 仍在短短幾年內(nèi)實(shí)現(xiàn)了業(yè)績(jī)大爆發(fā),并成為業(yè)內(nèi)公認(rèn)的“領(lǐng)域最大且最好的玩家”。截至 2024 年,Surge AI 的 ARR 已突破 10 億美元,超越了行業(yè)巨頭 Scale AI 的 8.7 億美元收入,成為其最大的競(jìng)爭(zhēng)對(duì)手。

這家由前 Google 和 Meta 工程師 Edwin Chen 創(chuàng)立的公司,核心定位是為 AI 模型提供高質(zhì)量數(shù)據(jù)標(biāo)注服務(wù),尤其在自然語(yǔ)言處理(NLP)、對(duì)抗性訓(xùn)練(Adversarial Training)和強(qiáng)化學(xué)習(xí)中的人類(lèi)反饋(RLHF)等方面構(gòu)建了扎實(shí)的技術(shù)能力,成為支撐模型迭代與突破過(guò)程中的重要一環(huán)。

Surge AI 的客戶(hù)覆蓋 Google、OpenAI、Anthropic、Meta、Microsoft 等頂級(jí)科技公司和研究機(jī)構(gòu),公司強(qiáng)調(diào)“數(shù)據(jù)質(zhì)量決定野心的上限”,堅(jiān)決反對(duì)“規(guī)?;幚砝鴶?shù)據(jù)提煉價(jià)值” 的模式,強(qiáng)調(diào)高質(zhì)量數(shù)據(jù)必須蘊(yùn)含人類(lèi)的智慧、情感與深度洞察。

2025 年 6 月 12 日,Meta 確認(rèn)以 140 億美元投資 Scale AI,收購(gòu)其 49% 無(wú)投票權(quán)股份,引發(fā)了行業(yè)格局劇震。Google 等 Scale AI 核心客戶(hù)因數(shù)據(jù)安全與研究獨(dú)立性考量暫停合作,轉(zhuǎn)向?qū)ふ揖邆涓咦灾骺刂茩?quán)的替代供應(yīng)商。

借此契機(jī),Surge AI 于 2025 年 7 月宣布啟動(dòng)首次外部融資,計(jì)劃募集最多 10 億美元,目標(biāo)估值超 150 億美元,資金將重點(diǎn)投向運(yùn)營(yíng)規(guī)模擴(kuò)張與數(shù)據(jù)集多樣化建設(shè)。此次融資不僅是公司發(fā)展的里程碑,更標(biāo)志著 AI 行業(yè)進(jìn)入關(guān)鍵節(jié)點(diǎn)。

Surge AI 的押注清晰可見(jiàn):高質(zhì)量數(shù)據(jù)將成為 AGI 競(jìng)賽的關(guān)鍵紐帶,而語(yǔ)義理解、基礎(chǔ)數(shù)據(jù)質(zhì)量與人類(lèi)洞察力的融合,正是突破當(dāng)前瓶頸的核心所在。

本文將聚焦 Surge AI 的成長(zhǎng)軌跡,深入探討其如何在激烈的行業(yè)競(jìng)爭(zhēng)中嶄露頭角,并解碼這家拒絕炒作、長(zhǎng)期未依賴(lài)外部融資的公司,憑借硬實(shí)力成長(zhǎng)為頭號(hào)玩家的核心邏輯。

01.數(shù)據(jù)標(biāo)注市場(chǎng)

數(shù)據(jù)標(biāo)注市場(chǎng)的分化

數(shù)據(jù)標(biāo)注公司大致分化為兩類(lèi):一類(lèi)是 BPO 的“人力中介”,如 Genpact、TaskUs、Teleperformance 等,依靠“堆人”實(shí)現(xiàn)規(guī)模化、標(biāo)準(zhǔn)化。另一類(lèi)是 AI-native 的“加工廠”,以 Scale AI 和 Surge AI 為代表,通過(guò)提供從篩選人才、訓(xùn)練數(shù)據(jù)到微調(diào)模型的全流程服務(wù),來(lái)應(yīng)對(duì)市場(chǎng)在快速迭代下的復(fù)雜需求。

然而,這兩類(lèi)模式存在本質(zhì)的差異。前者偽裝成科技公司,其實(shí)交付的本質(zhì)是人?!昂Y選高學(xué)歷者進(jìn)行標(biāo)注”無(wú)法與“能夠交付優(yōu)質(zhì)數(shù)據(jù)”劃等號(hào):一方面,高質(zhì)量人才識(shí)別本身極具挑戰(zhàn),即便是頂尖院校畢業(yè)生,也存在能力參差不齊的情況:許多計(jì)算機(jī)專(zhuān)業(yè)畢業(yè)生甚至不會(huì)編程。另一方面,藤校的優(yōu)秀人才也可能作弊。比如把賬號(hào)賣(mài)給第三國(guó)的人,或者用大語(yǔ)言模型生成數(shù)據(jù),各種投機(jī)取巧的方法層出不窮。因此,檢測(cè)低質(zhì)量數(shù)據(jù)變得尤為困難。

后者聚焦的是“數(shù)據(jù)”本身,通過(guò)不斷革新技術(shù)來(lái)提升數(shù)據(jù)質(zhì)量與產(chǎn)出效率。例如,通過(guò) A/B 測(cè)試算法或優(yōu)化工具來(lái)提升數(shù)據(jù)質(zhì)量,并不斷調(diào)整員工準(zhǔn)入機(jī)制來(lái)篩選真正頂尖的標(biāo)注人才。在相同的資源投入下,這類(lèi)技術(shù)驅(qū)動(dòng)的數(shù)據(jù)標(biāo)注公司能夠?qū)崿F(xiàn) 10 倍于前者的進(jìn)展速度。

選擇數(shù)據(jù)供應(yīng)商時(shí),客戶(hù)的核心關(guān)注點(diǎn)主要有:

(1)數(shù)據(jù)質(zhì)量;

(2)處理速度與效率;

(3)成本;

(4)可擴(kuò)展性;

(5)合規(guī)安全性;

(6)規(guī)?;芰?;

(7)專(zhuān)業(yè)性。

目前,數(shù)據(jù)標(biāo)注市場(chǎng)還呈現(xiàn)出一個(gè)尤為突出的特征 —— 客戶(hù)關(guān)系的流動(dòng)性極強(qiáng)??蛻?hù)普遍采取 “多供應(yīng)商并行” 策略,避免對(duì)單一供應(yīng)商的過(guò)度依賴(lài)。同時(shí),評(píng)估周期與 AI 開(kāi)發(fā)節(jié)奏深度綁定:隨著新模型發(fā)布或微調(diào)需求的出現(xiàn),客戶(hù)需要重新評(píng)估數(shù)據(jù)源。

模型性能要求、監(jiān)管環(huán)境及 AI 安全標(biāo)準(zhǔn)的不斷升級(jí)也迫使客戶(hù)校驗(yàn)各自供應(yīng)商的適配性。在這種動(dòng)態(tài)調(diào)整中,供應(yīng)商的市場(chǎng)份額由 “適配性” 直接決定,而適配性的重要因素即為“數(shù)據(jù)質(zhì)量”。若某些供應(yīng)商表現(xiàn)突出,則會(huì)獲得更多預(yù)算傾斜,合作份額隨之提升。

人工數(shù)據(jù) or 合成數(shù)據(jù)?

合成數(shù)據(jù)在部分特定場(chǎng)景中雖能發(fā)揮作用,但其實(shí)際價(jià)值仍被行業(yè)高估。大量實(shí)踐案例表明:依賴(lài)海量合成數(shù)據(jù)訓(xùn)練的模型,在真實(shí)世界的落地應(yīng)用中往往表現(xiàn)不盡人意,存在 “狹窄場(chǎng)景崩潰”、“只擅長(zhǎng)回答合成問(wèn)題” 等現(xiàn)象。

Surge 的多家客戶(hù)曾反饋,其提供的數(shù)千條人工數(shù)據(jù)的實(shí)際應(yīng)用價(jià)值遠(yuǎn)超千萬(wàn)級(jí)規(guī)模的合成數(shù)據(jù)。更值得警惕的是,一旦向模型輸入存在偏差的合成數(shù)據(jù),后續(xù)需耗費(fèi)極高成本才能清理這些數(shù)據(jù)留下的 “隱患”。這一有趣現(xiàn)象的關(guān)鍵在于:合成數(shù)據(jù)受限于生成邏輯的固有局限,難以覆蓋真實(shí)世界的復(fù)雜性,因此無(wú)法提供模型所需的泛化能力,最終導(dǎo)致模型在真實(shí)場(chǎng)景中水土不服。

因此,人工數(shù)據(jù)與合成數(shù)據(jù)的互補(bǔ)尤為重要。短期看,人工數(shù)據(jù)仍是剛需,尤其在高敏感場(chǎng)景中更具準(zhǔn)確性和倫理適配性。長(zhǎng)期而言,未來(lái)終將發(fā)展為 “合成數(shù)據(jù)規(guī)?;?+ 人工數(shù)據(jù)深耕精細(xì)領(lǐng)域” 的狀態(tài)。

以下為三種數(shù)據(jù)類(lèi)型的優(yōu)劣勢(shì)及適用場(chǎng)景:

1. 人工數(shù)據(jù)

核心優(yōu)勢(shì):

(1)準(zhǔn)確性高,能減少 AI 幻覺(jué)和偏見(jiàn)

(2)擅長(zhǎng)捕捉語(yǔ)義細(xì)微差別、文化敏感性及倫理考量

(3)多人協(xié)作可應(yīng)對(duì)復(fù)雜場(chǎng)景,合規(guī)性易落地

主要痛點(diǎn):

(1)成本高昂、耗時(shí)久、規(guī)?;y度大

(2)存在主觀偏見(jiàn)風(fēng)險(xiǎn)

適用場(chǎng)景:

(1)情感識(shí)別、倫理判斷等需深度語(yǔ)義理解的任務(wù)

(2)醫(yī)療、金融等強(qiáng)監(jiān)管領(lǐng)域

(3)跨文化、多模態(tài)數(shù)據(jù)標(biāo)注

2.合成數(shù)據(jù)

核心優(yōu)勢(shì):

(1)速度快、成本低、易規(guī)模化

(2)可通過(guò)編程實(shí)現(xiàn)理論上的數(shù)據(jù)多樣性

(3)適用于快速測(cè)試與預(yù)訓(xùn)練,避免依賴(lài)專(zhuān)有數(shù)據(jù)

主要痛點(diǎn):

(1)難以處理語(yǔ)義細(xì)微差別

(2)信任度相對(duì)較低,存在接受壁壘

(3)透明度缺失易引發(fā)爭(zhēng)議

適用場(chǎng)景:

(1)快速測(cè)試、模擬交互場(chǎng)景

(2)AI 預(yù)訓(xùn)練(避免依賴(lài)專(zhuān)有數(shù)據(jù))

(3)非敏感領(lǐng)域的規(guī)模化數(shù)據(jù)補(bǔ)充

3. 混合方案(人工 + 合成)

核心優(yōu)勢(shì):

(1)結(jié)合合成數(shù)據(jù)的規(guī)?;瘍?yōu)勢(shì)與人工數(shù)據(jù)的質(zhì)量把控

(2)醫(yī)療等領(lǐng)域可通過(guò) “合成預(yù)訓(xùn)練 + 人工微調(diào)” 平衡效率與合規(guī)性

主要痛點(diǎn):

(1)需平衡兩類(lèi)數(shù)據(jù)的整合成本

(2)需建立明確的分工機(jī)制(如合成負(fù)責(zé)量、人工負(fù)責(zé)質(zhì))

適用場(chǎng)景:

(1)需兼顧效率與準(zhǔn)確性的通用場(chǎng)景(如客服對(duì)話訓(xùn)練)

(2)醫(yī)療影像識(shí)別(合成數(shù)據(jù)擴(kuò)展樣本量 + 人工校準(zhǔn)關(guān)鍵病例)

通用數(shù)據(jù)觸頂,垂類(lèi)數(shù)據(jù)成為增長(zhǎng)點(diǎn)

Chinchilla 相關(guān)論文指出,訓(xùn)練 LLM 時(shí)會(huì)存在規(guī)模瓶頸,當(dāng)互聯(lián)網(wǎng)上的數(shù)據(jù)被爬取完畢,模型訓(xùn)練的數(shù)據(jù)來(lái)源便會(huì)觸及上限。未來(lái),數(shù)據(jù)標(biāo)注市場(chǎng)的增長(zhǎng)將更多集中于垂直領(lǐng)域和長(zhǎng)尾領(lǐng)域。其中,醫(yī)療和金融領(lǐng)域是核心增長(zhǎng)點(diǎn)。

例如,在醫(yī)療領(lǐng)域,為確保醫(yī)療數(shù)據(jù)的準(zhǔn)確性和合規(guī)性,數(shù)據(jù)供應(yīng)商需雇傭經(jīng)驗(yàn)豐富的醫(yī)療專(zhuān)家,負(fù)責(zé)評(píng)審 MRI 的 2D、3D 圖像等專(zhuān)業(yè)內(nèi)容。同時(shí),還需聘請(qǐng)專(zhuān)業(yè)人士對(duì)醫(yī)療文件進(jìn)行細(xì)致標(biāo)注。這類(lèi)工作對(duì)標(biāo)注員的醫(yī)學(xué)背景、行業(yè)經(jīng)驗(yàn)要求極高,難以被通用模型或基礎(chǔ)標(biāo)注服務(wù)替代。

與垂直領(lǐng)域形成鮮明對(duì)比的是,通用領(lǐng)域的標(biāo)注需求增長(zhǎng)將越來(lái)越平緩。例如,“數(shù)學(xué)計(jì)算是否正確” 、“美國(guó)總統(tǒng)是誰(shuí)”這類(lèi)基礎(chǔ)問(wèn)題,目前已有非常成熟的基礎(chǔ)模型能夠生成高質(zhì)量答案。

02.創(chuàng)立 Surge的初衷:為優(yōu)質(zhì)數(shù)據(jù)而來(lái)

Surge 的創(chuàng)始人 Edwin Chen 曾在大廠做 Machine Learning 工程師時(shí)遇到最大的困難就是:無(wú)法獲得模型訓(xùn)練所需要的數(shù)據(jù)。他在 Twitter 任職時(shí),試圖利用廣告系統(tǒng)構(gòu)建情感分類(lèi)器,該分類(lèi)器僅需 10,000 條標(biāo)注數(shù)據(jù),卻因人力數(shù)據(jù)系統(tǒng)低效導(dǎo)致交付周期長(zhǎng)達(dá)數(shù)月,且標(biāo)注質(zhì)量堪憂,存在俚語(yǔ)誤判、標(biāo)簽理解偏差等現(xiàn)象。彼時(shí)正值 GPT-3 發(fā)布,各行業(yè)對(duì)優(yōu)質(zhì)數(shù)據(jù)的需求爆發(fā)式增長(zhǎng)。

基于上述痛點(diǎn),Edwin 的構(gòu)想是:組建由哲學(xué)家、工程師、常春藤盟校畢業(yè)生等構(gòu)成的標(biāo)注團(tuán)隊(duì),滿(mǎn)足模型對(duì)高質(zhì)量數(shù)據(jù)的需求。同時(shí),開(kāi)發(fā)任務(wù)分配軟件,結(jié)合標(biāo)準(zhǔn)化培訓(xùn),確保標(biāo)注員掌握統(tǒng)一標(biāo)準(zhǔn),從而提升標(biāo)注效率與質(zhì)量。于是,Edwin 創(chuàng)辦了 Surge AI。

Surge 走出了一條與硅谷普遍創(chuàng)業(yè)邏輯截然不同的道路。硅谷文化中,“先籌錢(qián)建立身份、再推進(jìn)創(chuàng)業(yè)項(xiàng)目” 是常見(jiàn)做法,而 Edwin 反其道而行之,他選擇跳出融資游戲,在創(chuàng)業(yè)初期 Bootstrap 并專(zhuān)注于打造最小可行性產(chǎn)品(MVP),快速測(cè)試市場(chǎng)需求,再依靠產(chǎn)品實(shí)力留存用戶(hù)。這種策略成效顯著,在 Surge 成立一個(gè)月后,就已經(jīng)實(shí)現(xiàn)了盈利。

Surge 的 moat 源于 Edwin 這份對(duì)數(shù)據(jù)質(zhì)量的執(zhí)著:不急于競(jìng)逐,堅(jiān)守“質(zhì)量大于一切”的原則。相比于大規(guī)模營(yíng)銷(xiāo)、快速搶占市場(chǎng)的策略,Surge 注重早期客戶(hù)的質(zhì)量與價(jià)值共鳴,致力于為少數(shù)“真正認(rèn)同數(shù)據(jù)價(jià)值”的客戶(hù)交付解決方案,再借助客戶(hù)的真實(shí)反饋優(yōu)化產(chǎn)品。Edwin 曾強(qiáng)調(diào):即便需要推遲進(jìn)度,也不會(huì)為了趕時(shí)間而犧牲質(zhì)量。

正因此,客戶(hù)在與 Surge 合作后,便能即刻感受到天壤之別。優(yōu)質(zhì)體驗(yàn)已成為 Surge 的核心競(jìng)爭(zhēng)力標(biāo)簽,并逐漸發(fā)展為業(yè)內(nèi)公認(rèn)的“領(lǐng)域最大且最好的玩家”。Edwin 曾在訪談中驕傲的談?wù)摰剑好慨?dāng)客戶(hù)發(fā)布下一個(gè)大模型時(shí),他們最先做的事情之一就是聯(lián)系我并告訴我,“嘿,只想告訴你,我們沒(méi)有你就做不到這一點(diǎn)。”

03.高質(zhì)量交付背后的底層技術(shù)

客戶(hù)評(píng)價(jià)中存在一個(gè)普遍共識(shí):在對(duì)語(yǔ)意理解的精準(zhǔn)度要求較高時(shí),Surge 是首選方案。Surge 聚合了各垂直領(lǐng)域的頂尖標(biāo)注專(zhuān)家,并借助 ML 和 RLFH 技術(shù)來(lái)讓 AI 捕捉專(zhuān)家們的決策邏輯,從而迭代 AI 自身的標(biāo)注能力。最終實(shí)現(xiàn)“專(zhuān)家?guī)Ы?AI –> AI 批量復(fù)制專(zhuān)家–>專(zhuān)家聚焦解決困難問(wèn)題”的閉環(huán)。

Surge 認(rèn)為,構(gòu)建模型的本質(zhì)是對(duì)語(yǔ)言的理解和處理,涉及到對(duì)意圖的準(zhǔn)確識(shí)別和執(zhí)行。尤其在特定垂直領(lǐng)域(如醫(yī)療、金融、STEM 等),看似簡(jiǎn)單的命令實(shí)際上承載了復(fù)雜的意圖。

金融領(lǐng)域中一句 “優(yōu)先處理這筆轉(zhuǎn)賬”,可能隱含對(duì)客戶(hù)信用等級(jí)、實(shí)時(shí)市場(chǎng)波動(dòng)的綜合判斷。醫(yī)療場(chǎng)景中 “調(diào)整用藥劑量” 的指令需要評(píng)估病情階段和藥物的相互作用,理解這些意圖是實(shí)現(xiàn)有效溝通和操作的關(guān)鍵。因此,為了提供更優(yōu)質(zhì)的數(shù)據(jù),Surge 在語(yǔ)言理解方面下了很多功夫,在 text-based areas 表現(xiàn)尤為出色。

母語(yǔ)級(jí)的標(biāo)注團(tuán)隊(duì):捕捉語(yǔ)言細(xì)微差別

LLM 的安全合規(guī)問(wèn)題日益嚴(yán)重,主流毒性檢測(cè)模型(如 Google Jigsaw 的 Perspective API)的局限性逐步顯現(xiàn),這些模型如同只會(huì)查詞典的質(zhì)檢員。由于過(guò)度依賴(lài) “褻瀆詞匹配”的機(jī)械邏輯,而非對(duì)完整語(yǔ)境的理解,導(dǎo)致大量誤判行為出現(xiàn)。明明是中性表達(dá)卻因個(gè)別詞匯被標(biāo)記為毒性?xún)?nèi)容,真實(shí)的語(yǔ)境情緒被粗暴曲解,偏見(jiàn)與檢測(cè)標(biāo)準(zhǔn)漂移等問(wèn)題隨之而來(lái)。

Surge AI 則擅長(zhǎng)辨識(shí)語(yǔ)言中的 nuance ,通過(guò)針對(duì)性測(cè)試篩選標(biāo)注員,并組建了以本土英語(yǔ)母語(yǔ)者為核心的標(biāo)注團(tuán)隊(duì)(Surgers)。例如,某道測(cè)試題要求標(biāo)注員準(zhǔn)確理解 “Yay, cold McDonald’s。 My favorite.” 這類(lèi)看似褒義、實(shí)則反諷的表達(dá)。標(biāo)注團(tuán)隊(duì)還需要在社交媒體、論壇等多元場(chǎng)景中積累經(jīng)驗(yàn),確保團(tuán)隊(duì)具備解讀 sarcasm(諷刺)、slang(俚語(yǔ))、idiom(習(xí)語(yǔ))、文化梗的能力,做到從源頭降低誤標(biāo)風(fēng)險(xiǎn)。

與單一 “毒性評(píng)分” 模式不同,Surge AI 在標(biāo)注過(guò)程中還引入了 “情感傾向”、“意圖判斷”、“受眾影響” 等多維度進(jìn)行評(píng)估,其目的是精準(zhǔn)區(qū)分 “非毒性 profanity”(如粉絲對(duì)偶像的熱情表達(dá))與 “毒性 profanity”(如惡意攻擊)。

Surge 的標(biāo)注團(tuán)隊(duì)能結(jié)合社區(qū)語(yǔ)境解讀專(zhuān)業(yè)黑話(如健身社區(qū)中 “traps” 指斜方肌)和 meme 文化(常用反諷、隱喻、諧音等語(yǔ)氣),對(duì)文本進(jìn)行穿透理解。以文本 “his traps hide the fucking sun” 為例,這句話用極端夸張、粗獷的語(yǔ)氣形容肌肉的壯碩,本質(zhì)與中文里夸贊健身達(dá)人“塊頭大到遮天蔽日” 異曲同工,絕非貶義表達(dá)。對(duì)比之下,在 Google GoEmotions 數(shù)據(jù)集在處理同類(lèi)文本時(shí),將其機(jī)械誤標(biāo)為 “中性” 或 “憤怒”,暴露出傳統(tǒng)標(biāo)注模式在復(fù)雜語(yǔ)言場(chǎng)景中的局限性。

人機(jī)協(xié)同只為打造無(wú)偏數(shù)據(jù)集

Surge AI 針對(duì) LLM 需求設(shè)計(jì)了專(zhuān)屬工具鏈。先通過(guò) AI 預(yù)測(cè)工具自動(dòng)篩選高風(fēng)險(xiǎn)樣本(如情感傾向模糊的文本),再觸發(fā)人工審核進(jìn)行二次識(shí)別。這種機(jī)制能有效過(guò)濾低質(zhì)量數(shù)據(jù),避免因數(shù)據(jù)問(wèn)題導(dǎo)致模型訓(xùn)練倒退。一位谷歌資深軟件工程師曾說(shuō):一旦向模型輸入劣質(zhì)數(shù)據(jù),后續(xù)需要付出多得多的努力才能彌補(bǔ)。

在一個(gè)實(shí)際案例中, Surge AI 將“how dare you” 歸屬為 mock anger 語(yǔ)氣(為了特定目的如調(diào)侃、夸張表達(dá)、營(yíng)造幽默效果等而非真的憤怒),隨后系統(tǒng)自動(dòng)將其標(biāo)記為高風(fēng)險(xiǎn),并分配 2 名人工標(biāo)注員進(jìn)行交叉驗(yàn)證。最終,原本可能被誤標(biāo)為 “憤怒” 的數(shù)據(jù)被修正為了“調(diào)侃”,避免了因語(yǔ)氣誤讀導(dǎo)致的標(biāo)注偏差。

同時(shí),Surge AI 摒棄了 “孤立文本標(biāo)注” 的傳統(tǒng)模式,強(qiáng)調(diào)結(jié)合上下文(context)標(biāo)注。其關(guān)鍵在于為標(biāo)注員提供豐富的元數(shù)據(jù)支持,包括社交網(wǎng)絡(luò)中評(píng)論的子版塊信息、父帖內(nèi)容(parent post)及圖片鏈接等,只為更精準(zhǔn)的捕捉語(yǔ)言在不同場(chǎng)景下的特定情緒。

這一設(shè)計(jì)效果顯著,例如處理文本 “We SERIOUSLY NEED to have Jail Time based on a person’s race” 時(shí),標(biāo)注員通過(guò)結(jié)合 “奇幻世界構(gòu)建” 子版塊的上下文,可以判斷文本其實(shí)是虛構(gòu)討論而非種族歧視,從而避免了脫離場(chǎng)景的誤判。

Surge AI 還引入了紅隊(duì)測(cè)試(Red-teaming)機(jī)制,主動(dòng)挖掘模型的安全漏洞。標(biāo)注員不斷模擬 “攻擊” 場(chǎng)景,來(lái)幫助客戶(hù)提前識(shí)別潛在風(fēng)險(xiǎn)、修補(bǔ)安全防御。這一服務(wù)拓展了 Surge AI 的價(jià)值邊界,成為客戶(hù)認(rèn)可的差異化壁壘。

偏見(jiàn)非敵人,但需管控

Surge 將偏見(jiàn)(model bias)管控作為重點(diǎn)投入之一,以確保數(shù)據(jù)集的高完整性與透明度。

在與客戶(hù)合作中,Surge 會(huì)先建立一個(gè)深度覆蓋的樣本庫(kù)。對(duì)于樣本庫(kù)里涉及敏感問(wèn)題的項(xiàng)目,將確保其覆蓋所有群體,而非僅主流群體。例如,團(tuán)隊(duì)在幫助客戶(hù)處理全美人口敏感問(wèn)題時(shí),能夠精細(xì)到各個(gè)小塊區(qū)域的群體特征,避免因覆蓋不全導(dǎo)致的偏見(jiàn)問(wèn)題。

另一個(gè)偏見(jiàn)緩解措施是設(shè)立專(zhuān)家審核員,實(shí)施 “動(dòng)態(tài)調(diào)整審核比例” 策略。初期階段,審核比例較高,需要確保覆蓋更多潛在偏見(jiàn),隨著項(xiàng)目的推進(jìn),審核比例逐步下降至最終的 2%。針對(duì)高風(fēng)險(xiǎn)場(chǎng)景,Surge 會(huì)啟動(dòng)強(qiáng)化監(jiān)控,結(jié)合統(tǒng)計(jì)數(shù)據(jù)分析與持續(xù)審核,主動(dòng)預(yù)防有害偏見(jiàn)的產(chǎn)生。

對(duì)于模型偏見(jiàn)問(wèn)題,Surge 認(rèn)為其并非絕對(duì)負(fù)面。在特定場(chǎng)景下,可控的偏見(jiàn)可能產(chǎn)生積極作用,增強(qiáng)模型的謹(jǐn)慎性或進(jìn)取心。基于此,團(tuán)隊(duì)結(jié)合具體場(chǎng)景靈活地判斷偏見(jiàn)的適當(dāng)性,再通過(guò)專(zhuān)家介入實(shí)現(xiàn)針對(duì)性糾正,既避免有害偏見(jiàn),又充分利用偏見(jiàn)的正向價(jià)值,形成適配不同需求的解決方案。

速度即護(hù)城河

在 “時(shí)間即競(jìng)爭(zhēng)力” 的 AI 賽道,數(shù)據(jù)交付效率會(huì)轉(zhuǎn)化為市場(chǎng)份額與定價(jià)權(quán)。大模型公司需快速設(shè)計(jì)并啟動(dòng)新任務(wù),而非耗費(fèi)數(shù)月編寫(xiě)指南。

Surge 的快速交付能力體現(xiàn)在兩方面:其一,API 與 RLHF 接口具備高度適應(yīng)性,可快速集成至客戶(hù)現(xiàn)有工具鏈,既能穩(wěn)定支撐長(zhǎng)期任務(wù),又能實(shí)現(xiàn)新任務(wù)的即時(shí)啟動(dòng)。其二,通用任務(wù)中搭載的 AI 準(zhǔn)確性校驗(yàn)工具,大幅縮短了質(zhì)量審核周期,滿(mǎn)足前沿實(shí)驗(yàn)室 “每周迭代新項(xiàng)目” 的速度需求,推動(dòng)測(cè)試結(jié)果交付速度領(lǐng)先同行。

某個(gè)客戶(hù)的合作案例直觀體現(xiàn)了交付速度的重要性:在 5000 條多輪對(duì)話情感標(biāo)注任務(wù)中,客戶(hù)采用 “200 條 / 批” 的漸進(jìn)式分配策略,僅向通過(guò)質(zhì)量審核的供應(yīng)商續(xù)發(fā)任務(wù)。首批完成交付的供應(yīng)商,將會(huì)獲得更多的合作機(jī)會(huì)。反之,將逐步被客戶(hù)淘汰。

隱私剛需時(shí)代:打開(kāi)溢價(jià)空間

在數(shù)據(jù)合規(guī)性的橫向比較中,Scale AI 的風(fēng)險(xiǎn)敞口相對(duì)突出。其核心短板源于:許多客戶(hù)因數(shù)據(jù)隱私問(wèn)題減少了與之合作的比例。

當(dāng)前,從歐盟 GDPR 對(duì)數(shù)據(jù)最小化的要求,到美國(guó)各州對(duì)用戶(hù)數(shù)據(jù)控制權(quán)的強(qiáng)化。大規(guī)模的數(shù)據(jù)采集、存儲(chǔ)與使用正面臨前所未有的審視。

相比之下,Surge 的合規(guī)優(yōu)勢(shì)源于成立之初的戰(zhàn)略前瞻性:從架構(gòu)設(shè)計(jì)階段即錨定 GDPR、HIPAA 等規(guī)則的嚴(yán)苛標(biāo)準(zhǔn)。這種 “合規(guī)先行” 的要求更加適配高敏感場(chǎng)景,成功了吸引對(duì)數(shù)據(jù)隱私有極致要求的客戶(hù)(如 Anthropic)。

Surge 產(chǎn)品與增長(zhǎng)負(fù)責(zé)人 Bradley 明確將數(shù)據(jù)隱私列為業(yè)務(wù)擴(kuò)張的前提,這種長(zhǎng)期主義正在轉(zhuǎn)化為競(jìng)爭(zhēng)壁壘。尤其在強(qiáng)監(jiān)管的行業(yè),合規(guī)資質(zhì)已成為進(jìn)入門(mén)檻。而隨著全球 AI 法案(如歐盟 AI Act)陸續(xù)落地,早期合規(guī)投入不僅降低了監(jiān)管風(fēng)險(xiǎn),更在 “隱私成為剛需” 的市場(chǎng)中打開(kāi)了溢價(jià)空間。

04.客戶(hù)案例 1:為 OpenAI 構(gòu)建 GSM8K 小學(xué)數(shù)學(xué)數(shù)據(jù)集

OpenAI 的強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)為訓(xùn)練 LLM 需要一個(gè)高質(zhì)量的小學(xué)數(shù)學(xué)問(wèn)題數(shù)據(jù)集,用于模型訓(xùn)練與推理能力評(píng)估。該數(shù)據(jù)集需覆蓋多樣化的場(chǎng)景,且能精準(zhǔn)反映 “多步驟推理” 過(guò)程。

為滿(mǎn)足 OpenAI 的需求,Surge 從團(tuán)隊(duì)組建、流程設(shè)計(jì)、質(zhì)量管控三個(gè)維度制定了系統(tǒng)性方案。這一數(shù)據(jù)集最終被命名為 “GSM8K”(Grade School Math 8K),計(jì)劃包含 8500 道小學(xué)數(shù)學(xué)應(yīng)用題及對(duì)應(yīng)解題步驟。

Surge 優(yōu)先選擇具備數(shù)學(xué)或 STEM 學(xué)位的標(biāo)注員,如來(lái)自 MIT 等藤校的大學(xué)生。這類(lèi)人才不僅能降低計(jì)算錯(cuò)誤率,還能創(chuàng)造多元化的問(wèn)題場(chǎng)景。所有標(biāo)注員需提交 5 道試寫(xiě)題目,經(jīng)另一名資深標(biāo)注員審核通過(guò)后才可加入團(tuán)隊(duì)。

Surge 制定了明確的數(shù)據(jù)集標(biāo)準(zhǔn),具體包含以下要求:

1. 所有題目在解答過(guò)程中都應(yīng)包含 2-8 個(gè)步驟。

2. 所有計(jì)算都要簡(jiǎn)單到不用計(jì)算器就能心算得出(例如 7×8、36+110)。

3. 答案應(yīng)為單一整數(shù)。題目中需明確任何單位(例如 “羅伯特有多少美元?”) . 題目中的中間步驟可以出現(xiàn)簡(jiǎn)單小數(shù)(如 3.25),但最終答案必須是整數(shù)。

4. 如果是通過(guò) 8/2 的計(jì)算得出杰森有 4 個(gè)蘋(píng)果,那么寫(xiě)成 “杰森有 8/2=4 個(gè)蘋(píng)果” 比寫(xiě)成 “杰森有 4 個(gè)蘋(píng)果” 更合適。

5. 僅使用基本算術(shù)運(yùn)算:加、減、乘、除。

6. 不能重復(fù)使用題目場(chǎng)景。如果剛寫(xiě)了一道關(guān)于薩曼莎去動(dòng)物園的題目,就不要再寫(xiě)另一道以該場(chǎng)景為前提的題目。

對(duì)于數(shù)據(jù)集的質(zhì)量管控,Surge 針對(duì)可能存在歧義的問(wèn)題,要求由兩名標(biāo)注員獨(dú)立解題,若答案不一致則判定為 “歧義問(wèn)題” 并要求修改。同時(shí),通過(guò) “句子嵌入 + 余弦相似度” 計(jì)算過(guò)濾場(chǎng)景相似的問(wèn)題,例如兩道均為 “購(gòu)買(mǎi)物品計(jì)算總價(jià)” 的題目,如果只是問(wèn)法不同,也會(huì)因相似度超閾值被剔除。

最終,項(xiàng)目交付的 GSM8K 數(shù)據(jù)集包含 8500 道題,每道題均通過(guò)了 “試寫(xiě)審核→歧義檢測(cè)→重復(fù)過(guò)濾” 三層校驗(yàn)。這一數(shù)據(jù)集不僅被 OpenAI 用于 GPT-3 訓(xùn)練,還被 Google 等機(jī)構(gòu)采納,成為 LLM 推理能力評(píng)估的標(biāo)桿數(shù)據(jù)集,廣泛應(yīng)用于 PaLM 模型(5400 億參數(shù))和 Chain of Thought 相關(guān)研究。

05.客戶(hù)案例 2:Anthropic 訓(xùn)練 Claude 背后的數(shù)據(jù)引擎

Anthropic 是由前 OpenAI 和 Google Brain 研究人員創(chuàng)立的全球領(lǐng)先 AI 公司,核心產(chǎn)品為安全且高性能的大語(yǔ)言模型 Claude,致力于通過(guò) RLHF ?訓(xùn)練 “有益且無(wú)害” 的通用語(yǔ)言助手。

然而,隨著訓(xùn)練難度的升級(jí),Anthropic 面臨的挑戰(zhàn)包括三方面:

1. 高質(zhì)量規(guī)?;祟?lèi)反饋數(shù)據(jù)獲取困難,現(xiàn)有平臺(tái)難以滿(mǎn)足復(fù)雜場(chǎng)景(如專(zhuān)業(yè)領(lǐng)域?qū)υ挕⒌赖屡袛啵┑木珳?zhǔn)需求。

2. 搭建 robust 的質(zhì)量控制體系難度大,低質(zhì)量數(shù)據(jù)會(huì)嚴(yán)重影響大語(yǔ)言模型性能。

3. 開(kāi)發(fā)專(zhuān)屬標(biāo)注工具需占用核心研究資源,導(dǎo)致效率低下。

為此,Surge 為 Anthropic 提供解決方案,幫助 Claude 實(shí)現(xiàn)性能突破。其中,最具差異化的特點(diǎn)包括:

1. 由科學(xué)家團(tuán)隊(duì)打造專(zhuān)有質(zhì)控技術(shù),可精準(zhǔn)過(guò)濾低質(zhì)量數(shù)據(jù)。

2. 領(lǐng)域?qū)<覙?biāo)注團(tuán)隊(duì),覆蓋法律、醫(yī)學(xué)、STEM 等多領(lǐng)域。

3. 快速實(shí)驗(yàn)接口,支持任務(wù)快速啟動(dòng),<1-2 周即可完成數(shù)據(jù)質(zhì)量評(píng)估。

4. 基于數(shù)百次內(nèi)部實(shí)驗(yàn)的 RLHF 專(zhuān)業(yè)經(jīng)驗(yàn),確保數(shù)據(jù)質(zhì)量穩(wěn)定可靠。

這次強(qiáng)強(qiáng)聯(lián)手印證了 RLHF 對(duì) LLM 升級(jí)的核心價(jià)值,也凸顯了 Surge 在 “人類(lèi)反饋 + 技術(shù)支撐” 領(lǐng)域的優(yōu)勢(shì)。

Anthropic 的 co-founder Jared Kaplan 曾說(shuō):“Surge AI 的人類(lèi)數(shù)據(jù)標(biāo)注平臺(tái)經(jīng)過(guò)量身定制,能夠提供前沿 AI 研究所需的獨(dú)特、高質(zhì)量反饋。在支持我們的 AI 技術(shù)對(duì)齊研究方面,Surge AI 是我們的絕佳合作伙伴?!?/p>

06.創(chuàng)始人團(tuán)隊(duì)

Edwin Chen

創(chuàng)始人兼 CEO,前 Google、Facebook、Twitter 機(jī)器學(xué)習(xí)和內(nèi)容審核團(tuán)隊(duì)負(fù)責(zé)人,畢業(yè)于麻省理工學(xué)院,擁有數(shù)學(xué)、計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)復(fù)合學(xué)科背景。讀書(shū)期間,他參與了 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究工作,專(zhuān)注于算法交易、理論計(jì)算等領(lǐng)域。

Edwin 的職業(yè)生涯跨越了多個(gè)頂級(jí)科技公司:早年以研究實(shí)習(xí)生身份參與了微軟多項(xiàng)技術(shù)研究,轉(zhuǎn)戰(zhàn) Twitter 期間,作為廣告質(zhì)量團(tuán)隊(duì)成員聚焦廣告投放效果的優(yōu)化。隨后在 Google 和 Facebook 深度參與了搜索算法研究與數(shù)據(jù)分析等工作。

他憑借在 NLP 和 data labeling 領(lǐng)域的技術(shù)積累屢有突破性發(fā)現(xiàn):他曾發(fā)現(xiàn) Google 的 “GoEmotions” 數(shù)據(jù)集存在約三分之一的標(biāo)簽錯(cuò)誤,這一發(fā)現(xiàn)引爆了業(yè)界對(duì)數(shù)據(jù)質(zhì)量的關(guān)注。他還深入探討了困惑度(perplexity)等評(píng)估指標(biāo)在語(yǔ)言模型中的應(yīng)用,為 AI 模型的性能評(píng)估提供了新的視角。

Edwin 曾是 Medium 上活躍的 blogger,但自從創(chuàng)建 Surge AI,他的賬號(hào)鮮有更新。隨著公司逐步躋身行業(yè)領(lǐng)先梯隊(duì),他更是在主流社交媒體中消失,將重心全然投入到公司運(yùn)營(yíng)和戰(zhàn)略增長(zhǎng)之中,成為硅谷圈中難得的清流。

盡管他始終保持低調(diào),卻仍被圈內(nèi)人熟識(shí)。他所堅(jiān)持的經(jīng)營(yíng)理念是:Surge AI 立志通過(guò)優(yōu)質(zhì)服務(wù)與硬核成果贏得市場(chǎng)聲譽(yù),而非依賴(lài)流量宣傳或話題炒作??蛻?hù)評(píng)價(jià)中: “Edwin 從不上網(wǎng),哪兒都找不到他,但我們就喜歡這樣”,恰恰印證了這一理念的市場(chǎng)共鳴:在數(shù)據(jù)服務(wù)領(lǐng)域,沉默的實(shí)干遠(yuǎn)比喧囂的營(yíng)銷(xiāo)更具說(shuō)服力。

Andrew Mauboussin

工程團(tuán)隊(duì)負(fù)責(zé)人,前 Twitter 機(jī)器學(xué)習(xí)工程師(領(lǐng)導(dǎo)垃圾郵件和內(nèi)容審核的機(jī)器學(xué)習(xí)項(xiàng)目),畢業(yè)于哈佛大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)。在團(tuán)隊(duì)中,他負(fù)責(zé)實(shí)時(shí)人類(lèi)計(jì)算 API 和 30+ 語(yǔ)言的國(guó)際化數(shù)據(jù)收集,推動(dòng)了公司技術(shù)架構(gòu)、ML 和平臺(tái) infra 層面的進(jìn)步。

Andrew 是 Surge AI “對(duì)外發(fā)言人”,在官網(wǎng)的 blog ?中發(fā)表了多篇重磅級(jí)文章,深入探討了模型性能評(píng)估、數(shù)據(jù)集質(zhì)量分析和 AI 安全性等主題。

Bradley Webb

產(chǎn)品與增長(zhǎng)負(fù)責(zé)人,前 Facebook 數(shù)據(jù)運(yùn)營(yíng)負(fù)責(zé)人,達(dá)特茅斯學(xué)院 Tuck 商學(xué)院 MBA 畢業(yè),圣地亞哥州立大學(xué)國(guó)際貿(mào)易與商業(yè)經(jīng)濟(jì)學(xué)學(xué)士。在 Surge ?領(lǐng)導(dǎo)產(chǎn)品開(kāi)發(fā)和增長(zhǎng)戰(zhàn)略。

Bradley 的職業(yè)生涯跨越多個(gè)行業(yè)和領(lǐng)域,從技術(shù)到產(chǎn)品,從初創(chuàng)公司到大企業(yè)。作為 Facebook 的前高級(jí)產(chǎn)品經(jīng)理,Bradley 曾親眼見(jiàn)證了公司從最初的 8,000 名員工快速擴(kuò)張至 64,000 人的龐大體量,深度參與了超大規(guī)模組織的成長(zhǎng)歷程。

在此之后,他于房地產(chǎn)技術(shù)公司 AppFolio 進(jìn)一步歷練,擔(dān)任中型市場(chǎng)業(yè)務(wù)部門(mén)負(fù)責(zé)人,掌舵年銷(xiāo)售額達(dá) 8,000 萬(wàn)美元的核心業(yè)務(wù)線。豐富的跨場(chǎng)景實(shí)踐,讓 Bradley 在公司運(yùn)營(yíng)管理與規(guī)?;鲩L(zhǎng)領(lǐng)域積累了全面的經(jīng)驗(yàn)。

隨著 AI 正向 AGI 的目標(biāo)不斷突破,數(shù)據(jù)標(biāo)注行業(yè)亟需具備兩重特質(zhì)的合作伙伴:既有穿越技術(shù)迭代周期的長(zhǎng)遠(yuǎn)視野,又有將數(shù)據(jù)價(jià)值落地為模型核心優(yōu)勢(shì)的執(zhí)行力。

Surge 證明了其價(jià)值交付恰恰立足于此:不追逐概念風(fēng)口,而是通過(guò)高質(zhì)量數(shù)據(jù)供給、耐心傾聽(tīng)客戶(hù)需求,踏實(shí)完善技術(shù)迭代,成為客戶(hù)從數(shù)據(jù)積累到 AGI 演進(jìn)中的 “基礎(chǔ)設(shè)施”。

在行業(yè)充斥流量思維的階段,Surge 的 “反炒作” 基因反而容易建立深度綁定的客戶(hù)關(guān)系。畢竟,AGI 的競(jìng)賽終點(diǎn),從來(lái)不是曝光度,而是誰(shuí)能真正為客戶(hù)構(gòu)建起護(hù)城河。

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!