做語音識(shí)別現(xiàn)在還能融3000萬美金?海外頂級(jí)VC押注AI-Native的語音交互,下一個(gè)操作系統(tǒng)級(jí)的機(jī)會(huì)!

0 評(píng)論 2939 瀏覽 4 收藏 41 分鐘

一家名為Wispr Flow的創(chuàng)業(yè)公司,憑借其創(chuàng)新的語音交互技術(shù),成功完成了3000萬美元的A輪融資。該公司專注于用語音徹底取代鍵盤,通過優(yōu)化“零編輯消息率”,讓用戶能夠像與朋友聊天一樣與計(jì)算機(jī)對(duì)話,極大地提升了交互效率和用戶體驗(yàn)。

你有沒有想過,我們每天敲擊鍵盤的這個(gè)動(dòng)作,可能很快就會(huì)變成歷史?150 年前發(fā)明的鍵盤,竟然仍然是我們與計(jì)算機(jī)交流的主要方式。這件事本身就很荒謬。我們的思維速度遠(yuǎn)遠(yuǎn)超過手指敲擊的速度,而在 2025 年的今天,鍵盤往往成了阻礙我們表達(dá)想法的瓶頸。更諷刺的是,過去 15 年里,由于智能手機(jī)鍵盤的普及,人類的平均打字速度實(shí)際上是在下降的。我們正在倒退,而不是進(jìn)步。

這讓我不禁思考一個(gè)根本性問題:如果你能像和朋友聊天一樣跟計(jì)算機(jī)對(duì)話,會(huì)是什么樣的體驗(yàn)?如果不再需要記住復(fù)雜的快捷鍵、不再需要在密密麻麻的菜單中尋找功能、不再需要為了發(fā)個(gè)消息而在小屏幕上瘋狂點(diǎn)擊,我們的工作和生活會(huì)發(fā)生怎樣的改變?

最近,一家名為 Wispr Flow 的創(chuàng)業(yè)公司剛剛完成了 3000 萬美元的 A 輪融資,由 Menlo Ventures 領(lǐng)投,NEA、8VC、Pinterest 創(chuàng)始人 Evan Sharp、Carta CEO Henry Ward 等知名投資者參與。這家公司正在做一件看似簡(jiǎn)單但實(shí)際上極其復(fù)雜的事:用語音徹底取代鍵盤。

我深入研究了他們的故事后發(fā)現(xiàn),這不僅僅是一次技術(shù)升級(jí),而是一場(chǎng)可能重新定義人機(jī)交互方式的革命。更有趣的是,這個(gè)革命的領(lǐng)導(dǎo)者 Tanay Kothari 有著非凡的經(jīng)歷:9 歲開始編程,12 歲立志成為企業(yè)家,代表印度參加國(guó)際信息學(xué)奧林匹克競(jìng)賽,在斯坦福大學(xué)學(xué)習(xí)期間就已經(jīng)創(chuàng)辦并成功出售了一家公司。而現(xiàn)在,他正在實(shí)現(xiàn)一個(gè)從看《鋼鐵俠》電影時(shí)就萌生的童年夢(mèng)想:構(gòu)建像賈維斯那樣能夠真正理解人類意圖的 AI 助手。這不是偶然的成功,而是一個(gè)從小就對(duì)人機(jī)交互充滿熱情的天才程序員,經(jīng)過十多年積累后的厚積薄發(fā)。

語音交互為什么一直都很糟糕

說到語音交互,我們都有過糟糕的體驗(yàn)。無論是 Siri 理解錯(cuò)你的指令,還是 Google Assistant 給出莫名其妙的回答,又或者是各種語音轉(zhuǎn)文字工具需要你花更多時(shí)間修改錯(cuò)誤,而不是直接用鍵盤打字。我一直很困惑,為什么擁有世界頂級(jí)工程師的蘋果、谷歌這些大公司,仍然無法解決語音交互的問題?

Kothari 給出了一個(gè)讓我恍然大悟的答案:他們解決的是錯(cuò)誤的問題。目前市面上所有的語音轉(zhuǎn)錄服務(wù)都在優(yōu)化一個(gè)叫做”單詞錯(cuò)誤率”的指標(biāo),也就是你說的話中有多少單詞被完美識(shí)別出來。他們會(huì)自豪地宣稱:”我們的準(zhǔn)確率達(dá)到了 98% 或 99%。”但這個(gè)指標(biāo)完全沒有意義。即使你的單詞準(zhǔn)確率達(dá)到 99%,這意味著每個(gè)句子中大約會(huì)有一個(gè)單詞是錯(cuò)誤的。而一個(gè)句子只要有一個(gè)單詞錯(cuò)了,你就無法信任這個(gè)句子的輸出。這就是為什么我們總是需要花大量時(shí)間修改語音轉(zhuǎn)錄的結(jié)果,最終發(fā)現(xiàn)還不如直接用鍵盤打字。

Wispr Flow 采用了完全不同的方法。他們優(yōu)化的指標(biāo)叫做”零編輯消息率”,也就是有多少比例的消息可以直接發(fā)送而無需任何修改。這個(gè)思路的轉(zhuǎn)變看似微小,實(shí)際上代表了完全不同的技術(shù)哲學(xué)。傳統(tǒng)的語音識(shí)別專注于準(zhǔn)確捕捉你說的每個(gè)詞,而 Wispr Flow 專注于理解你的意圖,并將其轉(zhuǎn)化為清晰、結(jié)構(gòu)化的文本。人類說話和寫作的方式本來就不同。當(dāng)我們說話時(shí),會(huì)有停頓、填充詞、中途改變想法,甚至?xí)晕壹m正。一個(gè)真正有用的語音助手應(yīng)該理解這些人類語言的特點(diǎn),而不是機(jī)械地記錄每個(gè)詞匯。

這種技術(shù)哲學(xué)的差異導(dǎo)致了完全不同的用戶體驗(yàn)。Wispr Flow 目前已經(jīng)達(dá)到了 80% 的零編輯率,而且這個(gè)數(shù)字還在持續(xù)改善。更令人印象深刻的是,用戶下載產(chǎn)品六個(gè)月后,80% 的人仍在使用它,而且其中超過一半的人現(xiàn)在用 Wispr Flow 寫了超過 70% 的文字內(nèi)容,跨越平均 60 多個(gè)應(yīng)用程序。想象一下這意味著什么:這些用戶實(shí)際上已經(jīng)開始用語音取代鍵盤了。

Wispr Flow 的故事很有意思,它最初并不是一個(gè)軟件項(xiàng)目。創(chuàng)始人 Kothari 最初的想法是創(chuàng)造一個(gè)硬件設(shè)備,讓用戶只需無聲地動(dòng)嘴唇就能打字。聽起來像科幻小說,但這確實(shí)是他們最初獲得投資的項(xiàng)目方向。不過在去年,公司決定專注于軟件界面 Wispr Flow,這個(gè)決定后來被證明是明智的。

從某種意義上說,這種轉(zhuǎn)變反映了整個(gè)科技行業(yè)的一個(gè)趨勢(shì):最大的突破往往來自于對(duì)現(xiàn)有技術(shù)的重新思考和組合,而不是全新的硬件發(fā)明。大語言模型的成熟為語音交互提供了前所未有的可能性,但關(guān)鍵在于如何正確地應(yīng)用這些技術(shù)。

更重要的是,他們從一開始就將用戶體驗(yàn)放在技術(shù)實(shí)現(xiàn)之前。他們的目標(biāo)不是構(gòu)建最先進(jìn)的語音識(shí)別模型,而是構(gòu)建一個(gè)用戶真正愿意每天使用的產(chǎn)品。這種以用戶為中心的方法體現(xiàn)在產(chǎn)品的每個(gè)細(xì)節(jié)中,從支持 104 種語言(其中 40% 的語音輸入是英文,60% 是其他語言),到能夠無縫處理語言中的停頓、填充詞和思路轉(zhuǎn)換。

一個(gè)天才程序員的成長(zhǎng)軌跡

要理解 Wispr Flow 為什么能夠成功,你必須先了解 Kothari 這個(gè)人。他的故事讀起來像是硅谷傳奇的完美樣本,但每一個(gè)細(xì)節(jié)都是真實(shí)的。9 歲時(shí),因?yàn)閹讉€(gè)高年級(jí)學(xué)生說他”太小了,不會(huì)懂編程”,他憤怒地回家熬了人生第一個(gè)通宵,在 YouTube 和 DreamInCode 網(wǎng)站上自學(xué)編程。那是四年級(jí),一個(gè)身高只有一米二的小孩,抱著數(shù)學(xué)書到處走,因?yàn)樗X得數(shù)學(xué)”很有趣”。

但真正塑造他創(chuàng)業(yè)DNA的,是 13 歲時(shí)創(chuàng)建的 ConvertCC 項(xiàng)目。那是在 LimeWire 被關(guān)閉后,他發(fā)現(xiàn)人們沒有好的方式免費(fèi)下載音樂,于是構(gòu)建了一個(gè)平臺(tái),用戶可以說”播放 Imagine Dragons 的最新歌曲”,系統(tǒng)就會(huì)自動(dòng)找到并下載。沒有任何營(yíng)銷預(yù)算,這個(gè)產(chǎn)品病毒式增長(zhǎng)到 250 萬用戶。然后 Google 發(fā)來了停止令,因?yàn)樗麄兊姆?wù)會(huì)從 YouTube 轉(zhuǎn)換視頻為音頻。一個(gè) 13 歲的孩子,用免費(fèi)的 Google Cloud 積分,在 Google 的平臺(tái)上構(gòu)建了一個(gè)讓 Google 感到威脅的產(chǎn)品。這種諷刺意味十足的經(jīng)歷,也許從那時(shí)起就注定了他要挑戰(zhàn)科技巨頭的命運(yùn)。

更令人驚訝的是他在學(xué)校的表現(xiàn)。從中學(xué)到高中,他每個(gè)月只去學(xué)校一兩天,其余時(shí)間都在家里自學(xué)大學(xué)課程或者編程。但他的成績(jī)依然優(yōu)秀,因?yàn)樗幸蝗涸敢庠诳荚嚽盎r(shí)教他的朋友,而他也會(huì)在其他科目上幫助他們。他的老師們支持他這樣做,因?yàn)樗麄冎浪跒閲?guó)際信息學(xué)奧林匹克競(jìng)賽做準(zhǔn)備。最終,他成功代表印度參加了這個(gè)被稱為”編程界奧運(yùn)會(huì)”的比賽。

這種非傳統(tǒng)的成長(zhǎng)經(jīng)歷培養(yǎng)了他兩個(gè)關(guān)鍵能力:快速學(xué)習(xí)和深度專注。他能像讀床頭故事一樣快速閱讀教科書,并且理解其中的邏輯連接。更重要的是,他養(yǎng)成了每天編程 20 小時(shí)的習(xí)慣。為了不被父母發(fā)現(xiàn),他會(huì)等到晚上 10 點(diǎn)父母睡覺后開始編程,一直到早上 5 點(diǎn)半母親準(zhǔn)備叫醒他時(shí)再跳回床上裝睡。這樣的生活持續(xù)了整個(gè)中學(xué)和高school時(shí)期。這不是天賦,而是近乎瘋狂的熱情和堅(jiān)持。

當(dāng)他告訴父母想去斯坦福而不是印度的 IIT 時(shí),這對(duì)父母來說是個(gè)巨大的沖擊。學(xué)費(fèi)貴了 100 倍,要送孩子到另一個(gè)國(guó)家,但最終他們支持了他的決定。在斯坦福,他繼續(xù)保持著這種工作強(qiáng)度,一邊學(xué)習(xí)一邊創(chuàng)業(yè)。畢業(yè)時(shí),他沒有申請(qǐng)任何工作,而是全身心投入到創(chuàng)業(yè)中。這種從小培養(yǎng)的創(chuàng)業(yè)精神和技術(shù)深度,為后來 Wispr Flow 的成功奠定了基礎(chǔ)。

從 FeatherX 到 Wispr Flow:連續(xù)創(chuàng)業(yè)者的進(jìn)化

Kothari 的第一次成功創(chuàng)業(yè)是 FeatherX,這家公司專注于構(gòu)建”更個(gè)人化的互聯(lián)網(wǎng)”。他們的想法是讓每個(gè)網(wǎng)站都能根據(jù)用戶的行為和偏好進(jìn)行個(gè)性化調(diào)整。比如,當(dāng)你在購(gòu)買床墊時(shí)停留在關(guān)于背痛緩解的評(píng)論上,整個(gè)網(wǎng)站就會(huì)重新組織內(nèi)容,專注于解決你的背痛問題。然后當(dāng)你訪問其他網(wǎng)站時(shí),它們也會(huì)知道你關(guān)心腰部支撐,并相應(yīng)調(diào)整內(nèi)容。

這個(gè)項(xiàng)目只用了 6 到 9 個(gè)月就被 Cerebras 收購(gòu)。有趣的是,當(dāng) FeatherX 在尋求 200-300 萬美元融資時(shí),同時(shí)收到了收購(gòu)要約。最終他們選擇了收購(gòu),Kothari 成為 Cerebras 的產(chǎn)品和工程負(fù)責(zé)人。這段經(jīng)歷教會(huì)了他如何管理團(tuán)隊(duì),如何從一個(gè)純技術(shù)人員轉(zhuǎn)變?yōu)轭I(lǐng)導(dǎo)者。他承認(rèn)最初幾個(gè)月他在管理方面很糟糕,特別是作為一個(gè) 21 歲的年輕人要管理一些年齡和他父母相仿的員工。

但他有一個(gè)導(dǎo)師,Cerebras 的首席商務(wù)官,給了他幾本管理書籍,并指導(dǎo)他如何與年長(zhǎng)的同事合作。Kothari 將此視為挑戰(zhàn),給自己設(shè)定了六個(gè)月內(nèi)成為這些人見過的最好管理者的目標(biāo)。六個(gè)月后,他確實(shí)做到了。這種將個(gè)人挑戰(zhàn)轉(zhuǎn)化為學(xué)習(xí)機(jī)會(huì)的能力,正是優(yōu)秀創(chuàng)業(yè)者的特質(zhì)。

正當(dāng)他準(zhǔn)備在 Cerebras 待五年并將其發(fā)展成大型企業(yè)時(shí),他的大學(xué)室友兼聯(lián)合創(chuàng)始人 Sahaj Garg 給他打了個(gè)電話。Sahaj 剛剛離職,想要?jiǎng)?chuàng)業(yè),這讓從未想過創(chuàng)業(yè)的 Sahaj 突然提出這個(gè)想法令 Kothari 很驚訝。但當(dāng) Kothari 分享了他從小就有的愿景——構(gòu)建一個(gè)真正理解用戶的個(gè)人語音助手時(shí),兩人一拍即合。

他們花了兩個(gè)月時(shí)間討論價(jià)值觀、愿景、如何處理潛在的收購(gòu)要約、想要招聘什么樣的人,以及公司的規(guī)模和野心。這種深度的前期討論為他們后來三年多的合作奠定了堅(jiān)實(shí)基礎(chǔ)。Kothari 說這也許是他最強(qiáng)的人際關(guān)系之一。這種合伙關(guān)系的成功,很大程度上來自于他們花時(shí)間在技術(shù)細(xì)節(jié)之前先建立了哲學(xué)和價(jià)值觀的一致性。

技術(shù)深度:為什么 Wispr Flow 能做到別人做不到的事

當(dāng)我深入了解 Wispr Flow 的技術(shù)實(shí)現(xiàn)時(shí),我發(fā)現(xiàn)他們解決問題的方法與眾不同。大多數(shù)語音技術(shù)公司專注于提高轉(zhuǎn)錄準(zhǔn)確性,但 Wispr Flow 將模型視為起點(diǎn)而非終點(diǎn)。Sahaj Garg 是擴(kuò)散模型的先驅(qū)之一,這些模型現(xiàn)在支撐著 Midjourney、DALL-E 等工具。團(tuán)隊(duì)中的機(jī)器學(xué)習(xí)博士們具備調(diào)整大多數(shù)人甚至不知道存在的模型參數(shù)的能力。

一個(gè)具體的例子是他們?nèi)绾谓鉀Q大語言模型的幻覺問題。早期版本的 Wispr Flow 有時(shí)會(huì)出現(xiàn)這樣的情況:當(dāng)你想要輸入一個(gè)問題時(shí),系統(tǒng)卻直接給出了答案,而不是將問題文本輸入到你想發(fā)送的地方。這種行為顯然是錯(cuò)誤的,但卻是所有大語言模型都面臨的常見問題。通過深入模型內(nèi)部進(jìn)行微調(diào),他們將這種幻覺率降低了約一千倍。這種程度的優(yōu)化需要的不僅僅是調(diào)用 API,而是對(duì)模型架構(gòu)和訓(xùn)練過程的深度理解。

更重要的是,他們重新定義了成功的衡量標(biāo)準(zhǔn)。傳統(tǒng)的語音識(shí)別服務(wù)優(yōu)化”單詞錯(cuò)誤率”——你說的單詞中有多少被正確識(shí)別。即使達(dá)到 99% 的準(zhǔn)確率,一個(gè) 80 詞的消息(大約五六個(gè)句子)仍然有超過 80% 的概率包含錯(cuò)誤。而且這個(gè)指標(biāo)完全忽略了非語音問題,比如格式化、對(duì)專有名詞和同音詞的深度理解,以及捕捉真實(shí)用戶意圖的許多細(xì)微問題,包括人類說話時(shí)經(jīng)常出現(xiàn)的自我糾正傾向。

Wispr Flow 優(yōu)化的是”零編輯率”——整個(gè)轉(zhuǎn)錄無需修改的比例。目前他們已經(jīng)達(dá)到 80% 的零編輯率,而且這個(gè)數(shù)字在持續(xù)改善。這種方法的差異反映了完全不同的產(chǎn)品哲學(xué):不是機(jī)械地記錄用戶說的每個(gè)詞,而是理解用戶想要表達(dá)什么,然后生成清晰、結(jié)構(gòu)化的文本。這更接近人類助理的工作方式——理解老板的意圖并生成合適的輸出,而不是逐字記錄。

這種技術(shù)方法的成果體現(xiàn)在用戶行為上。六個(gè)月后,超過半數(shù)用戶現(xiàn)在用 Wispr Flow 寫超過 70% 的字符,跨越平均 60 多個(gè)應(yīng)用程序。這意味著語音輸入已經(jīng)從輔助功能轉(zhuǎn)變?yōu)橹饕慕换シ绞健8钊擞∠笊羁痰氖?,目前約 10% 的下載用戶是付費(fèi)用戶,這個(gè)轉(zhuǎn)化率遠(yuǎn)高于 Dropbox 等公司通常的 5% 或更低的標(biāo)準(zhǔn)。

他們?cè)趥€(gè)性化方面也做了大量工作。Wispr Flow 支持 104 種語言,其中 40% 的語音輸入是英文,60% 是其他語言,主要包括西班牙語、法語、德語、荷蘭語、印地語和中文。但更重要的是,系統(tǒng)能夠理解每個(gè)用戶的說話習(xí)慣、專業(yè)術(shù)語使用和個(gè)人偏好。這種個(gè)性化不是通過簡(jiǎn)單的用戶設(shè)置實(shí)現(xiàn)的,而是通過持續(xù)學(xué)習(xí)用戶的語言模式和意圖表達(dá)方式。

投資者為什么瘋狂押注語音未來

Menlo Ventures 的合伙人 Matt Kraning 領(lǐng)投了這輪 3000 萬美元的融資,他對(duì) Wispr Flow 的評(píng)價(jià)讓我印象深刻。他說:”我們都厭倦了等待拇指跟上思維的速度。”這句話精準(zhǔn)地概括了當(dāng)前人機(jī)交互的核心問題。有趣的是,Kraning 并不只是一個(gè)投資者,他本身就是 Wispr Flow 的重度用戶,甚至在成為正式投資者之前就是天使投資人。

這種”吃自己狗糧”的投資方式在硅谷并不常見,但卻很有說服力。據(jù) Kothari 透露,硅谷幾乎每一家頂級(jí)風(fēng)投公司都在使用 Wispr Flow 處理郵件、備忘錄和文檔。當(dāng)投資者自己每天都在使用你的產(chǎn)品,并且感到”上癮”時(shí),那么投資決策就變得相對(duì)容易了。這也解釋了為什么 Wispr Flow 能夠如此快速地獲得資金支持,總?cè)谫Y額已達(dá)到 5600 萬美元。

Kraning 的投資邏輯很有趣。他認(rèn)為如果你能構(gòu)建一個(gè)人們信任的語音界面,你實(shí)際上就是在構(gòu)建新的輸入層。這意味著用戶可以通過你的平臺(tái)與其他一切交互,這本質(zhì)上就是新的瀏覽器、新的搜索引擎、新的 iPhone。在一個(gè)越來越以自然語言為中心的互聯(lián)網(wǎng)時(shí)代,控制輸入層的公司有可能成為價(jià)值數(shù)千億美元的企業(yè)。這不是漸進(jìn)式改進(jìn),而是范式轉(zhuǎn)變。

我特別認(rèn)同 Kraning 提到的一個(gè)觀點(diǎn):平均每人每天花 5 小時(shí)打字,使用 Wispr Flow 后,這個(gè)時(shí)間可以降到 3 小時(shí),相當(dāng)于每年節(jié)省 21 天的時(shí)間。這不僅僅是效率提升,而是生活質(zhì)量的改善。想象一下,如果你每年能多出三個(gè)星期的時(shí)間去做更有意義的事情,這種價(jià)值是無法用金錢衡量的。

更深層的投資邏輯在于,Wispr Flow 正在為人類與技術(shù)交互的方式奠定基礎(chǔ)。目前,人類每天總共花費(fèi)超過一百萬年的時(shí)間與數(shù)字設(shè)備交互。如果能夠讓這種交互變得更自然、更高效,影響將是革命性的。這不再是從命令行到圖形界面的跨越,而是從圖形界面到對(duì)話界面的跨越。

產(chǎn)品策略:從工具到平臺(tái)的進(jìn)化思路

Wispr Flow 的產(chǎn)品策略很聰明,他們沒有試圖一開始就構(gòu)建一個(gè)通用的 AI 助手,而是專注于解決一個(gè)具體而重要的問題:文本輸入。通過在這個(gè)核心用例上做到極致,他們建立了用戶信任,然后再逐步擴(kuò)展功能。這種策略避免了很多 AI 創(chuàng)業(yè)公司面臨的”功能太多但都不夠好”的問題。

他們的上線策略也很有意思。從 2024 年 10 月在 Mac 上發(fā)布,到 2025 年 3 月在 Windows 上發(fā)布,再到最近在 iOS 上發(fā)布,他們遵循了一個(gè)謹(jǐn)慎但快速的發(fā)布節(jié)奏。每個(gè)平臺(tái)的發(fā)布都經(jīng)過充分測(cè)試,確保用戶體驗(yàn)的一致性。這種方法讓他們能夠?qū)W⒂诋a(chǎn)品質(zhì)量,而不是急于占領(lǐng)市場(chǎng)。

用戶增長(zhǎng)數(shù)據(jù)也證明了這種策略的有效性。應(yīng)用的用戶基數(shù)每月增長(zhǎng) 50%,這是健康的有機(jī)增長(zhǎng),而不是依賴付費(fèi)廣告的虛假繁榮。更重要的是,40% 的用戶在美國(guó),30% 在歐洲,30% 在世界其他地區(qū),顯示了產(chǎn)品的全球吸引力。而且超過 30% 的用戶來自非技術(shù)背景,這證明了語音交互確實(shí)降低了技術(shù)使用的門檻。

他們?cè)谟脩粞芯糠矫嬉餐度肓舜罅烤?。即使公司現(xiàn)在有 20 人,Kothari 每周仍然通過郵件與 100 多名用戶交流,花 2-3 小時(shí)與他們通話。這可能是功能想法討論,也可能是用戶研究。這種與用戶的深度連接幫助他們理解什么真正引起用戶共鳴,并指導(dǎo)產(chǎn)品開發(fā)方向。

他們對(duì)于企業(yè)市場(chǎng)也有清晰的規(guī)劃。即將發(fā)布的 Android 應(yīng)用和企業(yè)功能,包括公司范圍的短語上下文和支持團(tuán)隊(duì),表明他們正在從消費(fèi)者工具向企業(yè)解決方案擴(kuò)展。這種擴(kuò)展是自然的,因?yàn)楹芏嗥髽I(yè)用戶已經(jīng)在個(gè)人設(shè)備上體驗(yàn)了 Wispr Flow 的價(jià)值,現(xiàn)在希望在工作環(huán)境中也能使用。

最有趣的是他們對(duì)未來的愿景。他們不僅僅想構(gòu)建一個(gè)更好的語音輸入工具,而是想要構(gòu)建一個(gè)了解你個(gè)人上下文的 AI 助手,能夠幫助你完成日常任務(wù),比如發(fā)送消息、記錄筆記、設(shè)置提醒。他們還在與一些 AI 硬件合作伙伴合作,為交互層提供支持。這種從軟件到硬件的整合,讓人想起了早期的蘋果公司。

市場(chǎng)時(shí)機(jī):為什么是現(xiàn)在

語音技術(shù)并不新鮮,但為什么 Wispr Flow 能在現(xiàn)在獲得成功?我認(rèn)為有幾個(gè)關(guān)鍵的時(shí)機(jī)因素。首先是大語言模型的成熟。以前的語音識(shí)別系統(tǒng)主要依賴統(tǒng)計(jì)模型和規(guī)則系統(tǒng),無法真正理解語言的語義和上下文。而現(xiàn)在的大語言模型具備了真正的語言理解能力,這為智能的語音交互提供了技術(shù)基礎(chǔ)。

其次是用戶期望的改變。經(jīng)歷了 ChatGPT 和其他 AI 工具的用戶現(xiàn)在期望技術(shù)能夠理解自然語言。他們不再滿足于機(jī)械的命令式交互,而是期望更自然的對(duì)話式體驗(yàn)。這種期望的轉(zhuǎn)變?yōu)檎Z音交互創(chuàng)造了市場(chǎng)機(jī)會(huì)。特別是年輕一代,他們從小就在使用 Alexa 這樣的語音助手,對(duì)他們來說,用語音控制設(shè)備是很自然的事情。

第三是移動(dòng)設(shè)備的局限性日益明顯。雖然智能手機(jī)很強(qiáng)大,但在文本輸入方面仍然很痛苦,特別是長(zhǎng)文本。而且隨著我們?cè)絹碓蕉嗟厥褂靡苿?dòng)設(shè)備工作,這種輸入的局限性變得更加明顯。語音輸入提供了一個(gè)優(yōu)雅的解決方案,特別是在移動(dòng)場(chǎng)景下。

第四是遠(yuǎn)程工作的普及改變了我們的工作方式。更多人在家工作,意味著他們有了在私人空間使用語音的自由。不再需要擔(dān)心在開放式辦公室里說話會(huì)打擾同事。這種工作環(huán)境的改變?yōu)檎Z音交互的普及創(chuàng)造了條件。

最后是AI工具的爆發(fā)式增長(zhǎng)?,F(xiàn)在每天都有新的 AI 工具發(fā)布,但大多數(shù)仍然依賴傳統(tǒng)的文本輸入界面。Wispr Flow 提供了一個(gè)更自然的與這些工具交互的方式。正如 Kothari 所說,ChatGPT 式的界面是三年半前發(fā)布的,現(xiàn)在是時(shí)候有新的交互方式了。

這些因素的結(jié)合創(chuàng)造了一個(gè)完美的時(shí)機(jī)窗口。技術(shù)已經(jīng)成熟,用戶已經(jīng)準(zhǔn)備好,市場(chǎng)需求已經(jīng)存在。Wispr Flow 的成功不是偶然,而是對(duì)這些趨勢(shì)的準(zhǔn)確把握和執(zhí)行。

為什么這次不同了

我研究了很多語音技術(shù)公司的歷史,發(fā)現(xiàn)大部分都失敗了,或者只能在非常有限的場(chǎng)景下工作。那么 Wispr Flow 為什么能夠成功?我認(rèn)為有幾個(gè)關(guān)鍵因素。

首先是時(shí)機(jī)。大語言模型的突破為真正智能的語音交互提供了技術(shù)基礎(chǔ)。但更重要的是,用戶的期望已經(jīng)發(fā)生了變化。經(jīng)歷了 ChatGPT 和其他 AI 工具的用戶現(xiàn)在期望技術(shù)能夠理解自然語言。他們不再滿足于機(jī)械的命令式交互,而是期望更自然的對(duì)話式體驗(yàn)。這種期望的轉(zhuǎn)變?yōu)橄?Wispr Flow 這樣的產(chǎn)品創(chuàng)造了市場(chǎng)機(jī)會(huì)。

其次是技術(shù)方法的不同。傳統(tǒng)的語音識(shí)別公司專注于準(zhǔn)確轉(zhuǎn)錄,而 Wispr Flow 專注于理解意圖。他們使用機(jī)器學(xué)習(xí)模型不僅僅是為了識(shí)別語音,而是為了理解用戶想要表達(dá)什么,然后生成清晰、結(jié)構(gòu)化的文本。這種方法更接近人類助理的工作方式:不是機(jī)械地記錄老板說的每個(gè)詞,而是理解意圖并生成合適的輸出。

第三是產(chǎn)品定位的差異。Wispr Flow 不是試圖成為一個(gè)通用的 AI 助手,而是專注于解決一個(gè)具體而重要的問題:文本輸入。通過專注于這個(gè)核心用例,他們能夠提供比通用解決方案更好的體驗(yàn)。用戶數(shù)據(jù)證明了這種專注的價(jià)值:大約 10% 的下載用戶現(xiàn)在是付費(fèi)用戶,這個(gè)轉(zhuǎn)化率遠(yuǎn)高于大多數(shù)軟件產(chǎn)品的 5% 標(biāo)準(zhǔn)。

最后是團(tuán)隊(duì)的技術(shù)深度。Kothari 和他的聯(lián)合創(chuàng)始人從斯坦福的頂級(jí) AI 實(shí)驗(yàn)室開始,具有深厚的機(jī)器學(xué)習(xí)背景。這讓他們能夠深度定制模型行為,而不僅僅是調(diào)用現(xiàn)有的 API。在一個(gè)每天都有新的 AI 產(chǎn)品發(fā)布的時(shí)代,真正的技術(shù)深度成為了差異化的關(guān)鍵。

我覺得還有一個(gè)更深層的原因:Wispr Flow 解決的是一個(gè)真正的用戶痛點(diǎn)。我們都曾經(jīng)歷過這樣的挫折:有很多想法想要快速記錄下來,但手指的速度跟不上思維?;蛘咴谑謾C(jī)上打長(zhǎng)文本時(shí)的痛苦體驗(yàn)?;蛘咴陂_車時(shí)無法安全地發(fā)送消息。Wispr Flow 解決的不是一個(gè)技術(shù)問題,而是一個(gè)人類問題。

這將如何改變我們的工作和生活

當(dāng)我深入了解 Wispr Flow 的用戶數(shù)據(jù)時(shí),一些數(shù)字讓我震驚。用戶平均在 70 個(gè)不同的應(yīng)用和網(wǎng)站中使用它來寫入 72% 的字符。每周用戶通過 Wispr Flow 說出超過 1 億個(gè)單詞。這些數(shù)字表明,語音輸入正在從一個(gè)輔助功能轉(zhuǎn)變?yōu)橹饕慕换シ绞健?/p>

我認(rèn)為這種轉(zhuǎn)變將帶來一系列連鎖反應(yīng)。首先是工作效率的提升。當(dāng)寫作變得像說話一樣快速時(shí),我們處理信息和溝通的方式將發(fā)生根本性改變。不再需要花費(fèi)大量時(shí)間在鍵盤上敲擊,而是可以將注意力集中在想法本身。這對(duì)于知識(shí)工作者來說是革命性的改進(jìn)。

其次是技術(shù)訪問的民主化。目前,很多人因?yàn)椴皇煜ゆI盤或者打字速度慢而無法充分利用計(jì)算機(jī)技術(shù)。語音交互降低了技術(shù)使用的門檻,讓更多人能夠享受到數(shù)字技術(shù)的便利。Wispr Flow 的數(shù)據(jù)顯示,超過 30% 的用戶來自非技術(shù)背景,這證明了語音交互的普適性。

第三是設(shè)備使用方式的改變。當(dāng)不再需要依賴屏幕和鍵盤時(shí),我們與技術(shù)的交互可以變得更加自由??梢栽谧呗窌r(shí)處理郵件,在做飯時(shí)記錄想法,在開車時(shí)安全地發(fā)送消息。這種”環(huán)境計(jì)算”的愿景正在通過語音交互變?yōu)楝F(xiàn)實(shí)。

我也看到了一些潛在的挑戰(zhàn)。隱私問題是其中之一。當(dāng)語音成為主要的輸入方式時(shí),如何保護(hù)用戶的語音數(shù)據(jù)變得至關(guān)重要。還有文化適應(yīng)的問題:不是所有人都習(xí)慣在公共場(chǎng)所說話來操作設(shè)備。以及技術(shù)成熟度:雖然 Wispr Flow 已經(jīng)很先進(jìn),但在嘈雜環(huán)境或者口音很重的情況下,準(zhǔn)確率仍然可能下降。

但我相信這些都是可以解決的技術(shù)和社會(huì)問題。更重要的是,我們正在見證計(jì)算機(jī)交互歷史上的一個(gè)轉(zhuǎn)折點(diǎn)。從命令行到圖形界面花了幾十年時(shí)間,但從圖形界面到語音界面的轉(zhuǎn)變可能會(huì)更快,因?yàn)榛A(chǔ)技術(shù)已經(jīng)成熟,用戶的期望也已經(jīng)改變。

對(duì)未來的深度思考:語音時(shí)代的機(jī)遇與挑戰(zhàn)

當(dāng)我深入思考 Wispr Flow 代表的趨勢(shì)時(shí),我意識(shí)到我們可能正站在一個(gè)比大多數(shù)人想象的更加重大的轉(zhuǎn)折點(diǎn)上。這不僅僅是從鍵盤到語音的技術(shù)轉(zhuǎn)變,而是從”顯示優(yōu)先”到”語音優(yōu)先”的世界觀轉(zhuǎn)變。在當(dāng)前的世界里,我們期望看到應(yīng)用圖標(biāo)、點(diǎn)擊界面、導(dǎo)航屏幕、滾動(dòng)條、標(biāo)簽和按鈕。但這些可能很快就會(huì)變成過去時(shí)代的遺跡,就像我們現(xiàn)在看待命令行界面一樣。

我設(shè)想的未來是基于語言和情境 AI 的世界。工具將為你量身定制,在你需要的時(shí)候?yàn)槟銊?chuàng)建。計(jì)算機(jī)將真正理解你,而與計(jì)算機(jī)交互的最大困難——溝通你想要什么——將被徹底解決。現(xiàn)在與 ChatGPT 等系統(tǒng)交互時(shí)經(jīng)常出現(xiàn)的挫折,主要是因?yàn)樗鼈儾涣私饽愕谋尘啊⑵煤蛡€(gè)人情境。但如果能夠收集這些關(guān)于你的情境信息,并將這些系統(tǒng)個(gè)性化,那么每個(gè)人與自己系統(tǒng)的交互將看起來像一個(gè)全新的世界,但對(duì)你自己來說,將是最直觀的交互方式。

這種轉(zhuǎn)變將帶來一些深刻的社會(huì)和經(jīng)濟(jì)影響。首先是工作技能的重新定義。當(dāng)語音成為主要的人機(jī)交互方式時(shí),語言表達(dá)能力將變得比技術(shù)操作能力更重要。那些善于清晰表達(dá)意圖和想法的人將獲得顯著的技術(shù)優(yōu)勢(shì)。這可能會(huì)改變教育的重點(diǎn),從教學(xué)生如何使用軟件轉(zhuǎn)向教學(xué)生如何與 AI 有效溝通。

其次是數(shù)字鴻溝的重新定義。傳統(tǒng)的數(shù)字鴻溝主要基于技術(shù)訪問和操作技能,但在語音時(shí)代,鴻溝可能更多基于語言能力、口音和文化差異。雖然 Wispr Flow 支持 104 種語言,但不同語言和方言的支持程度可能存在差異。這需要整個(gè)行業(yè)在包容性和可訪問性方面做出更多努力。

我也看到了隱私和安全方面的新挑戰(zhàn)。當(dāng)語音成為主要的輸入方式時(shí),我們的聲音數(shù)據(jù)將變得極其重要和敏感。如何保護(hù)這些數(shù)據(jù),如何防止語音被惡意利用,如何確保語音 AI 不會(huì)被用于監(jiān)控和控制,這些都是需要解決的重要問題。Wispr Flow 等公司在這方面的責(zé)任將遠(yuǎn)超傳統(tǒng)軟件公司。

另一個(gè)有趣的影響是社交行為的改變。當(dāng)越來越多的人開始與設(shè)備”對(duì)話”時(shí),我們的公共空間可能會(huì)變得更加嘈雜。但這也可能催生新的社交禮儀和技術(shù)解決方案。比如,我們可能需要開發(fā)更好的定向音頻技術(shù),或者建立在公共場(chǎng)所使用語音設(shè)備的社會(huì)規(guī)范。

從商業(yè)角度看,語音優(yōu)先的世界將重新洗牌整個(gè)科技行業(yè)。那些能夠提供最自然、最智能語音交互的公司將獲得巨大優(yōu)勢(shì)。這不僅僅是語音識(shí)別技術(shù)的競(jìng)爭(zhēng),更是對(duì)用戶意圖理解、個(gè)性化AI、多模態(tài)交互等綜合能力的競(jìng)爭(zhēng)。傳統(tǒng)的界面設(shè)計(jì)師可能需要轉(zhuǎn)型為對(duì)話設(shè)計(jì)師,軟件架構(gòu)師需要重新思考以語音為中心的系統(tǒng)設(shè)計(jì)。

我特別感興趣的是語音交互對(duì)人類認(rèn)知和學(xué)習(xí)的影響。當(dāng)我們不再需要記住復(fù)雜的操作步驟,而是可以直接表達(dá)目標(biāo)時(shí),我們的大腦將被解放去思考更高層次的問題。這可能會(huì)提高整體的認(rèn)知效率,讓人類能夠?qū)W⒂趧?chuàng)造性和戰(zhàn)略性思維,而不是被技術(shù)操作所束縛。

但我也擔(dān)心過度依賴語音交互可能帶來的風(fēng)險(xiǎn)。如果我們過分依賴AI來理解和執(zhí)行我們的意圖,我們自己的問題解決能力和技術(shù)理解能力可能會(huì)退化。這就像GPS的普及讓很多人失去了讀地圖和導(dǎo)航的能力一樣。我們需要在便利性和能力保持之間找到平衡。

從長(zhǎng)遠(yuǎn)來看,我相信語音交互將成為人機(jī)交互的主要方式,但它不會(huì)完全取代其他交互方式。不同的任務(wù)可能需要不同的交互模式。復(fù)雜的數(shù)據(jù)可視化可能仍然需要大屏幕和精確的手勢(shì)控制,而創(chuàng)意設(shè)計(jì)工作可能需要觸覺反饋和直接操作。關(guān)鍵是要為每種任務(wù)選擇最合適的交互方式,而不是強(qiáng)行用一種方式解決所有問題。

Wispr Flow 的成功給我最大的啟發(fā)是:真正的技術(shù)革命往往來自于對(duì)現(xiàn)有問題的重新定義,而不是對(duì)現(xiàn)有解決方案的漸進(jìn)改進(jìn)。他們沒有試圖做一個(gè)更準(zhǔn)確的語音識(shí)別系統(tǒng),而是重新定義了什么是”成功的語音交互”。這種思維方式在AI時(shí)代尤其重要,因?yàn)槲覀兠媾R的不僅僅是技術(shù)問題,更是如何讓技術(shù)更好地服務(wù)于人類的根本問題。

3000 萬美元的融資和令人印象深刻的用戶數(shù)據(jù)只是開始。真正的考驗(yàn)是 Wispr Flow 能否從一個(gè)優(yōu)秀的產(chǎn)品演進(jìn)為一個(gè)改變行業(yè)的平臺(tái)。他們面臨的挑戰(zhàn)是巨大的:需要在保持產(chǎn)品質(zhì)量的同時(shí)快速擴(kuò)展,需要在大科技公司的競(jìng)爭(zhēng)中保持優(yōu)勢(shì),需要在技術(shù)快速演進(jìn)的環(huán)境中持續(xù)創(chuàng)新。但基于我對(duì)團(tuán)隊(duì)背景和技術(shù)深度的了解,我相信他們有能力應(yīng)對(duì)這些挑戰(zhàn)。

更重要的是,Wispr Flow 代表了一種我們急需的技術(shù)發(fā)展方向:讓技術(shù)適應(yīng)人類,而不是讓人類適應(yīng)技術(shù)。在一個(gè)充斥著復(fù)雜界面、繁瑣操作和學(xué)習(xí)曲線陡峭的軟件世界里,語音交互提供了一條回歸人性化的道路。當(dāng)我們能夠像與朋友對(duì)話一樣與計(jì)算機(jī)交流時(shí),技術(shù)將真正成為增強(qiáng)人類能力的工具,而不是阻礙。

我預(yù)測(cè),五年后我們回顧今天,會(huì)發(fā)現(xiàn) 2025 年是人機(jī)交互歷史上的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。就像我們現(xiàn)在很難想象沒有觸摸屏的智能手機(jī)一樣,未來的年輕人可能很難理解為什么我們?cè)?jīng)需要記住這么多快捷鍵和菜單位置。鍵盤不會(huì)完全消失,就像命令行界面至今仍在某些場(chǎng)景下使用一樣,但它將從主角變成配角。

語音的時(shí)代已經(jīng)到來,而 Wispr Flow 正在書寫這個(gè)時(shí)代的開篇。這不僅僅是一個(gè)產(chǎn)品的成功,而是一個(gè)關(guān)于技術(shù)如何變得更加人性化的故事。在一個(gè)越來越數(shù)字化的世界里,最成功的技術(shù)將是那些讓我們感覺更加人性化的技術(shù)。Wispr Flow 正在朝著這個(gè)方向努力,而我們所有人都將從中受益。

最終,我認(rèn)為語音交互的真正價(jià)值不在于技術(shù)本身,而在于它能夠讓技術(shù)變得更加人性化。當(dāng)機(jī)器能夠理解人類的自然語言時(shí),技術(shù)的門檻就會(huì)大幅降低,更多的人能夠享受到技術(shù)帶來的便利。這是一個(gè)讓技術(shù)民主化的機(jī)會(huì),也是一個(gè)讓人類與機(jī)器關(guān)系更加和諧的機(jī)會(huì)。Wispr Flow 只是這個(gè)轉(zhuǎn)變的開始,未來還有無限可能。

本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號(hào):【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!