從0到800毫秒,這家初創(chuàng)公司要干掉谷歌翻譯?

0 評論 1000 瀏覽 3 收藏 8 分鐘

實時語音翻譯技術(shù)正迎來突破,一款聚焦低延遲的翻譯工具通過優(yōu)化技術(shù)流程,將延遲降至 800 毫秒,兼容多種主流平臺,為跨國溝通、多語言會議等場景提供流暢體驗,展現(xiàn)出在語言障礙破解上的潛力。

776領(lǐng)投840萬美元種子輪,Palabra AI專注實時語音翻譯,延遲僅800毫秒。其桌面應(yīng)用兼容Zoom/Meet/Slack等主流平臺,支持30+語言實時互譯,解決跨國會議溝通痛點。

一家名為Palabra AI的初創(chuàng)公司正致力于解決大型語言模型(LLMs)在理解多語言過程中一個較為棘手的難題,該公司主要研發(fā)人工智能驅(qū)動的語音翻譯引擎。

Reddit聯(lián)合創(chuàng)始人亞歷克西斯?奧哈尼安(Alexis Ohanian)表示,如今大型語言模型已能讓文本在不同語言間的轉(zhuǎn)換變得更加輕松,但語音翻譯的難度遠不止于此。

“人工智能能夠生成內(nèi)容并進行文本翻譯,而(語音)翻譯卻是個獨特的難題 —— 它不僅需要實時切換語言,還得讓合成的語音聽起來如同人類自然發(fā)聲,” 奧哈尼安說道。

奧哈尼安及其旗下的風投公司 “七七六”(Seven Seven Six,簡稱776)認為,Palabra AI或許就是解決這一難題的答案。正因如此,該風投公司牽頭向這家初創(chuàng)企業(yè)發(fā)起了一輪金額為840萬美元的種子前輪融資。參與本輪融資的還有Creator Ventures風投公司,以及多位個人投資者,包括Instacart 聯(lián)合創(chuàng)始人馬克斯?馬倫(Max Mullen)、紅杉資本(a16z)前合伙人安妮?李?斯凱茨(Anne Lee Skates)、深度思維(DeepMind)前產(chǎn)品負責人邁赫迪?吉薩西(Mehdi Ghissassi),以及納馬特?巴赫拉姆(Namat Bahram)。

“七七六” 風投公司的奧哈尼安還指出,Palabra在產(chǎn)品落地能力與團隊專業(yè)實力上的雙重優(yōu)勢,是促使公司決定投資的關(guān)鍵原因。

“借助Palabra的技術(shù),翻譯環(huán)節(jié)的運行極為流暢。這家公司擁有一支實力強勁的人工智能研究團隊,在語音相關(guān)領(lǐng)域開展著高質(zhì)量的研究工作。此外,該初創(chuàng)企業(yè)在產(chǎn)品設(shè)計與輸出質(zhì)量方面也做出了出色的決策,” 他補充道。

Palabra由阿爾喬姆?庫哈連科(Artem Kukharenko)與亞歷山大?卡巴科夫(Alexander Kabakov)于2023年共同創(chuàng)立。庫哈連科曾擔任三星公司的機器學習工程師,他表示,自己曾以 “數(shù)字游民” 的身份在多個國家生活,期間頻繁遭遇語言溝通障礙。正是這一經(jīng)歷,讓他萌生了結(jié)合自身機器學習經(jīng)驗、解決實時翻譯難題的想法。

“許多其他公司都曾嘗試解決翻譯難題。但當它們整合各類技術(shù)模塊(包括語音轉(zhuǎn)文字、文字轉(zhuǎn)語音接口)進行翻譯時,延遲數(shù)值會顯著增加,翻譯也無法達到實時效果。而借助Palabra的技術(shù),我們已成功將延遲降至800毫秒,實現(xiàn)了流暢且實時的翻譯體驗,” 他在接受TechCrunch電話采訪時表示。

庫哈連科進一步透露,公司已搭建一套定制化數(shù)據(jù)處理流程,使團隊能在幾周內(nèi)完成對新語言的支持適配。他介紹,在該流程的最終環(huán)節(jié),Palabra會安排人工譯員對翻譯輸出質(zhì)量進行核驗。這家初創(chuàng)公司還表示,其算法能應(yīng)對多種不同場景,例如嘈雜環(huán)境下的語音識別以及對話中斷后的銜接處理。

Palabra AI同時推出了面向消費者與企業(yè)客戶的翻譯產(chǎn)品。公司開發(fā)了一款適用于Mac和Windows系統(tǒng)的桌面應(yīng)用,可與多款主流視頻會議軟件兼容,包括Google Meet、Zoom、Discord、Slack以及Microsoft Teams。該應(yīng)用支持超過30種語言的翻譯功能,這意味著用戶能將他人的母語發(fā)言實時轉(zhuǎn)換為自己選擇的目標語言收聽。對于有不同國籍參與者參與的會議通話而言,這一功能尤為實用。

Palabra在其官網(wǎng)表示,其桌面應(yīng)用即將為YouTube、Netflix、Twitch、Vimeo等內(nèi)容平臺新增原生翻譯功能。

用戶每月可免費使用30分鐘翻譯服務(wù)。若需更高使用時長,可選擇付費套餐 —— 基礎(chǔ)套餐每月25美元,包含跨應(yīng)用60分鐘的翻譯時長。

該初創(chuàng)公司還向企業(yè)提供應(yīng)用程序編程接口(API)與軟件開發(fā)工具包(SDK),助力企業(yè)將翻譯功能集成至自身產(chǎn)品中。

目前,其技術(shù)已應(yīng)用于多個視頻平臺,例如為聲網(wǎng)(Agora)等平臺的多語言實時直播提供技術(shù)支持。此外,環(huán)球語言解決方案集團(GIS Group)等語言服務(wù)提供商也在將Palabra的工具與人工譯員服務(wù)結(jié)合使用。Palabra方面稱,已有多家活動主辦方采用其技術(shù)實現(xiàn)多語言直播。

在翻譯市場中,Palabra面臨著激烈的競爭。在消費端,有諸如獲得Y Combinator(創(chuàng)業(yè)孵化器)投資的EzDubs等初創(chuàng)公司,正開發(fā)適用于面對面交流或通話場景的翻譯應(yīng)用;今年早些時候,谷歌(Google)也在Meet 視頻會議軟件中推出了實時翻譯功能。在企業(yè)端,總部位于迪拜的Camb.AI 等初創(chuàng)公司,則在研發(fā)可支持多語言直播的翻譯技術(shù)。

為脫穎而出,Palabra目前正研發(fā)一款全新的流預(yù)測模型,該模型有望大幅降低延遲;同時,公司還在推進技術(shù)升級,以實現(xiàn)對超過10000路同步音頻流的翻譯支持。(TechCrunch)

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號:【AIOrbit】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!