突發(fā)!微軟與OpenAI同日開火:語音之戰(zhàn)+通用大模型,AI霸權決戰(zhàn)打響

0 評論 405 瀏覽 0 收藏 12 分鐘

微軟緊跟OpenAI的節(jié)奏,在同一天也親自下場發(fā)布了微軟自研的兩個大模型:語音模型MAI-Voice-1和通用模型MAI-1-preview。對于這位老大哥,親自下場做的第一個AI大模型,效果究竟怎么樣?

就在OpenAI發(fā)布最新的語音大模型之際,微軟掏出了自研語音大模型!

微軟AI掌門人、DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman正式宣布:

微軟AI正式推出MAI-Voice-1以及MAI-1-預覽版!而且還有更多內容即將推出。

MAI-Voice-1語音模型效率極高:單GPU秒出1分鐘音頻!使用Copilot即可體驗。

在Mustafa Suleyman看來,這是他用過表現(xiàn)力最豐富、最自然的語音生成模型。

而MAI-1預覽版模型是微軟AI首個端到端內部訓練的自研基礎模型。

這標志著在多年依賴OpenAI模型之后,微軟AI部門正式與OpenAI及整個行業(yè)正面競爭,也意味著微軟在AI競賽中,開始掌握更多主動權。

在接受采訪時,Suleyman 表示:「微軟是世界上最大的公司之一。我們必須具備內部能力,來打造世界最強的模型?!?/p>

MAI-Voice-1,究竟能力如何

在微軟官方給出的指標中,最能引起我們注意的,是「單卡<1秒,生成1分鐘音頻」。

這使其成為當前少見的極致低時延TTS/對話式語音生成系統(tǒng)之一。

除此之外,語音的自然和富有表現(xiàn)力也是重點,這覆蓋到了單人敘述與多說話人對話兩種常見內容形態(tài)。

新聞播報、播客對談、故事講述、冥想/引導等,你能想到的,統(tǒng)統(tǒng)沒問題。

你可以選擇9種不同的語音:

也可以選擇多達31種不同的情緒和播報場景:

你還可以讓模型扮演一個激情四射的體育解說員,點燃你的情緒:

具體到落地上,我們可以通過Copilot Labs,在Copilot Daily中以AI主播播報要聞、在Copilot Podcasts生成播客式討論,Copilot Labs 提供可玩Demo(可以自定義內容、敘述風格等)。

微軟與OpenAI難舍難分

長期以來,微軟主要依靠OpenAI的人工智能模型,為核心產品提供AI功能。

OpenAI目前估值約5000億美元,微軟一家的投資就超過了130億美元,而OpenAI也依賴微軟的云基礎設施來運行其模型。

但現(xiàn)在宣布:「未來幾周,我們將在Copilot的部分文本任務中逐步推出MAI-1-preview,以便從用戶反饋中學習和改進?!?/p>

目前,微軟仍在Bing、Windows 11及其他產品中使用OpenAI的模型。

但雙方的關系日漸惡化。

去年,微軟在年度財報中正式將OpenAI列入競爭對手名單,之前多年來只包含亞馬遜、蘋果、谷歌和 Meta等科技巨頭。

近幾個月,OpenAI也轉向CoreWeave、谷歌和甲骨文等其他云服務商,以滿足激增的算力需求。

與OpenAI同期發(fā)布語音模型,意欲何為

就在昨天,OpenAI也發(fā)布了最新的語音生成大模型GPT-Realtime,整體嵌入在Realtime API中。

該模型在語音自然性、情感豐富度、低延遲響應上顯著提升,能夠在一句話之內實現(xiàn)語調、語言的無縫切換,還支持工具調用、指令跟隨能力。

為什么微軟選擇在此時發(fā)布新模型?

此次發(fā)布雖然只有語音模型和預覽版通用模型,但釋放出的信號不容忽視。

其一,語音將成為AI助手的重要戰(zhàn)場。

MAI?Voice?1的效率和表達力有望推動語音助手晉級的「數(shù)字伙伴」。

而富有情感和個性的數(shù)字伙伴,是Grok等模型時下開始發(fā)力的一個新突破點,潛力頗大。

其二,OpenAI不再是唯一選擇。

大模型發(fā)展進入「百模大戰(zhàn)」階段,各巨頭紛紛推出自研產品。

微軟此舉既是對OpenAI合作的補充,也為自己與OpenAI的重大商業(yè)談判中增加了可觀的籌碼。

其三,MoE架構成大模型新趨勢。

MAI?1?preview采用MoE架構,訓練規(guī)模適中但更關注指令遵循和響應效率,能兼顧性能與成本。

隨著LLM細分應用增多,多專家模型將成為重要方向。

其四,生態(tài)開放值得期待。

微軟表示將在Copilot及第三方測試平臺開放模型,鼓勵開發(fā)者提供反饋。

在媒體采訪中,Mustafa Suleyman表示:

人工智能不僅是科技的未來,更是未來幾十年商業(yè)運行和價值創(chuàng)造的核心。

因此,研發(fā)最強的模型,不僅是技術追求,更是微軟作為企業(yè)的戰(zhàn)略必然。

我們必須擁有自己的核心能力。

在14個月前,他和團隊從Inflection加入微軟后,就一直全力推動這件事。

如今,微軟終于發(fā)布了兩款自研模型。

Suleyman強調,微軟未來會繼續(xù)使用OpenAI的模型,也會用開源模型,但關鍵在于「編排器」(orchestrator)。

這是一種模型調度系統(tǒng),能夠根據任務自動選擇合適的模型來完成特定請求,類似「路由器」。

他認為,這種編排能力將成為微軟的重要知識產權。

外界普遍猜測,微軟推出自研模型,是否意味著與OpenAI的關系在降溫?

對此,Suleyman回應道:

我們的目標是進一步加深與OpenAI的合作,并保持長期良好的伙伴關系。

雙方的合作已經非常成功,未來我相信仍會繼續(xù)下去。

微軟如何自研大模型

這次微軟AI透露:「MAI-1-preview是MoE模型,使用約1.5萬張NVIDIA H100 GPU進行了預訓練和后訓練。」

在LMArena文本任務榜單上,MAI-1排名第13,落后于DeepSeek、谷歌、OpenAI和xAI等主要AI玩家的模型。

相比之下,xAI的Grok模型則動用了超過10萬張同類芯片。

微軟AI只用相對小規(guī)模的集群,也能訓練出非常強大的模型。

Suleyman認為自研的新模型表現(xiàn)遠超其硬件規(guī)模,完全可以和世界上最強的模型媲美,而且現(xiàn)在才剛剛開始調優(yōu)。

一旦模型投入實際應用并開始收集反饋,隨著不斷迭代,性能還會顯著提升。

對微軟AI來說,這僅僅是個開始。

微軟AI算力充沛,已經在使用全球最大的數(shù)據中心之一,并配備了Nvidia下一代GB-200芯片,研發(fā)下一版本模型。

而且,他們有一個龐大的五年規(guī)劃,并會持續(xù)投資算力。

規(guī)模很重要,但效率同樣關鍵。

這意味著要精挑細選高質量的訓練數(shù)據,確保每一次浮點運算、每一次GPU迭代都發(fā)揮最大價值。

現(xiàn)在訓練模型的核心能力,已經越來越變成了一種「工藝」——選對數(shù)據,避免把算力浪費在無效的token上。

Suleyman 表示,公司利用了一些源自開源社區(qū)的技術,使得有限資源發(fā)揮了更大作用。

這是微軟首次完整端到端訓練的大模型。在研發(fā)過程中,團隊也遇到了不少挑戰(zhàn)。

Suleyman坦言:「構建這樣規(guī)模的集群、訓練如此龐大的數(shù)據,需要不斷的調試、迭代和耐心。這是每一家實驗室都會面臨的難題?!?/p>

他對團隊的表現(xiàn)非常滿意:「我們從中學到了很多,也積累了足夠的經驗去打造更多優(yōu)秀的模型?!?/p>

他把這比喻成「轉動飛輪」:一旦模型研發(fā)進入正循環(huán),每一代都會推動下一代更快成長。

之前,Suleyman在Inflection,甚至DeepMind都有相關經驗,不過那時候算力規(guī)模較小,GPU還沒有動輒十萬張。

這次的首個模型訓練成功,他認為關鍵在于文化:

優(yōu)秀的文化吸引了優(yōu)秀的人,是優(yōu)秀的團隊才能構建出優(yōu)秀的模型。

而最終,這個團隊的價值觀,也會自然地被注入到模型和產品中。

Suleyman還透露他們已經在開發(fā)下一個模型了:規(guī)模更大,訓練架構也做了一些新的調整。

現(xiàn)在一切都已經啟動了,接下來幾個月、幾年里都會有很多值得期待的東西。

參考資料:

https://copilot.microsoft.com/labs/audio-expression

https://microsoft.ai/news/two-new-in-house-models/

https://x.com/mustafasuleyman/status/1961111770422186452

新智元報道 編輯:艾倫 KingHZ

本文由人人都是產品經理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Pixabay,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!