Minimax“五連發(fā)”都包含哪些內(nèi)容?有何影響?一篇文章為你全面解讀
五天五款新品,MiniMax上演“技術(shù)爆炸”:百萬(wàn)字上下文推理模型、全球性價(jià)比最高的視頻生成、零門檻AI制片、靠譜Agent與任意音色合成齊發(fā)。作者親測(cè)后直言,這可能是下一個(gè)“DeepSeek時(shí)刻”。
6月17日-23日,MiniMax 稀宇科技一連五天發(fā)布了五項(xiàng)產(chǎn)品。一時(shí)間,網(wǎng)絡(luò)上各類消息四起。當(dāng)然,毫不意外地又有一批喊“顛覆”、“變天”的博眼球內(nèi)容混雜在其中。
坦率說(shuō),“宣傳為虛,上手為實(shí)”,是否有真正上手使用,在實(shí)際應(yīng)用場(chǎng)景是否如宣傳般好用,這并不是短時(shí)間內(nèi)可以得出結(jié)論的(多年的產(chǎn)品經(jīng)理生涯告訴我,“體驗(yàn)”不等于“使用”)。
因此,這段時(shí)間以來(lái),我刻意地將使用場(chǎng)景切換到Minimax的相關(guān)產(chǎn)品當(dāng)中。經(jīng)過(guò)一段時(shí)間的使用,也算是有些心得與思考。
接下來(lái),我將按照發(fā)布內(nèi)容,進(jìn)行一一梳理和解讀(由于官方有關(guān)于這5天更新內(nèi)容的詳細(xì)介紹,因此我將不再重復(fù))。
Day 1/5: MiniMax-M1,全球首個(gè)開源大規(guī)模混合架構(gòu)的推理模型
打頭陣的M1推理模型,從測(cè)評(píng)結(jié)果來(lái)看,與OpenAI-o3、Gemini-2.5 Pro、Deepseek-R1-0528等公認(rèn)的Top級(jí)模型的表現(xiàn)是齊平的。
從我這些天的日常體驗(yàn)來(lái)看,與我常用的Deepseek-R1-0528相比,體感上的確沒(méi)有明顯的差別。這個(gè)“沒(méi)有明顯的差別”,是指既沒(méi)有感覺(jué)到弱在哪,也沒(méi)有感覺(jué)到強(qiáng)在哪。甚至我敢打賭,如果對(duì)結(jié)果進(jìn)行盲測(cè),絕大部分人應(yīng)該都分辨不出二者的差別。
但M1的差異化其實(shí)不在于能力,而是源自其“混合架構(gòu)”的兩點(diǎn),其一是“支持目前業(yè)內(nèi)最高的100萬(wàn)上下文的輸入”,其二是“以業(yè)內(nèi)最低的價(jià)格在官網(wǎng)提供API”。以下是Minimax的官方文章對(duì)這兩點(diǎn)的表述。
這主要得益于我們獨(dú)創(chuàng)的以閃電注意力機(jī)制為主的混合架構(gòu),從而在計(jì)算長(zhǎng)的上下文輸入以及深度推理的時(shí)候顯著高效。例如,在用8萬(wàn)Token深度推理的時(shí)候,只需要使用DeepSeek R1約30%的算力。這個(gè)特性使得我們?cè)谟?xùn)練和推理的時(shí)候都有很大的算力效率優(yōu)勢(shì)。
因?yàn)橄鄬?duì)高效的訓(xùn)練和推理算力使用,我們?cè)?MiniMax APP 和 Web 上都保持不限量免費(fèi)使用,并以業(yè)內(nèi)最低的價(jià)格在官網(wǎng)提供API。
這就是Minimax標(biāo)題所宣稱的“全球首個(gè)開源大規(guī)?;旌霞軜?gòu)的推理模型”。當(dāng)然,我認(rèn)知里的“首個(gè)混合架構(gòu)”應(yīng)該是騰訊的混元大模型(號(hào)稱“業(yè)內(nèi)首個(gè)超大規(guī)模混合Mamba推理模型”)。
不過(guò)這些名頭歸屬的爭(zhēng)論,咱們作為使用者并不太需要關(guān)注。我這里更想點(diǎn)出的,是我發(fā)現(xiàn)各大模型在“卷能力”的同時(shí),也開始卷其他的差異化特性。像之前騰訊的混元T1大模型,就是通過(guò)混合Mamba架構(gòu)提升了運(yùn)行速度。
而Minimax則是從上下文長(zhǎng)度和運(yùn)行成本上拉開差距(沒(méi)想到之前以“高效的算力利用”著稱的Deepseek,不到半年就成了對(duì)比中的“高成本”產(chǎn)品)。
Day 2/5:Hailuo 02,打破全球視頻模型效果成本紀(jì)錄
視頻領(lǐng)域我關(guān)注不算多,因此對(duì)于MiniMax本次更新,我更多地參考了多方的意見(jiàn)??偟膩?lái)說(shuō),我認(rèn)為“數(shù)字生命卡茲克”的測(cè)評(píng)和總結(jié)比較值得一看。
大體來(lái)講,本次Hailuo 02最為驚艷的地方就是,它可能是目前全球唯一一個(gè)可以生成體操、雜技表演等復(fù)雜人體動(dòng)作的模型。這一點(diǎn)從官方的演示視頻和最近在網(wǎng)上火熱的“動(dòng)物奧運(yùn)會(huì)”視頻就可以看出。
同樣讓人驚艷的還有價(jià)格,從下圖可以看到,同樣的成本,Hailuo 02無(wú)論是在768p和1080p的生成,性價(jià)比都是最高的。同時(shí)Hailuo 02優(yōu)秀的指令遵循特性,我們知道,視頻生成領(lǐng)域有著“抽卡機(jī)制”的存在。二者相結(jié)合,可以說(shuō),Hailuo 02是目前生成視頻使用者的首選模型了。
Day 3/5:MiniMax Agent,最大的智慧是“靠譜”
這應(yīng)該是國(guó)內(nèi)繼Manus、扣子空間之后,第三個(gè)具有影響力的AI Agent產(chǎn)品了。官方對(duì)其的表述是,“MiniMax Agent,一個(gè)能完成長(zhǎng)程(Long Horizon)復(fù)雜任務(wù)的通用智能體,也就是能多步規(guī)劃出專家級(jí)解決方案、能靈活拆解任務(wù)需求、并能執(zhí)行多個(gè)子任務(wù)從而交付最終結(jié)果”。
拒絕再被帶節(jié)奏,這4點(diǎn)內(nèi)容幫助你全面了解關(guān)于Manus的基本問(wèn)題
??扣子空間功能解析與使用體驗(yàn)評(píng)測(cè)??
從能力來(lái)看,編程、多模態(tài)、MCP擴(kuò)展,這些AI Agent該有的,MiniMax Agent都具備。那么標(biāo)題所說(shuō)的“靠譜”從何而來(lái)呢?按照官方的說(shuō)法,就是它“能夠模擬用戶操作做非常全面的測(cè)試,不交付有bug的網(wǎng)頁(yè)”。
關(guān)于這一點(diǎn),我在介紹扣子空間時(shí)就提到,“對(duì)于復(fù)雜的任務(wù),扣子空間的穩(wěn)定性還有待提升”。因此,MiniMax說(shuō)“最大的智慧是‘靠譜’”,這一點(diǎn)我很是認(rèn)同。當(dāng)然,在“靠譜”這個(gè)層面,是需要來(lái)自各類場(chǎng)景的使用來(lái)驗(yàn)證的,我們姑且把它作為一個(gè)長(zhǎng)期觀察項(xiàng),期待更多使用者的驗(yàn)證吧。
Day 4/5:Hailuo Video Agent,Vibe Videoing 零門檻,成片直出
標(biāo)題中的“Vibe Videoing”,是指通過(guò)AI技術(shù)實(shí)現(xiàn)“言出法隨”的視頻生成方式。對(duì)于Hailuo Video Agent,可以簡(jiǎn)單理解為“視頻模板 + AI生成”,即我們選擇視頻模板,再輸入視頻主題的文字或圖片,AI就可以將二者進(jìn)行結(jié)合,通過(guò)調(diào)用各類視頻制作工具,從構(gòu)思到視頻生成到后期配音直接完成,直接向用戶交付成品級(jí)別的視頻。關(guān)于這一點(diǎn),MiniMax官方有更詳細(xì)的描述。
- 拋棄傳統(tǒng)工作流+節(jié)點(diǎn)的工具模式,通過(guò)LLM語(yǔ)言模型的工具調(diào)用能力,創(chuàng)新性地支持用戶在自然語(yǔ)言描述中構(gòu)建完整視頻;
- 打造視頻構(gòu)思、資料收集、分鏡制作、剪輯、配音等視頻制作全流程工具集,并通過(guò)Agent模型在不同階段實(shí)現(xiàn)自動(dòng)調(diào)用。為了提高短片創(chuàng)作的質(zhì)量,我們遴選了所有視頻創(chuàng)作需要的最佳工具集;
- Agent思維鏈可視化,用戶實(shí)時(shí)查看Agent創(chuàng)作流程,為自定義編輯功能提供可視窗口與操作空間。
我自己曾經(jīng)試過(guò)全程用AI來(lái)生成一首歌曲及其MV。但過(guò)程中的所有工具都需要我自己來(lái)調(diào)用,最后在拼接畫面加特效的步驟還是得靠人工操作剪映來(lái)完成。應(yīng)該說(shuō)視頻視頻的AI Agent產(chǎn)品的出現(xiàn),是很讓人驚喜的。但對(duì)比起來(lái),MiniMax說(shuō)他們將分三個(gè)階段打造Hailuo Video Agent,這一點(diǎn)更加讓人期待。
- 第一階段,提供專業(yè)視頻創(chuàng)意Agent模版,用戶只需根據(jù)提示輸入文字或圖片,即可一鍵生成高質(zhì)量創(chuàng)意短片;
- 第二階段,半自定義視頻Agent,讓用戶能夠在視頻生成的任一環(huán)節(jié)進(jìn)行自由編輯;
- 第三階段,實(shí)現(xiàn)完全形態(tài)的端到端視頻Agent。
MiniMax說(shuō),接下來(lái)的這個(gè)夏天,我們計(jì)劃陸續(xù)把第二階段的Agent創(chuàng)作工具開放給大家。我們也可以期待,在它的推動(dòng)下,業(yè)界能夠做到“更輕松轉(zhuǎn)化創(chuàng)意,讓視頻創(chuàng)意和生成更加普惠”。
Day 5/5:Voice Design,萬(wàn)般聲韻,因你而生
最后一個(gè)是“聲音生成”領(lǐng)域的模型Speech 02,它最為亮眼之處,就是支持基于用戶通過(guò)自然語(yǔ)言描述,包括音頻質(zhì)量、發(fā)聲方式、情感基調(diào)以及人物畫像,來(lái)生成用戶心中所想的音色。關(guān)于這一點(diǎn),我們可以直接感受一下用它的模型生成的介紹文本的朗讀。
通過(guò)Voice Design的方式生成聲音,主要解決語(yǔ)音合成領(lǐng)域的兩個(gè)挑戰(zhàn):
- 第一個(gè)挑戰(zhàn)是,音色庫(kù)所提供的系統(tǒng)音色質(zhì)量雖高,但往往側(cè)重于通用場(chǎng)景,難以精準(zhǔn)匹配用戶各個(gè)細(xì)分場(chǎng)景下的多樣需求;
- 第二個(gè)挑戰(zhàn)是,復(fù)刻音色雖然可實(shí)現(xiàn)“所聽即所得”,但為了達(dá)到滿意的效果,用戶需要花大量的時(shí)間準(zhǔn)備高質(zhì)量輸入素材,同時(shí)存在潛在的版權(quán)風(fēng)險(xiǎn),用戶想要獲得所需要的音色仍存在一定門檻。
理論上,Speech 02就是一個(gè)“任意語(yǔ)言 + 任意音色”的“聲音生成”模型。再結(jié)合近期AI Agent的迅猛發(fā)展,我們完全可以憧憬,在今年就會(huì)看到直接由AI全自動(dòng)全流程生成的,符合書中各個(gè)角色設(shè)定的“有聲書”。甚至,我可以肯定,類似的產(chǎn)品已經(jīng)在研發(fā)中,或者是在本人還沒(méi)注意到的地方誕生了。
不算總結(jié)的總結(jié)
我在去年曾經(jīng)體驗(yàn)過(guò)一段時(shí)間的“海螺AI”(那會(huì)兒的Chat還叫“海螺”,現(xiàn)在這個(gè)品牌已經(jīng)是視頻專屬了),坦率說(shuō)并沒(méi)有任何讓我留下深刻印象之處。
之后的日子里,時(shí)而也有聽說(shuō)Hailuo 01、Speech 01的一些報(bào)道,但也談不上驚艷。而這兩周前的“五連發(fā)”,從文本生成、視頻生成、Agent再到聲音生成,可以說(shuō)覆蓋了我們?nèi)粘?yīng)用的各個(gè)領(lǐng)域,一下子就全面開花,而且表現(xiàn)優(yōu)秀,就這么不講道理地大跨步向前邁進(jìn)。
Minimax在介紹中說(shuō),M1推理模型能夠支持100萬(wàn)上下文的輸入,而《三體》三部曲一共才86萬(wàn)字。思及此處,不禁讓我想起大劉在《三體》中所提到的“技術(shù)爆炸”。
或者說(shuō),這,會(huì)不會(huì)是又一次“Deepseek時(shí)刻”呢?且讓我們繼續(xù)保持關(guān)注吧。
作者:產(chǎn)品經(jīng)理崇生,公眾號(hào):崇生的黑板報(bào)
本文由作者原創(chuàng)投稿/授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自 unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!