除了Qwen,阿里還有什么好東西?
阿里在AI領(lǐng)域的開源策略展現(xiàn)了其技術(shù)實(shí)力和對開發(fā)者社區(qū)的支持。本文將帶你深入了解阿里在AI領(lǐng)域的“隱藏寶藏”,以及它們?nèi)绾螢殚_發(fā)者提供強(qiáng)大的工具和解決方案。
8月5日,阿里巴巴通義千問團(tuán)隊(duì)今天正式開源了Qwen-Image文生圖模型,該模型采用20B參數(shù)的MMDiT主干、7B參數(shù)的VLM文本編碼器和127M參數(shù)的VAE架構(gòu),專門針對中文復(fù)雜排版與高精度圖像編輯進(jìn)行優(yōu)化。
新模型一出,開發(fā)者們一邊驚嘆“海報(bào)自由終于實(shí)現(xiàn)了”,一邊也開始疑惑:“開源了Qwen-Image,是不是和萬相系列模型功能重復(fù)了?”
實(shí)際上,在Qwen-Image的技術(shù)報(bào)告中,Qwen團(tuán)隊(duì)明確闡述了與Wan系列的差異定位。Qwen-Image專門針對圖像中的文字渲染進(jìn)行了特定優(yōu)化,尤其擅長海報(bào)設(shè)計(jì)等需要精確文本表現(xiàn)的場景,而Wan系列則采用更全面均衡的技術(shù)路線,重點(diǎn)覆蓋視頻生成和編輯能力。
更有趣的是,這次發(fā)布讓不少人意識(shí)到,除了廣為人知的Qwen系列,阿里竟然還有如此龐大的模型家族。據(jù)統(tǒng)計(jì),阿里迄今已開源200余款模型,覆蓋文本、視覺、語音、視頻、3D、代碼等全模態(tài)領(lǐng)域,參數(shù)規(guī)模從0.5B到110B不等。
這些模型并非各自為政,而是體現(xiàn)了清晰的分工架構(gòu)。Qwen團(tuán)隊(duì)作為核心力量,不僅包含語言模型的各個(gè)版本,還推出了專門的推理模型;圖像和視頻模型主要由Wan團(tuán)隊(duì)負(fù)責(zé);而類似于OpenAI DeepResearch功能的WebSearch模型則來自AlibabaLab。
那么除了已經(jīng)廣受關(guān)注的Qwen系列,阿里還有哪些值得開發(fā)者關(guān)注的開源珍品?讓我們來逐一盤點(diǎn)。
一、Wan萬相系列
通義萬相(Wan)同樣是阿里通義實(shí)驗(yàn)室研發(fā)的視覺生成模型,專門負(fù)責(zé)視覺內(nèi)容生成任務(wù)。該系列模型覆蓋文生圖、圖生圖、文生視頻、圖生視頻、首尾幀生視頻等多種生成能力,主要應(yīng)用場景包括影視創(chuàng)作、動(dòng)畫設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域。
2024年2月,通義萬相視頻生成模型正式開源,成為業(yè)界首個(gè)開源的大規(guī)模視頻生成模型,這一舉措直接降低了企業(yè)和開發(fā)者進(jìn)入視頻生成領(lǐng)域的門檻。開源后的表現(xiàn)也相當(dāng)亮眼——迅速登頂Hugging Face模型熱榜和模型空間榜兩大榜單,成為當(dāng)時(shí)全球開源社區(qū)最受歡迎的大模型。
Wan系列的開源歷程可以追溯到2024年2月,當(dāng)時(shí)通義萬相視頻生成模型正式開源,成為業(yè)界首批開源的視頻生成模型之一。此后該系列保持了較快的迭代節(jié)奏,目前在HuggingFace中開源了20款模型,覆蓋各個(gè)參數(shù)和類型。
所有開源版本均采用Apache 2.0協(xié)議,開發(fā)者可以在GitHub、HuggingFace和魔搭社區(qū)等平臺(tái)獲取完整的推理代碼和模型權(quán)重。根據(jù)公開數(shù)據(jù),截至目前Wan系列模型總下載量已超過350萬次,GitHub項(xiàng)目獲得超過13k星標(biāo)。
從剛剛發(fā)布的Qwen-Image技術(shù)報(bào)告來看,阿里在AI模型布局上展現(xiàn)了更加清晰的分工策略。雖然同屬通義大家族,但Qwen-Image與通義萬相Wan系列走的是完全不同的技術(shù)路線。
Qwen-Image的核心亮點(diǎn)在于“復(fù)雜文本渲染”能力,特別是對中文文字的精準(zhǔn)處理。從技術(shù)架構(gòu)上看,它采用了20B參數(shù)的MMDiT主干、7B參數(shù)的VLM文本編碼器和127M參數(shù)的VAE,并設(shè)計(jì)了專門的MSRoPE(多模態(tài)可擴(kuò)展旋轉(zhuǎn)位置編碼)來處理圖像和文本的聯(lián)合位置信息。這種設(shè)計(jì)讓模型能夠在生成的圖像中準(zhǔn)確渲染多行文本、段落級語義和精細(xì)細(xì)節(jié)。
相比之下,通義萬相Wan系列定位為“視頻為中心”的視覺生成基座,采用時(shí)空統(tǒng)一的擴(kuò)散Transformer框架,同時(shí)覆蓋文生圖、文生視頻、圖生視頻等八類任務(wù),產(chǎn)品矩陣從1.3B到27B參數(shù)規(guī)模不等。雖然Wan也具備文生圖能力,但其重心明顯在視頻生成和編輯上。
從實(shí)際應(yīng)用角度看,兩個(gè)系列形成了很好的互補(bǔ)關(guān)系。Qwen-Image更適合需要精確文字渲染的場景,比如海報(bào)設(shè)計(jì)、文檔生成、多語言內(nèi)容創(chuàng)作等,特別是涉及中文復(fù)雜排版的專業(yè)應(yīng)用。而Wan系列則更適合視頻內(nèi)容創(chuàng)作、動(dòng)畫制作、影視后期等需要時(shí)序一致性的場景。
值得注意的是,雖然都屬于通義大家族,但Qwen-Image由通義千問團(tuán)隊(duì)開發(fā),而通義萬相Wan則由獨(dú)立的通義萬相實(shí)驗(yàn)室主導(dǎo)。該團(tuán)隊(duì)專注于視覺生成技術(shù)。從產(chǎn)品策略來看,Wan系列采用了相對激進(jìn)的開源策略,不僅開源模型權(quán)重,還提供完整的推理代碼,這在一定程度上降低了企業(yè)和開發(fā)者使用視頻生成技術(shù)的門檻。
與阿里內(nèi)部的其他模型相比,Wan系列專門負(fù)責(zé)視覺生成領(lǐng)域,與主要處理文本和多模態(tài)理解的Qwen系列形成了功能上的互補(bǔ)。
二、Alibaba-NLP團(tuán)隊(duì)的Web系列
如果說通義萬相Wan系列還算是備受關(guān)注的明星模型,那么WebSailor系列簡直可以稱為“滄海遺珠”。
WebSailor的定位直指OpenAI的DeepResearch功能,專門解決復(fù)雜網(wǎng)絡(luò)檢索和推理任務(wù)。與傳統(tǒng)的搜索引擎或簡單問答系統(tǒng)不同,WebSailor面對的是那些需要跨多個(gè)網(wǎng)頁收集線索、進(jìn)行多步推理才能解答的高難度問題。
比如“找一首與南美某首都密切相關(guān)的樂曲,其歌詞作者在21世紀(jì)初獲頒當(dāng)?shù)貥s譽(yù)稱號,其旋律創(chuàng)作者曾就讀于哥倫比亞西部的一所著名藝術(shù)學(xué)院。這首樂曲叫什么?”這類問題不僅考驗(yàn)AI的信息檢索能力,更考驗(yàn)其邏輯推理和信息整合能力。
在今年4月OpenAI發(fā)布的BrowseComp評測集上,WebSailor交出了令人驚艷的成績單。這個(gè)包含1266個(gè)高難度問題的評測集被業(yè)界公認(rèn)為最具挑戰(zhàn)性的網(wǎng)絡(luò)智能體基準(zhǔn)之一,而WebSailor不僅在開源模型中實(shí)現(xiàn)了斷層領(lǐng)先,甚至超越了多個(gè)閉源模型,僅次于OpenAI的DeepResearch。
WebSailor的硬實(shí)力,來源于它背后的團(tuán)隊(duì):Alibaba-NLP。它并不隸屬于通義,研究力量主要分布在達(dá)摩院語言技術(shù)實(shí)驗(yàn)室和通義實(shí)驗(yàn)室兩條線,前者專注于低資源多語言理解與生成、AliceMind系列模型等基礎(chǔ)研究,后者則由孫常龍帶領(lǐng)的NLP應(yīng)用算法團(tuán)隊(duì)主導(dǎo),專注于大模型應(yīng)用落地,包括RAG、Agent等前沿領(lǐng)域。
這兩大實(shí)驗(yàn)室在學(xué)術(shù)界同樣表現(xiàn)不俗,近三年在ACL/EMNLP/AAAI等頂級會(huì)議累計(jì)發(fā)表論文250余篇,在ACL 2023獲得杰出論文獎(jiǎng)2次,在SemEval 22/23連續(xù)獲得最佳論文獎(jiǎng)。這種深厚的學(xué)術(shù)底蘊(yùn)為WebSailor等應(yīng)用型模型提供了堅(jiān)實(shí)的理論基礎(chǔ)。
目前,Alibaba-NLP已經(jīng)發(fā)布了48款開源模型(比Wan還要多),包括WebWalker、WebDancer和WebSailor三個(gè)檢索和推理智能體,并全部斬獲SOTA成績,形成了完整的網(wǎng)絡(luò)智能體產(chǎn)品矩陣。
三、其他零散的模型
除了已經(jīng)比較成體系的模型系列以外,還有一些單個(gè)的模型,比如來自通義Lab的ThinkSound,它并不屬于Qwen系列,而是一個(gè)音頻模型,它是一個(gè)“帶腦子”的音頻生成模型——它先像人類音效師一樣“想清楚”畫面里該有什么聲音,再一次性合成高保真、零錯(cuò)位的空間音頻。
ThinkSound首次把 Chain-of-Thought 引入聲音生成:先用多模態(tài)大語言模型逐幀推理“畫面里發(fā)生了什么、該有什么聲音、音量方位如何”,再交給統(tǒng)一的擴(kuò)散網(wǎng)絡(luò)一次性合成 48 kHz、立體聲、帶空間定位的高保真波形,真正做到“看懂畫面再配音”。模型支持 Any2Audio——視頻、純文本、音頻片段或任意混合輸入均可輸出同步音軌;也支持對象級交互編輯,用戶點(diǎn)畫面里的貓或輸入“讓雨聲大一點(diǎn)”即可局部重生成。
技術(shù)棧上,ThinkSound 提供 1.3 B/724 M/533 M 三個(gè)量級,全部 Apache 2.0 協(xié)議,單張 RTX 4090 就能給 720 P 視頻實(shí)時(shí)配音。官方在 VGGSound、MovieGen Audio Bench 等公開基準(zhǔn)上領(lǐng)先現(xiàn)有方案 15 % 以上,并發(fā)布了 2531.8 小時(shí)的 AudioCoT 訓(xùn)練集,含人工校驗(yàn)的“事件-聲源-物理屬性-時(shí)序”四元組標(biāo)注,覆蓋動(dòng)物、機(jī)械、城市、自然等 1000 + 場景。
另外還有一些更加垂直的模型,比如AMAP-ML團(tuán)隊(duì)推出的地圖模型。AMAP-ML 是高德地圖 AI 中臺(tái)面向“空間智能”打造的開源模型與工具鏈,2025 年 7 月在 GitHub 一次性放出 14 個(gè)倉庫。核心目標(biāo)是把高德 20 年積累的路網(wǎng)、街景、交通、POI、定位數(shù)據(jù),蒸餾成可即插即用的空間大模型。
目前公開的三條主線:RealQA 用多模態(tài)大模型給圖像質(zhì)量與美感打分,F(xiàn)LUX-Text 支持 512×512 起的高保真場景文字編輯,海報(bào)、路牌一鍵改字;UniVG-R1 則是推理引導(dǎo)的視覺定位模型,一句話即可在復(fù)雜場景中精準(zhǔn)框出目標(biāo)。
底層還提供時(shí)空向量底座,把道路、建筑、實(shí)時(shí)車流全部向量化,封裝成 RESTful API,汽車、機(jī)器人、AR 眼鏡均可調(diào)用。官方已與多家車企座艙、低空飛行器完成落地,實(shí)現(xiàn)“AMAP-AI Inside”。整站 Apache 2.0 協(xié)議,單卡 4090 即可跑通,讓任何開發(fā)者都能在自己的硬件里擁有“高德級”空間感知能力。
盤點(diǎn)完阿里的AI模型家族,最令人印象深刻的并非某個(gè)單一模型的性能突破,而是其堅(jiān)定不移的開源策略。從Qwen系列到Wan系列,再到相對低調(diào)的WebSailor,幾乎所有核心技術(shù)都選擇了完全開源,不同于一些公司僅開源部分能力或附加諸多限制條件,阿里各個(gè)技術(shù)團(tuán)隊(duì)都在踐行真正的開源準(zhǔn)則。
這種“真開源”的戰(zhàn)略,似乎已經(jīng)貫徹到了整個(gè)阿里巴巴,在Meta逐步放棄Llama系列模型的當(dāng)下,阿里成了全球范圍內(nèi),最擁護(hù)開源戰(zhàn)略的巨頭公司。
作者|Yoky
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自阿里巴巴官網(wǎng)截圖
為阿里點(diǎn)贊!