MEUX「四月」AI設(shè)計(jì)觀察
四月的AI設(shè)計(jì)領(lǐng)域迎來了一系列令人矚目的創(chuàng)新和突破。百度MEUX團(tuán)隊(duì)的觀察涵蓋了從圖像生成到視頻制作,再到數(shù)字人創(chuàng)建等多個(gè)方面的最新進(jìn)展。這些技術(shù)進(jìn)步不僅展示了人工智能在創(chuàng)意產(chǎn)業(yè)中的潛力,也為設(shè)計(jì)師和開發(fā)者提供了新的工具和平臺(tái)。
【1】重磅推出ChatGPT-4o文生圖
【2】Runway發(fā)布AI視頻生成模型Gen-4
【3】Midjourney發(fā)布AI圖片生成模型V7
【4】AnimeGamer打造無限動(dòng)漫人生模擬器
【5】即夢(mèng)3.0內(nèi)測(cè):可直出2K商業(yè)海報(bào)
【6】ComfyUI-Copilot發(fā)布
【7】DomoAI推出語音圖像生成數(shù)字人功能
【8】Ready AI:輸入提示詞即可生成專業(yè)級(jí)網(wǎng)頁
【9】DeepSeek-V3發(fā)布:技術(shù)圈沸騰的低調(diào)升級(jí)
【10】通義開源發(fā)布「超寫實(shí)3D數(shù)字人」大模型
1.重磅推出ChatGPT-4o文生圖
ChatGPT推出基于GPT-4o的原生圖像生成功能,升級(jí)后功能更加精確,能更好地遵循指示、渲染文字,并支持多輪迭代優(yōu)化圖像。該升級(jí)解決了AI圖像生成器理解提示詞能力差的問題,并增強(qiáng)了圖像編輯功能。新功能適用于商業(yè)應(yīng)用,如卡片自定義生成和游戲角色設(shè)計(jì)等。目前,該功能已向所有用戶推出,未來幾周內(nèi)開發(fā)者可通過API調(diào)用。
2.Runway發(fā)布AI視頻生成模型Gen-4
Runway公司發(fā)布了最新AI視頻生成模型Gen-4,該模型能高度保持角色、地點(diǎn)和物體的一致性,生成連貫世界環(huán)境的視頻,無需模型微調(diào)或額外訓(xùn)練。Gen-4通過學(xué)習(xí)海量視頻數(shù)據(jù)生成新合成視頻,表現(xiàn)出卓越的運(yùn)動(dòng)效果和對(duì)現(xiàn)實(shí)世界規(guī)律的理解。Runway期望通過Gen-4等新產(chǎn)品實(shí)現(xiàn)年化收入目標(biāo),同時(shí)AI視頻生成工具正對(duì)電影電視行業(yè)帶來顛覆性挑戰(zhàn)。
3.Midjourney發(fā)布AI圖片生成模型V7
Midjourney公司旗下AI圖片生成模型V7版本開啟了alpha測(cè)試,主要升級(jí)了“草圖模式”。該模式耗時(shí)和資源消耗減半,同時(shí)提供對(duì)話式交互界面,支持實(shí)時(shí)編輯和語音識(shí)別生成功能,用戶可通過語音指令調(diào)整圖片。此外V7版本增強(qiáng)了文本理解能力和細(xì)節(jié)紋理質(zhì)感,默認(rèn)啟用個(gè)性化模型功能。不過“草圖模式”下生成的圖片分辨率較低,部分功能仍調(diào)用V6模型,未來將逐步升級(jí)。
4.AnimeGamer打造無限動(dòng)漫人生模擬器
騰訊ARC實(shí)驗(yàn)室與香港城市大學(xué)聯(lián)合發(fā)布了名為“AnimeGamer”的創(chuàng)新項(xiàng)目,該項(xiàng)目利用多模態(tài)大語言模型實(shí)現(xiàn)無限動(dòng)漫人生模擬,用戶可通過自然語言指令與動(dòng)漫世界實(shí)時(shí)互動(dòng),扮演角色并體驗(yàn)不同動(dòng)漫作品的角色聯(lián)動(dòng)。AnimeGamer展現(xiàn)了多模態(tài)大語言模型在創(chuàng)意內(nèi)容生成方面的巨大潛力,為動(dòng)漫文化愛好者和AI研究注入新活力。
5.即夢(mèng)3.0內(nèi)測(cè)
可直出2K商業(yè)海報(bào)即夢(mèng)3.0模型在圖像生成領(lǐng)域?qū)崿F(xiàn)了重大技術(shù)飛躍,其能夠通過簡(jiǎn)單的文字提示生成細(xì)節(jié)豐富、品質(zhì)卓越的圖像。與前代相比,該模型在場(chǎng)景布局、色彩搭配及細(xì)節(jié)刻畫上均有顯著提升,尤其在處理復(fù)雜場(chǎng)景時(shí)表現(xiàn)突出。即夢(mèng)3.0的生成速度極快,極大地提高了創(chuàng)意迭代的效率,為設(shè)計(jì)師和創(chuàng)意工作者提供了強(qiáng)大的輔助工具。這一突破有望顛覆傳統(tǒng)圖像創(chuàng)作方式,開啟AI圖像生成的新紀(jì)元。
6.ComfyUI-Copilot發(fā)布
ComfyUI-Copilot是一款結(jié)合自然語言處理與節(jié)點(diǎn)式工作流的創(chuàng)新工具,賦予用戶類似GPT-4o的圖像生成與編輯能力。它通過簡(jiǎn)單的文字描述即可自動(dòng)完成AI流程,支持中英文交互,并集成多項(xiàng)實(shí)用功能,如模型推薦、錯(cuò)誤診斷等,顯著降低了AI圖像生成的使用門檻,提升了創(chuàng)作效率。
7.DomoAI推出語音圖像生成數(shù)字人功能
DomoAI推出語音圖像生成數(shù)字人功能,用戶可上傳語音和圖像快速生成會(huì)說話的虛擬人物,支持口型同步及多種時(shí)長(zhǎng)選擇。該功能旨在降低內(nèi)容創(chuàng)作門檻,推動(dòng)AI與娛樂產(chǎn)業(yè)融合,已在社交平臺(tái)上引發(fā)熱烈討論,被視為數(shù)字內(nèi)容創(chuàng)作領(lǐng)域的重要革新。
8.Ready AI
輸入提示詞即可生成專業(yè)級(jí)網(wǎng)頁Ready AI是一款能快速生成專業(yè)級(jí)網(wǎng)頁界面的工具,用戶只需輸入文字指令即可在30秒內(nèi)獲得設(shè)計(jì)。它支持實(shí)時(shí)預(yù)覽、版本對(duì)比及多種框架選擇,并允許用戶自定義顏色風(fēng)格等細(xì)節(jié)。盡管生成內(nèi)容限于前端界面,需配合編程工具實(shí)現(xiàn)后端功能,但其高效便捷的特點(diǎn)仍受到設(shè)計(jì)圈的廣泛關(guān)注。
9.DeepSeek-V3發(fā)布
技術(shù)圈沸騰的低調(diào)升級(jí)中國(guó)AI研究機(jī)構(gòu)DeepSeek低調(diào)發(fā)布了DeepSeek-V3-0324模型,參數(shù)量達(dá)685億,顯著提升數(shù)學(xué)與編程能力,并采用更開放的MIT協(xié)議。此次更新雖未大肆宣傳,但已在技術(shù)社區(qū)引發(fā)熱烈反響,被視為挑戰(zhàn)行業(yè)巨頭的潛力股,且可能為DeepSeek-R2的發(fā)布奠定基礎(chǔ)。
10.通義開源發(fā)布「超寫實(shí)3D數(shù)字人」大模型
阿里通義起源發(fā)布了全新超寫實(shí)3D數(shù)字人大模型LHM,該模型能利用單視角輸入快速生成可驅(qū)動(dòng)的3D數(shù)字人,適用于動(dòng)作重現(xiàn)、游戲角色生成和虛擬現(xiàn)實(shí)探索等場(chǎng)景。LHM的推出展示了AI在3D數(shù)字人領(lǐng)域的強(qiáng)大能力,預(yù)示著未來數(shù)字娛樂和虛擬現(xiàn)實(shí)的新可能。
本文由人人都是產(chǎn)品經(jīng)理作者【百度MEUX】,微信公眾號(hào):【百度MEUX】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!