谷歌2.5 Image:『你是我的神』,準(zhǔn)備丟掉PS了
在人工智能圖像生成領(lǐng)域,谷歌的 Gemini 2.5 Flash Image 模型以其卓越的性能和創(chuàng)新功能,正在引發(fā)一場(chǎng)視覺(jué)創(chuàng)作的革命。這篇文章詳細(xì)介紹了 Gemini 2.5 Flash Image 的強(qiáng)大功能,包括其在圖像生成、風(fēng)格轉(zhuǎn)換、人物一致性保持以及多模態(tài)智能方面的突破。
最初爆火的Nano Banana正式發(fā)布了,果然是谷歌新出的大模型?Gemini 2.5 Flash Image?!
可以說(shuō),繼Gemini 2.5、Veo 3實(shí)現(xiàn)多模態(tài)推理、視頻音畫(huà)同步的『 TIP 』后,2.5 Flash Image又實(shí)現(xiàn)了AI 圖像創(chuàng)作一致性、真實(shí)性的新高度!
一開(kāi)始是網(wǎng)友在 LMArena 這個(gè)網(wǎng)站上, 玩讓不同的 AI 模型隱去名字,互相比拼的“AI 對(duì)戰(zhàn)” 能力,發(fā)現(xiàn)有個(gè)叫 Nano Banana 的模型非常出色,人物一致性做的比任何圖像大模型都強(qiáng)!
在以往,圖像生成模型在圖像美感方面表現(xiàn)出色,但缺乏對(duì)現(xiàn)實(shí)世界的深度語(yǔ)義理解。而?Gemini 2.5 Flash Image則能夠讀取和理解手繪圖表、幫助解答實(shí)際問(wèn)題以及一步完成復(fù)雜編輯指令的能力。
現(xiàn)在該模型可以在Gemini和Google AI Studio上免費(fèi)使用,同時(shí)API以每張圖像0.039$(折合人民幣0.28¥)的價(jià)格開(kāi)放。
鯨哥對(duì)它進(jìn)行了一些實(shí)際測(cè)試,總的來(lái)說(shuō),它的表現(xiàn)只能用Niubility來(lái)形容,AI對(duì)真實(shí)圖片的PS,已經(jīng)達(dá)到了以假亂真的地步。
首先測(cè)試的是圖片生成3D手辦的測(cè)試,將歐豪和海清的原圖放進(jìn)去,經(jīng)典梗:你是我的神!不知大家記得不。然后告訴AI提示詞。
提示詞:把這張照片變成一個(gè)人物模型。在它后面放一個(gè)印有人物圖像的盒子,以及一臺(tái)顯示 Blender 建模過(guò)程的電腦。在盒子前面放一個(gè)圓形塑料底座,人物模型就站在上面。場(chǎng)景設(shè)置在室內(nèi)。
再繼續(xù)測(cè)試,讓角色互換,歐豪和海清位置互換,其他動(dòng)作和場(chǎng)景一點(diǎn)都不變,生成的圖片也沒(méi)有絲毫違和感。不過(guò)原圖清晰度(梗圖太老了),其實(shí)還是影響了生成的結(jié)果。
接下來(lái)測(cè)試,給阿姨做了不同的風(fēng)格變換,有慕夏繪畫(huà)、流行波普、孟菲斯、藍(lán)線技術(shù)等風(fēng)格。不同風(fēng)格中,人物一致性得到了高度統(tǒng)一。
它的無(wú)縫融合多張圖片的能力,也是Gemini 2.5 Flash Image的最強(qiáng)能力之一。
最近即時(shí)零售大戰(zhàn),送外賣(mài)補(bǔ)貼比較多。我們讓馬斯克騎著電動(dòng)車(chē)去送外賣(mài)。。。
提示詞:讓圖片中的男性馬斯克,在老居民小區(qū)里面,帶著美團(tuán)的頭盔,騎電動(dòng)車(chē)送外賣(mài)。
我們可以看見(jiàn)圖片中的馬斯克帶上了某團(tuán)的頭盔,騎著特定的電動(dòng)車(chē)在老巷子里送外賣(mài),人物頭像沒(méi)有變臉,姿勢(shì)和光線的一致性恰到好處。
據(jù)野史記載,秦始皇曾在南極騎著北極熊,”有圖有真相”,這個(gè)網(wǎng)絡(luò)熱梗不知道大家有沒(méi)有聽(tīng)說(shuō)過(guò),在這里,我們也測(cè)試一下它能不能將兩張完全不是一個(gè)平面的照片合在一起。
提示詞:根據(jù)圖片,合成一張秦始皇騎北極熊的圖片,要求整體保持一致的和諧。
秦始皇還真騎上了北極熊……兩張圖完全不在一個(gè)維度,但硬是拼出了和諧畫(huà)面,雖然有點(diǎn)違和但不多。
將多人放在同一照片中合照的測(cè)試,這個(gè)很考驗(yàn)?zāi)P蛯?duì)細(xì)節(jié)的還原。
生成的圖片中,不管是人物的穿搭搭配還是動(dòng)作表情,都非常的和諧,人物站位也有前后的順序調(diào)整,這是實(shí)拍照片嗎?AI已經(jīng)讓我傻掉了。
隨后測(cè)試了,在不同姿勢(shì)中保持人物形象的一致性。
提示詞:將圖中的女性360度旋轉(zhuǎn),展示她的左側(cè)、后側(cè)、右側(cè),保持衣服,發(fā)型,五官,人物特點(diǎn)的一致。
圖片中的女性四方位圖,不管是體型還是表情都沒(méi)有變化,椅子的朝向也跟隨著人物的變化而變化,只在右側(cè)圖中,手勢(shì)和放腳的地方變了。
不知道大家有沒(méi)有看最近爆火的《浪浪山小妖怪》,小孩看是喜劇,大人看是職場(chǎng)諷刺。我讓它基于四個(gè)動(dòng)漫角色生成不同表情包。
提示詞:給圖片中的四個(gè)動(dòng)漫角色生成四張不同的表情包
每張都保持了角色一致性,表情豐富多樣,完美做成表情包套裝。國(guó)外有人擴(kuò)展到10張不同風(fēng)格,意義各異,還挺有創(chuàng)意的。 這功能對(duì) meme 愛(ài)好者來(lái)說(shuō)是福音,但如果角色太復(fù)雜,偶爾會(huì)丟點(diǎn)細(xì)節(jié)。
鯨哥再測(cè)試使用提示詞進(jìn)行圖片精準(zhǔn)的調(diào)整,給幾百年沒(méi)穿衣服的大衛(wèi)和沒(méi)有手臂的維納斯,分別穿上西裝和長(zhǎng)出手臂。
提示詞:給大衛(wèi)和維納斯穿上衣服,給大衛(wèi)穿上一件高級(jí)感的西裝,黑色有質(zhì)感的西裝,系著一個(gè)紅色的領(lǐng)結(jié),穿著一雙棕色的皮鞋,手里捧著一束紅玫瑰花束。讓維納斯長(zhǎng)出雙手,給給她穿上一件漂亮的大拖尾婚紗。
大衛(wèi)穿上西裝后變瘦了,這就是“穿衣顯瘦,脫衣有肉”的真實(shí)寫(xiě)照嗎,維納斯也長(zhǎng)出了手臂,身穿白色禮服站在那里。這種提示詞編輯很方便,能局部改姿勢(shì)、加顏色或去污漬,但有時(shí)會(huì)過(guò)度平滑或忽略小指令。
最后測(cè)試的是風(fēng)格遷移的能力,我讓它把一張普通圖轉(zhuǎn)成吉卜力風(fēng)格插畫(huà),要求保持原圖核心又突出吉卜力辨識(shí)度。
提示詞:請(qǐng)將提供的圖片轉(zhuǎn)換為吉卜力工作室風(fēng)格的插畫(huà),具有明顯的吉卜力風(fēng)格辨識(shí)度,又不影響原圖核心內(nèi)容的呈現(xiàn)。
圖片顏色柔和、細(xì)節(jié)夢(mèng)幻,卻沒(méi)丟原意。X上還有人用它轉(zhuǎn)老照片成彩色高清,還修復(fù)污損,效果都很驚艷。
總而言之:
Gemini 2.5 Flash Image的核心功能是?根據(jù)文本提示生成細(xì)節(jié)豐富的圖片、無(wú)縫融合多張圖片、在不同編輯中保持人物形象的一致性,以及使用自然語(yǔ)言進(jìn)行精準(zhǔn)的調(diào)整,例如更換服裝或場(chǎng)景。它甚至還具備多模態(tài)智能,你可以混合文本和圖片,獲得意想不到的效果。此外,它還內(nèi)置了水印等安全功能,可以識(shí)別 AI 生成的內(nèi)容。
毫無(wú)疑問(wèn),Gemini 2.5 Flash Image?會(huì)是一款顛覆性的快速創(chuàng)意圖像處理工具——速度快、價(jià)格實(shí)惠(例如每張圖片 0.039 美元)以后將取代很多PS任務(wù)。
本文由人人都是產(chǎn)品經(jīng)理作者【鯨選AI】,微信公眾號(hào):【鯨選AI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!