實(shí)測完豆包圖片生成Agent,我拆解了它的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯
豆包圖片生成Agent的beta模式測試揭示了其在降低AI繪圖門檻和提升用戶體驗(yàn)方面的顯著進(jìn)步。文章將深入探討這款產(chǎn)品的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯,分析其如何通過優(yōu)化提示詞和任務(wù)規(guī)劃,使得用戶能夠輕松生成高質(zhì)量圖像作品。
前兩天豆包圖像生成開了beta模式(CreationAgent),推到我了我就點(diǎn)進(jìn)去體驗(yàn)了一番,測完我在群里跟大家感慨這個功能真是太強(qiáng)了,豆包對C端用戶的理解能力只能說:????。
簡單來說,豆包通過任務(wù)規(guī)劃及提示詞優(yōu)化,大幅降低了AI繪圖的專業(yè)門檻,讓普通人能一句話畫出高質(zhì)量作品。
這是一個非常棒的C端功能,因此我決定寫篇文章來細(xì)拆一下,主要聚焦在兩個維度上:
1. 用戶體驗(yàn)維度:這個產(chǎn)品有哪些設(shè)計非常棒的地方
2. 技術(shù)實(shí)現(xiàn)維度:從AI設(shè)計角度來看它是如何實(shí)現(xiàn)的
那我們先從第一個維度開始,我們聚焦在用戶體驗(yàn)維度,看看這個產(chǎn)品設(shè)計好在哪。
我測了很多案例,然后總結(jié)了三個我體驗(yàn)下來覺得比較核心的點(diǎn):
1. 一句簡單描述就能出高質(zhì)量作品,不需要再去苦想提示詞
2. 一次對話可以支持生成1到20張的圖片,批量出圖又快又省事
3. 上下文理解能力非常強(qiáng),動動嘴就能輕松修圖
補(bǔ)充知識:豆包和即夢畫圖的模型底座是一樣的,可能會有微調(diào)差異,但整體底層是一樣的;所以我們直接用豆包和即夢進(jìn)行提示詞對比,來幫助大家更好的理解差異。
那我們先從第一點(diǎn)開始說起:一句簡單描述就能出高質(zhì)量作品,不需要再去苦想提示詞
我自己也是個繪畫小白,你讓我寫繪畫提示詞,比如說弄個五一出去玩的,我最多最多寫:要五一了準(zhǔn)備去北京玩。
在復(fù)雜我真是寫不出來了,沒那個水平。
但用這種提示詞去即夢生成效果就很一般;于是豆包直接讓模型理解用戶的需求,再去單獨(dú)寫提示詞,生成效果就比原始的描述好了很多。
要五一了準(zhǔn)備去北京玩。(左即夢、右豆包)
飛流直下三千尺,疑是銀河落九天。(左即夢、右豆包)
小雞打鳴太陽升起來了。(左即夢、右豆包)
我抽了幾個我能日常想到的描述用詞,很明顯簡單的話描述還是豆包更出彩一點(diǎn)。長文本我也測了一下,基本上區(qū)別不大吧,看這兩組圖長得多像就知道了。
一頭巨大的鯨魚高高躍出湛藍(lán)的水面,濺起晶瑩的水花。陽光灑在鯨魚身上,閃耀著金色的光芒,天空中飄著幾朵潔白的云朵,與藍(lán)色的大海相互映襯。整體呈現(xiàn)出清新寫實(shí)的風(fēng)格,畫面力求精致細(xì)膩,光影效果出色,構(gòu)圖專業(yè),具有高品質(zhì)視覺效果。(左即夢、右豆包)
對于普通用戶來說,豆包通過提示詞優(yōu)化,極大降低了創(chuàng)作門檻。
接下來我們來說第二點(diǎn):一次對話可以支持生成1到20張的圖片,批量出圖又快又省事。
這次圖像生成支持多圖片、多尺寸來進(jìn)行生成。
以我的狗子頭像為例,我可以讓它一次性生成10個表情包,然后再加上文字,特別可愛;比之前一個一個生成要省事好多,而且這些表情包的一致性也很不錯。
除了批量出圖外,豆包還支持一鍵生成不同尺寸的圖。
如果你在生成的時候不知道什么尺寸好看,可以告訴豆包你需要多個不同尺寸的,然后生成了自己挑選。
接下來我們來說第三點(diǎn):上下文理解能力非常強(qiáng),動動嘴就能輕松修圖
基于模型的上下文理解能力,豆包能夠在多次歷史對話中找到你說的那張圖,然后進(jìn)行調(diào)整。
還以上邊我畫的狗子表情包為例,這次我們讓它給第七張表情弄的兇一點(diǎn)、第五張再激動一點(diǎn)、最后一張再可愛一點(diǎn),豆包都能精準(zhǔn)的抓到對哪一張做什么變更。
再讓它給狗子做成科技版的頭像,可以進(jìn)行多輪對話的調(diào)整,效果非常棒。
測試了幾輪下來,感覺這個修圖的體驗(yàn)感覺跟4o很接近了。
到此用戶體驗(yàn)維度的三點(diǎn)說完了。
它們加一起,構(gòu)成了我剛開始對豆包圖像的判斷:
豆包通過任務(wù)規(guī)劃及提示詞優(yōu)化,大幅降低了AI繪圖的專業(yè)門檻,讓普通人能一句話畫出高質(zhì)量作品。
對于用戶來說,我不在乎你的產(chǎn)品參數(shù)有多強(qiáng),我就希望簡單能出高質(zhì)量結(jié)果,誰能做到我就去用誰;模型側(cè)是這樣、產(chǎn)品側(cè)也是這樣。
誰簡單效果還好,用戶就會投票給它。
接下來我們來講技術(shù)實(shí)現(xiàn)維度,我們來看看豆包圖像從AI設(shè)計角度來看它是如何實(shí)現(xiàn)的。
接下來的拆解只包含正向工作流,各種異常值我就不考慮了,不在此次拆解范圍內(nèi)。
我們就以這個狗子表情包來做案例給大家分析,豆包圖像從產(chǎn)品設(shè)計上是如何實(shí)現(xiàn)的。
當(dāng)我告訴豆包讓它基于這個狗子頭像來生成10個表情包,它會先去做一輪任務(wù)拆解,梳理清楚用戶到底要做什么事情,需要生成幾個圖片。
在這個環(huán)節(jié)梳理完后,它會生成指令去發(fā)給作圖的API(墊圖應(yīng)該是即夢2.0pro,不墊圖是3.0)
為了方便大家理解,我就把json代碼都改成中文的了類型:
圖片生成數(shù)量:10
提示詞1:
畫面采用清新可愛的水彩畫風(fēng)格,背景為簡潔白色。主體是一只毛色黑白相間、眼神明亮、嘴角帶微笑的哈士奇,右前爪旁有黃色星星圖案。哈士奇呈現(xiàn)開心張嘴吐舌的表情,表情生動,色彩柔和,筆觸輕快,營造活潑有趣氛圍,1:1(1:1是尺寸信息)
提示詞2:
畫面采用清新可愛的水彩畫風(fēng)格,背景為簡潔白色。主體是一只毛色黑白相間、眼神明亮、嘴角帶微笑的哈士奇,右前爪旁有黃色星星圖案。哈士奇呈現(xiàn)開心張嘴吐舌的表情,表情生動,色彩柔和,筆觸輕快,營造活潑有趣氛圍,1:1
等待api返回圖片后,豆包就展示到前端,這樣我們就看到了第一組的狗子表情包了。
第一次沒有文字,我就又通過指令加了一次文字,但這個流程區(qū)別不大我們就不單獨(dú)拆了,我們來說這個上下文流程中,豆包是怎么精準(zhǔn)識別到每一個圖片的。
這里的難點(diǎn)在于圖片的順序,到底要抽哪一張圖片。
所以推測豆包在返回前端的時候每一個圖像應(yīng)該都做了單獨(dú)的處理,會給圖片標(biāo)注對應(yīng)的順序,方便后續(xù)模型去快速理解用戶說的是那一張圖。
可能的隊(duì)列展示情況如下:01:url鏈接…02:url鏈接…03:url鏈接…
基于圖像的隊(duì)列,在跟豆包說具體的張數(shù)的時候它能夠很清晰的找到那一張,然后進(jìn)行基于圖片的微調(diào);微調(diào)流程和我們上邊畫的圖一樣,就不細(xì)提了。
這里比較難的點(diǎn)就是上下文傳入的工程要怎么處理,簡單做法就是打滿上下文的token,復(fù)雜一點(diǎn)就是上下文每一段做索引,后續(xù)讓模型自己調(diào)用;不過這塊應(yīng)該是延續(xù)之前模型的處理能力,目前測試下來十幾輪還是有不錯的穩(wěn)定性。
這是墊圖版本的,沒有墊圖比如說一句話指令會有什么區(qū)別呢?
比如說這個躺平表情包的制作,目前測試看起來拆解流程都是一樣的,沒有墊圖調(diào)用的應(yīng)該是即夢3.0畫的,如果墊圖了應(yīng)該走的是即夢2.0pro或者內(nèi)部微調(diào)的3.0模型。
抽象出來的正向的工作流差不多這些,異常的我們就不拆解了,那些細(xì)節(jié)邊界條件比正向要花更多的時間。
用戶體驗(yàn)維度和技術(shù)實(shí)現(xiàn)維度我們都分析完了,在最后我分享一下對C端AI產(chǎn)品設(shè)計思路的思考~
用戶其實(shí)不在乎你是不是AI產(chǎn)品,更關(guān)鍵的是他的需求你到底有沒有解決掉。
你能解決用戶的需求,你就是日活高留存高的好產(chǎn)品,你解決不了你宣傳再多的AI,也是體驗(yàn)一次用戶就放棄。
解決問題的思路從pc互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、AI從來都沒變過,無非就看哪個團(tuán)隊(duì)愿意去一線認(rèn)真研究用戶的問題是什么、認(rèn)真聽用戶的反饋、認(rèn)真去解決問題。
AI也不是高高在上,它本來就在人間。
本文由人人都是產(chǎn)品經(jīng)理作者【云舒】,微信公眾號:【云舒的AI實(shí)踐筆記】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自豆包官網(wǎng)截圖
- 目前還沒評論,等你發(fā)揮!