實(shí)測完豆包圖片生成Agent,我拆解了它的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯

0 評論 3784 瀏覽 4 收藏 14 分鐘

豆包圖片生成Agent的beta模式測試揭示了其在降低AI繪圖門檻和提升用戶體驗(yàn)方面的顯著進(jìn)步。文章將深入探討這款產(chǎn)品的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯,分析其如何通過優(yōu)化提示詞和任務(wù)規(guī)劃,使得用戶能夠輕松生成高質(zhì)量圖像作品。

前兩天豆包圖像生成開了beta模式(CreationAgent),推到我了我就點(diǎn)進(jìn)去體驗(yàn)了一番,測完我在群里跟大家感慨這個功能真是太強(qiáng)了,豆包對C端用戶的理解能力只能說:????。

簡單來說,豆包通過任務(wù)規(guī)劃及提示詞優(yōu)化,大幅降低了AI繪圖的專業(yè)門檻,讓普通人能一句話畫出高質(zhì)量作品。

這是一個非常棒的C端功能,因此我決定寫篇文章來細(xì)拆一下,主要聚焦在兩個維度上:

1. 用戶體驗(yàn)維度:這個產(chǎn)品有哪些設(shè)計非常棒的地方

2. 技術(shù)實(shí)現(xiàn)維度:從AI設(shè)計角度來看它是如何實(shí)現(xiàn)的

那我們先從第一個維度開始,我們聚焦在用戶體驗(yàn)維度,看看這個產(chǎn)品設(shè)計好在哪。

我測了很多案例,然后總結(jié)了三個我體驗(yàn)下來覺得比較核心的點(diǎn):

1. 一句簡單描述就能出高質(zhì)量作品,不需要再去苦想提示詞

2. 一次對話可以支持生成1到20張的圖片,批量出圖又快又省事

3. 上下文理解能力非常強(qiáng),動動嘴就能輕松修圖

補(bǔ)充知識:豆包和即夢畫圖的模型底座是一樣的,可能會有微調(diào)差異,但整體底層是一樣的;所以我們直接用豆包和即夢進(jìn)行提示詞對比,來幫助大家更好的理解差異。

那我們先從第一點(diǎn)開始說起:一句簡單描述就能出高質(zhì)量作品,不需要再去苦想提示詞

我自己也是個繪畫小白,你讓我寫繪畫提示詞,比如說弄個五一出去玩的,我最多最多寫:要五一了準(zhǔn)備去北京玩。

在復(fù)雜我真是寫不出來了,沒那個水平。

但用這種提示詞去即夢生成效果就很一般;于是豆包直接讓模型理解用戶的需求,再去單獨(dú)寫提示詞,生成效果就比原始的描述好了很多。

要五一了準(zhǔn)備去北京玩。(左即夢、右豆包)

飛流直下三千尺,疑是銀河落九天。(左即夢、右豆包)

小雞打鳴太陽升起來了。(左即夢、右豆包)

我抽了幾個我能日常想到的描述用詞,很明顯簡單的話描述還是豆包更出彩一點(diǎn)。長文本我也測了一下,基本上區(qū)別不大吧,看這兩組圖長得多像就知道了。

一頭巨大的鯨魚高高躍出湛藍(lán)的水面,濺起晶瑩的水花。陽光灑在鯨魚身上,閃耀著金色的光芒,天空中飄著幾朵潔白的云朵,與藍(lán)色的大海相互映襯。整體呈現(xiàn)出清新寫實(shí)的風(fēng)格,畫面力求精致細(xì)膩,光影效果出色,構(gòu)圖專業(yè),具有高品質(zhì)視覺效果。(左即夢、右豆包)

對于普通用戶來說,豆包通過提示詞優(yōu)化,極大降低了創(chuàng)作門檻。

接下來我們來說第二點(diǎn):一次對話可以支持生成1到20張的圖片,批量出圖又快又省事。

這次圖像生成支持多圖片、多尺寸來進(jìn)行生成。

以我的狗子頭像為例,我可以讓它一次性生成10個表情包,然后再加上文字,特別可愛;比之前一個一個生成要省事好多,而且這些表情包的一致性也很不錯。

除了批量出圖外,豆包還支持一鍵生成不同尺寸的圖。

如果你在生成的時候不知道什么尺寸好看,可以告訴豆包你需要多個不同尺寸的,然后生成了自己挑選。

接下來我們來說第三點(diǎn):上下文理解能力非常強(qiáng),動動嘴就能輕松修圖

基于模型的上下文理解能力,豆包能夠在多次歷史對話中找到你說的那張圖,然后進(jìn)行調(diào)整。

還以上邊我畫的狗子表情包為例,這次我們讓它給第七張表情弄的兇一點(diǎn)、第五張再激動一點(diǎn)、最后一張再可愛一點(diǎn),豆包都能精準(zhǔn)的抓到對哪一張做什么變更。

再讓它給狗子做成科技版的頭像,可以進(jìn)行多輪對話的調(diào)整,效果非常棒。

測試了幾輪下來,感覺這個修圖的體驗(yàn)感覺跟4o很接近了。

到此用戶體驗(yàn)維度的三點(diǎn)說完了。

它們加一起,構(gòu)成了我剛開始對豆包圖像的判斷:

豆包通過任務(wù)規(guī)劃及提示詞優(yōu)化,大幅降低了AI繪圖的專業(yè)門檻,讓普通人能一句話畫出高質(zhì)量作品。

對于用戶來說,我不在乎你的產(chǎn)品參數(shù)有多強(qiáng),我就希望簡單能出高質(zhì)量結(jié)果,誰能做到我就去用誰;模型側(cè)是這樣、產(chǎn)品側(cè)也是這樣。

誰簡單效果還好,用戶就會投票給它。

接下來我們來講技術(shù)實(shí)現(xiàn)維度,我們來看看豆包圖像從AI設(shè)計角度來看它是如何實(shí)現(xiàn)的。

接下來的拆解只包含正向工作流,各種異常值我就不考慮了,不在此次拆解范圍內(nèi)。

我們就以這個狗子表情包來做案例給大家分析,豆包圖像從產(chǎn)品設(shè)計上是如何實(shí)現(xiàn)的。

當(dāng)我告訴豆包讓它基于這個狗子頭像來生成10個表情包,它會先去做一輪任務(wù)拆解,梳理清楚用戶到底要做什么事情,需要生成幾個圖片。

在這個環(huán)節(jié)梳理完后,它會生成指令去發(fā)給作圖的API(墊圖應(yīng)該是即夢2.0pro,不墊圖是3.0)

為了方便大家理解,我就把json代碼都改成中文的了類型:

圖片生成數(shù)量:10

提示詞1:

畫面采用清新可愛的水彩畫風(fēng)格,背景為簡潔白色。主體是一只毛色黑白相間、眼神明亮、嘴角帶微笑的哈士奇,右前爪旁有黃色星星圖案。哈士奇呈現(xiàn)開心張嘴吐舌的表情,表情生動,色彩柔和,筆觸輕快,營造活潑有趣氛圍,1:1(1:1是尺寸信息)

提示詞2:

畫面采用清新可愛的水彩畫風(fēng)格,背景為簡潔白色。主體是一只毛色黑白相間、眼神明亮、嘴角帶微笑的哈士奇,右前爪旁有黃色星星圖案。哈士奇呈現(xiàn)開心張嘴吐舌的表情,表情生動,色彩柔和,筆觸輕快,營造活潑有趣氛圍,1:1

等待api返回圖片后,豆包就展示到前端,這樣我們就看到了第一組的狗子表情包了。

第一次沒有文字,我就又通過指令加了一次文字,但這個流程區(qū)別不大我們就不單獨(dú)拆了,我們來說這個上下文流程中,豆包是怎么精準(zhǔn)識別到每一個圖片的。

這里的難點(diǎn)在于圖片的順序,到底要抽哪一張圖片。

所以推測豆包在返回前端的時候每一個圖像應(yīng)該都做了單獨(dú)的處理,會給圖片標(biāo)注對應(yīng)的順序,方便后續(xù)模型去快速理解用戶說的是那一張圖。

可能的隊(duì)列展示情況如下:01:url鏈接…02:url鏈接…03:url鏈接…

基于圖像的隊(duì)列,在跟豆包說具體的張數(shù)的時候它能夠很清晰的找到那一張,然后進(jìn)行基于圖片的微調(diào);微調(diào)流程和我們上邊畫的圖一樣,就不細(xì)提了。

這里比較難的點(diǎn)就是上下文傳入的工程要怎么處理,簡單做法就是打滿上下文的token,復(fù)雜一點(diǎn)就是上下文每一段做索引,后續(xù)讓模型自己調(diào)用;不過這塊應(yīng)該是延續(xù)之前模型的處理能力,目前測試下來十幾輪還是有不錯的穩(wěn)定性。

這是墊圖版本的,沒有墊圖比如說一句話指令會有什么區(qū)別呢?

比如說這個躺平表情包的制作,目前測試看起來拆解流程都是一樣的,沒有墊圖調(diào)用的應(yīng)該是即夢3.0畫的,如果墊圖了應(yīng)該走的是即夢2.0pro或者內(nèi)部微調(diào)的3.0模型。

抽象出來的正向的工作流差不多這些,異常的我們就不拆解了,那些細(xì)節(jié)邊界條件比正向要花更多的時間。

用戶體驗(yàn)維度和技術(shù)實(shí)現(xiàn)維度我們都分析完了,在最后我分享一下對C端AI產(chǎn)品設(shè)計思路的思考~

用戶其實(shí)不在乎你是不是AI產(chǎn)品,更關(guān)鍵的是他的需求你到底有沒有解決掉。

你能解決用戶的需求,你就是日活高留存高的好產(chǎn)品,你解決不了你宣傳再多的AI,也是體驗(yàn)一次用戶就放棄。

解決問題的思路從pc互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、AI從來都沒變過,無非就看哪個團(tuán)隊(duì)愿意去一線認(rèn)真研究用戶的問題是什么、認(rèn)真聽用戶的反饋、認(rèn)真去解決問題。

AI也不是高高在上,它本來就在人間。

本文由人人都是產(chǎn)品經(jīng)理作者【云舒】,微信公眾號:【云舒的AI實(shí)踐筆記】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自豆包官網(wǎng)截圖

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!