亚洲综合精品伊人久久,国产成人av综合色,天堂8在线天堂资源bt

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

實(shí)測完豆包圖片生成Agent，我拆解了它的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯

云舒

2025-04-30

0 評論 3784 瀏覽 4 收藏

14 分鐘

豆包圖片生成Agent的beta模式測試揭示了其在降低AI繪圖門檻和提升用戶體驗(yàn)方面的顯著進(jìn)步。文章將深入探討這款產(chǎn)品的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯，分析其如何通過優(yōu)化提示詞和任務(wù)規(guī)劃，使得用戶能夠輕松生成高質(zhì)量圖像作品。

前兩天豆包圖像生成開了beta模式（CreationAgent），推到我了我就點(diǎn)進(jìn)去體驗(yàn)了一番，測完我在群里跟大家感慨這個功能真是太強(qiáng)了，豆包對C端用戶的理解能力只能說：????。

簡單來說，豆包通過任務(wù)規(guī)劃及提示詞優(yōu)化，大幅降低了AI繪圖的專業(yè)門檻，讓普通人能一句話畫出高質(zhì)量作品。

這是一個非常棒的C端功能，因此我決定寫篇文章來細(xì)拆一下，主要聚焦在兩個維度上：

1. 用戶體驗(yàn)維度：這個產(chǎn)品有哪些設(shè)計非常棒的地方

2. 技術(shù)實(shí)現(xiàn)維度：從AI設(shè)計角度來看它是如何實(shí)現(xiàn)的

那我們先從第一個維度開始，我們聚焦在用戶體驗(yàn)維度，看看這個產(chǎn)品設(shè)計好在哪。

我測了很多案例，然后總結(jié)了三個我體驗(yàn)下來覺得比較核心的點(diǎn)：

1. 一句簡單描述就能出高質(zhì)量作品，不需要再去苦想提示詞

2. 一次對話可以支持生成1到20張的圖片，批量出圖又快又省事

3. 上下文理解能力非常強(qiáng)，動動嘴就能輕松修圖

補(bǔ)充知識：豆包和即夢畫圖的模型底座是一樣的，可能會有微調(diào)差異，但整體底層是一樣的；所以我們直接用豆包和即夢進(jìn)行提示詞對比，來幫助大家更好的理解差異。

那我們先從第一點(diǎn)開始說起：一句簡單描述就能出高質(zhì)量作品，不需要再去苦想提示詞

我自己也是個繪畫小白，你讓我寫繪畫提示詞，比如說弄個五一出去玩的，我最多最多寫：要五一了準(zhǔn)備去北京玩。

在復(fù)雜我真是寫不出來了，沒那個水平。

但用這種提示詞去即夢生成效果就很一般；于是豆包直接讓模型理解用戶的需求，再去單獨(dú)寫提示詞，生成效果就比原始的描述好了很多。

要五一了準(zhǔn)備去北京玩。（左即夢、右豆包）

飛流直下三千尺，疑是銀河落九天。（左即夢、右豆包）

小雞打鳴太陽升起來了。（左即夢、右豆包）

我抽了幾個我能日常想到的描述用詞，很明顯簡單的話描述還是豆包更出彩一點(diǎn)。長文本我也測了一下，基本上區(qū)別不大吧，看這兩組圖長得多像就知道了。

一頭巨大的鯨魚高高躍出湛藍(lán)的水面，濺起晶瑩的水花。陽光灑在鯨魚身上，閃耀著金色的光芒，天空中飄著幾朵潔白的云朵，與藍(lán)色的大海相互映襯。整體呈現(xiàn)出清新寫實(shí)的風(fēng)格，畫面力求精致細(xì)膩，光影效果出色，構(gòu)圖專業(yè)，具有高品質(zhì)視覺效果。（左即夢、右豆包）

對于普通用戶來說，豆包通過提示詞優(yōu)化，極大降低了創(chuàng)作門檻。

接下來我們來說第二點(diǎn)：一次對話可以支持生成1到20張的圖片，批量出圖又快又省事。

這次圖像生成支持多圖片、多尺寸來進(jìn)行生成。

以我的狗子頭像為例，我可以讓它一次性生成10個表情包，然后再加上文字，特別可愛；比之前一個一個生成要省事好多，而且這些表情包的一致性也很不錯。

除了批量出圖外，豆包還支持一鍵生成不同尺寸的圖。

如果你在生成的時候不知道什么尺寸好看，可以告訴豆包你需要多個不同尺寸的，然后生成了自己挑選。

接下來我們來說第三點(diǎn)：上下文理解能力非常強(qiáng)，動動嘴就能輕松修圖

基于模型的上下文理解能力，豆包能夠在多次歷史對話中找到你說的那張圖，然后進(jìn)行調(diào)整。

還以上邊我畫的狗子表情包為例，這次我們讓它給第七張表情弄的兇一點(diǎn)、第五張再激動一點(diǎn)、最后一張再可愛一點(diǎn)，豆包都能精準(zhǔn)的抓到對哪一張做什么變更。

再讓它給狗子做成科技版的頭像，可以進(jìn)行多輪對話的調(diào)整，效果非常棒。

測試了幾輪下來，感覺這個修圖的體驗(yàn)感覺跟4o很接近了。

到此用戶體驗(yàn)維度的三點(diǎn)說完了。

它們加一起，構(gòu)成了我剛開始對豆包圖像的判斷：

豆包通過任務(wù)規(guī)劃及提示詞優(yōu)化，大幅降低了AI繪圖的專業(yè)門檻，讓普通人能一句話畫出高質(zhì)量作品。

對于用戶來說，我不在乎你的產(chǎn)品參數(shù)有多強(qiáng)，我就希望簡單能出高質(zhì)量結(jié)果，誰能做到我就去用誰；模型側(cè)是這樣、產(chǎn)品側(cè)也是這樣。

誰簡單效果還好，用戶就會投票給它。

接下來我們來講技術(shù)實(shí)現(xiàn)維度，我們來看看豆包圖像從AI設(shè)計角度來看它是如何實(shí)現(xiàn)的。

接下來的拆解只包含正向工作流，各種異常值我就不考慮了，不在此次拆解范圍內(nèi)。

我們就以這個狗子表情包來做案例給大家分析，豆包圖像從產(chǎn)品設(shè)計上是如何實(shí)現(xiàn)的。

當(dāng)我告訴豆包讓它基于這個狗子頭像來生成10個表情包，它會先去做一輪任務(wù)拆解，梳理清楚用戶到底要做什么事情，需要生成幾個圖片。

在這個環(huán)節(jié)梳理完后，它會生成指令去發(fā)給作圖的API（墊圖應(yīng)該是即夢2.0pro，不墊圖是3.0）

為了方便大家理解，我就把json代碼都改成中文的了類型：

圖片生成數(shù)量：10

提示詞1：

畫面采用清新可愛的水彩畫風(fēng)格，背景為簡潔白色。主體是一只毛色黑白相間、眼神明亮、嘴角帶微笑的哈士奇，右前爪旁有黃色星星圖案。哈士奇呈現(xiàn)開心張嘴吐舌的表情，表情生動，色彩柔和，筆觸輕快，營造活潑有趣氛圍，1：1（1:1是尺寸信息）

提示詞2：

畫面采用清新可愛的水彩畫風(fēng)格，背景為簡潔白色。主體是一只毛色黑白相間、眼神明亮、嘴角帶微笑的哈士奇，右前爪旁有黃色星星圖案。哈士奇呈現(xiàn)開心張嘴吐舌的表情，表情生動，色彩柔和，筆觸輕快，營造活潑有趣氛圍，1：1

等待api返回圖片后，豆包就展示到前端，這樣我們就看到了第一組的狗子表情包了。

第一次沒有文字，我就又通過指令加了一次文字，但這個流程區(qū)別不大我們就不單獨(dú)拆了，我們來說這個上下文流程中，豆包是怎么精準(zhǔn)識別到每一個圖片的。

這里的難點(diǎn)在于圖片的順序，到底要抽哪一張圖片。

所以推測豆包在返回前端的時候每一個圖像應(yīng)該都做了單獨(dú)的處理，會給圖片標(biāo)注對應(yīng)的順序，方便后續(xù)模型去快速理解用戶說的是那一張圖。

可能的隊(duì)列展示情況如下：01：url鏈接…02：url鏈接…03：url鏈接…

基于圖像的隊(duì)列，在跟豆包說具體的張數(shù)的時候它能夠很清晰的找到那一張，然后進(jìn)行基于圖片的微調(diào)；微調(diào)流程和我們上邊畫的圖一樣，就不細(xì)提了。

這里比較難的點(diǎn)就是上下文傳入的工程要怎么處理，簡單做法就是打滿上下文的token，復(fù)雜一點(diǎn)就是上下文每一段做索引，后續(xù)讓模型自己調(diào)用；不過這塊應(yīng)該是延續(xù)之前模型的處理能力，目前測試下來十幾輪還是有不錯的穩(wěn)定性。

這是墊圖版本的，沒有墊圖比如說一句話指令會有什么區(qū)別呢？

比如說這個躺平表情包的制作，目前測試看起來拆解流程都是一樣的，沒有墊圖調(diào)用的應(yīng)該是即夢3.0畫的，如果墊圖了應(yīng)該走的是即夢2.0pro或者內(nèi)部微調(diào)的3.0模型。

抽象出來的正向的工作流差不多這些，異常的我們就不拆解了，那些細(xì)節(jié)邊界條件比正向要花更多的時間。

用戶體驗(yàn)維度和技術(shù)實(shí)現(xiàn)維度我們都分析完了，在最后我分享一下對C端AI產(chǎn)品設(shè)計思路的思考~

用戶其實(shí)不在乎你是不是AI產(chǎn)品，更關(guān)鍵的是他的需求你到底有沒有解決掉。

你能解決用戶的需求，你就是日活高留存高的好產(chǎn)品，你解決不了你宣傳再多的AI，也是體驗(yàn)一次用戶就放棄。

解決問題的思路從pc互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、AI從來都沒變過，無非就看哪個團(tuán)隊(duì)愿意去一線認(rèn)真研究用戶的問題是什么、認(rèn)真聽用戶的反饋、認(rèn)真去解決問題。

AI也不是高高在上，它本來就在人間。

本文由人人都是產(chǎn)品經(jīng)理作者【云舒】，微信公眾號：【云舒的AI實(shí)踐筆記】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自豆包官網(wǎng)截圖

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

云舒

研究AI產(chǎn)品方向，公眾號：云舒的AI觀察筆記

48篇作品 118839總閱讀量

2023年生鮮電商預(yù)測：行業(yè)加速洗牌，私域流量搶奪白日化

02-202438 瀏覽

智能時代的未來界面是什么樣的？

10-121843 瀏覽

社交模塊里的動態(tài)卡片，怎么設(shè)計？

06-086951 瀏覽

為寶媽省50塊的引流思路：這個方法能輕松月入過萬：認(rèn)真做誰都可以

04-142793 瀏覽

如何通過MRD深度洞察并滿足用戶需求？

10-162972 瀏覽

評論

目前還沒評論，等你發(fā)揮！

美團(tuán)之外，誰在攪局本地生活？

05-155412 瀏覽
ChatGPT迎來史詩級iPhone時刻！OpenAI震撼登陸iOS，可精準(zhǔn)識別中文

05-232565 瀏覽
探索設(shè)計心理：用設(shè)計打造深入人心的品牌形象

05-074474 瀏覽

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

實(shí)測完豆包圖片生成Agent，我拆解了它的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯

實(shí)測完豆包圖片生成Agent，我拆解了它的設(shè)計亮點(diǎn)和技術(shù)實(shí)現(xiàn)邏輯