對于AI繪畫產(chǎn)品商業(yè)化落地的分析思考
隨著AI技術的不斷發(fā)展,繪畫這類擁有美感、情感的文藝作品也逐漸出現(xiàn)了AI的身影。從提升工作效率的角度,AI繪畫產(chǎn)品確實有它的作用。但要真正實現(xiàn)商業(yè)化,AI繪畫產(chǎn)品還有很長一段路要走。
只需要一句“咒語“就能生成一張質量比大多數(shù)人水平高的圖像內容。這種技術上的變革對圖像內容創(chuàng)作領域可以說是顛覆式的改變。不僅可以幫助畫家創(chuàng)作出更加出色的作品,還能夠幫助普通人輕松地創(chuàng)作出高質量的畫作。
繪畫對于我來說一點也不陌生,高中學了3年美術和大學4年工業(yè)設計,如果當時有AI繪畫,不知道什么感想,至少當時還是很享受繪畫的過程,從結果上可能并沒有AI的效果好,也分享幾張高中時期我的作品,大學時期的一些汽車手繪稿一時沒找到。
那我現(xiàn)在的角色變成一名產(chǎn)品經(jīng)理,對AI繪畫產(chǎn)品很感興趣,有必要全面去解析下,我會從產(chǎn)品價值、使用場景、產(chǎn)品現(xiàn)狀、商業(yè)機會以及制約因素去分析:
- AI繪畫解決了什么問題帶來什么價值?
- AI繪畫在藝術設計領域的應用場景?
- AI繪畫目前產(chǎn)品形態(tài)和發(fā)展現(xiàn)狀?
- AI繪畫的商業(yè)機會有哪些和制約因素?
一、AI繪畫解決什么問題帶來什么價值?
1. 圖像生成門檻降低,效率的提升,促使圖像生成“平民化”
AI繪畫的產(chǎn)物是圖像,圖像對人類具有豐富的價值,包括信息傳達、創(chuàng)意表達、歷史記錄、美感享受和交流溝通等方面,對于人類的認知、情感和文化發(fā)展起著重要作用。
而繪畫工具從原始的紙筆調色盤到數(shù)字化時代的數(shù)位板、繪圖軟件再到AI時代,任何人用簡單的幾行文字就能創(chuàng)作出高質量的藝術作品,人類創(chuàng)作的門檻一再被降低,促使圖像生成“平民化”,圖像生成的生產(chǎn)力得到指數(shù)級的提升。
2. 圖像品質的提升和激發(fā)創(chuàng)作靈感,讓生活充滿設計感
AI對大量的繪畫作品進行學習、融合和再塑,且一直處于不斷進化的階段,生成的圖像質量比絕大數(shù)初級創(chuàng)作者水平要高,對低端生成市場會進一步淘汰,迫使創(chuàng)作者不得不通過學習AI繪畫技術,更好地運用AI技術來創(chuàng)作更加出色的作品,使自己的作品更具創(chuàng)意和價值。另一方面對于內容消費來說,審美需求也在提升,追求豐富高品質的視覺體驗。
AI繪畫為我們未來的生活帶來了充滿設計感的視覺盛宴,美無處不在。
3. 個性化的定制能力的提高,做到千人千圖
用戶可以根據(jù)自己的需求和喜好,夠幫助人們快速生成各種風格的圖像,定制出更符合個性化要求的圖像作品,未來能直接鏈接生產(chǎn)端進行生產(chǎn)。
例如,在服裝設計行業(yè)中,AI繪畫技術可以用來快速生成各種樣式的服裝圖案,這些圖案可以基于不同的主題、風格、顏色、材質等因素進行定制。
AI繪畫在藝術設計領域的應用場景?
可以通過的雙鉆設計模型來分析AI繪畫對不同階段的作用,雙鉆模型適合所有的設計領域,形成了標準流程,只要設計過程中有圖像的地方都可以使用AI輔助設計。
- 第一階段——發(fā)現(xiàn)期。此階段可以通過ChatGPT去做些資料收集、競品分析,提煉需求的關鍵詞??梢蕴峁┮恍﹨⒄請D生關鍵詞,有助于對需求達成共識和效率提升。
- 第二個階段是——定義期。此階段AI繪畫可以通過生成各種風格和風格組合的圖像,為設計師提供創(chuàng)意的靈感來源,通過直觀的圖像輔助明確設計方向。
- 第三階段是——發(fā)展期。此步是真正開展設計創(chuàng)意了,這個階段我們要把問題具體化,通過AI圖像工具快速生成多種效果方案。
- 第四階段是——交付期。選擇某種方案進行深化,此階段目前Ai的編輯能力還相對較弱,但也是可以使用AI繪畫的控制技術針對性的調整,如現(xiàn)在的ControlNet 技術和圖像編輯工具。
總的來說,AI繪畫可以在創(chuàng)作設計的各個環(huán)節(jié)為設計師提供更多的可能性和創(chuàng)意空間,提高設計效率和質量。
作為工業(yè)設計專業(yè)出生,從工業(yè)設計的視角聊下AI在哪些流程場景中輔助設計。
對于工業(yè)設計目前主要在概念設計上進行輔助設計,根據(jù)功能需求和風格方向來輸出效果圖,設計師設計習慣得不同或產(chǎn)品屬性的不同,會選擇直接通過AI繪畫工具直接生成概念效果圖,或先輸出草圖在通過AI繪畫工具輸出概念效果圖。
要生成大概率符合自己預期的效果圖,要具備上至少這兩種能力:
- 念“咒語”的能力
- 工具的控制能力
“咒語”能力體現(xiàn)的是設計師本身的設計經(jīng)驗、想法、思維,也是最能體現(xiàn)設計師的價值,在AI代替出圖環(huán)節(jié),也是最能體現(xiàn)設計師之間的差距。
在此之后需要總結一套自己念“咒語”結構化語言,便于更好的與AI交互,讓AI懂你。在工業(yè)設計領域會總結一套專用的 prompt。
對于藝術創(chuàng)作,更多是表達個人想法和靈感,而藝術設計更多是解決具體的問題再是風格的追求,對繪畫工具可控性要求會更高。
設計會選擇Stable Diffusion通過LORA控制風格和 ControlNet 來控制局部細節(jié)。(一些設計師會結合MJ和SD共同出圖)
訓練LORA的目的是讓AI理解抽象的風格,例如科技感的、女性化的、極簡的,對于人類來說都是感性詞匯??梢杂肔ORA去訓練,同一風格系列作品、同一類目、不同風格作品、同一類目同一風格作品,單個產(chǎn)品對象,不同類目不同風格,這是目前MJ上沒有的功能。
ControlNet根據(jù)邊緣檢測、草圖處理等各種條件來進一步控制圖像生成和細化細節(jié)。
跟一些在做工業(yè)設計的同學交流了下AI的使用體驗,整體來看AI在工業(yè)產(chǎn)品設計場景中還比較初級的輔助階段,想要達到滿意的作品還是有一定的差距,要花很多時間去學習工具和訓練模型,后期還需要大量人工修改,工具上還有很大的改進空間。
想要真正能作為設計師的創(chuàng)意、效率工具,還是需要針對細分領域根據(jù)行業(yè)know how深化產(chǎn)品能力,同時應用場景還需要進行拓展,不僅僅是出圖的工具,如果3D模型技術成熟會進一步提升創(chuàng)意的效率,讓設計師把精力去研究用戶和發(fā)揮靈感創(chuàng)意,減少重復性、技巧性的工作,使設計真正回歸到本質。
二、AI繪畫目前產(chǎn)品形態(tài)和發(fā)展現(xiàn)狀?
AI繪畫的大模型和應用非常多,但最有名的非Midjourney和Stable Diffusion莫屬,只需要鍵入簡單的語言描述,只需短短幾分鐘,便可生成畫作,那從以下幾個方面了解下AI繪畫產(chǎn)品形態(tài)和市場表現(xiàn):
- AI繪畫產(chǎn)品生態(tài)體系結構?
- 國內AI繪畫的產(chǎn)品都有什么功能,之間的差異有什么差異?
- AI 繪畫產(chǎn)品用戶關注哪些方面的需求?
- AI 繪畫產(chǎn)品商業(yè)模式,用戶是否愿意買單?
模型層:基礎模型上目前主要還是以外國模型表現(xiàn)出色,Stable Diffusion的開源使得模型訓練門檻的降低涌現(xiàn)了大量的AI繪畫產(chǎn)品,促進圖像生成技術有更多的創(chuàng)意和場景落地。閉源模型以Midjourney為代表,同時將模型直接部署在Discord社交平臺,提供直接的應用,操作簡單,圖片效果驚艷。
平臺/工具層:閉源模型廠商基于平臺提供API接口給下游客戶,例如客戶在自己應用上調用MidjourneyAPI。如果API無法滿足的情況一些廠家也提供模型訓練工具,例如百度的文心千帆平臺提供數(shù)據(jù)處理、模型開發(fā)、模型部署一站式模型開發(fā)。
應用層:國內大多數(shù)AI繪畫產(chǎn)品都是基于Stable Diffusion模型開發(fā),看到更多的是藝術創(chuàng)意類產(chǎn)品,生成一些藝術繪畫、二元次漫畫等,例如6pen Art,畫宇宙;領域設計類目前處于往定制化項目路線較多,例如,Tiamat為設計領域提供定制化模型服務。
模型將成為應用的基礎設施,科技公司將具有革命性的模型,對外開源和提供API服務,創(chuàng)業(yè)公司可以根據(jù)自身需求研發(fā)或調用大模型API,專注打磨應用和服務客戶。
國內AI繪畫的產(chǎn)品都有什么功能,之間的有什么差異?
通過體驗Midjourney以及國內多個知名A繪畫產(chǎn)品,在功能體驗上個人總結兩個類別,類似手機操作系統(tǒng),Midjourney類似蘋果和以Stable Diffusion為基礎開發(fā)的安卓類。
功能上Midjourney的功能操作極其簡單,主要通過描述關鍵詞來生成創(chuàng)意作品,注重創(chuàng)意本身,國內大多數(shù)應用基于Stable Diffusion模型開發(fā),功能可控性比較豐富,可以選擇不同模型,包括可調用MidjourneyAPI和自研模型等,甚至可以去通過小數(shù)據(jù)訓練風格模型。
國內的AI繪畫產(chǎn)品技術層面上,各個產(chǎn)品之間并不存在過多差異,無非就是功能層面的豐富度有所差別,但有些公司會在開源模型上自研模型有一些小的差異,例如像6pen art 訓練的南瓜模型。
效果上Midjourney整體上效果更驚艷畫質更細膩,Stable Diffusion類就要看模型的選擇,通用模型生成的圖片質量就一般。
生成圖片的質量主要取決于模型的質量,而模型的質量又主要取決于訓練集的質量。Midjourney的審美傾向是背后團隊篩選出來的,產(chǎn)生內容下限高平均審美在線以及閉源形成的數(shù)據(jù)閉環(huán)。Stable Diffusion開源讓用戶自己訓練符合自己個性化的風格模型,效果取決用戶訓練模型的水平。
Midjourney團隊成員只有11人,卻成為AI繪畫領域的“當紅明星”,在國內是否能成功復制?
目前國內還沒有照抄MJ的,MJ那么難模仿的關鍵因素有哪些?
- 公司的愿景和創(chuàng)始人的人格魅力
- 技術頂流,出圖效果出色,操作簡單
- 開發(fā)社區(qū),激發(fā)創(chuàng)意之泉
- 火爆出圈,吸引大批高質量創(chuàng)造者
- ..……
可見MJ的成功因素非常多尤其是在模型能力快速的優(yōu)化和高質量的數(shù)據(jù)積累構建了核心的壁壘,短期是很難去超越MJ。
如何評價AI繪畫產(chǎn)品的圖像生成能力的差異?
圖像生成模型的關鍵能力包括圖像質量、圖像多樣性,以及圖像穩(wěn)定性和可控性,這些能力決定了模型在應用表現(xiàn)上的差異。
不同行業(yè)不同場景下的使用者對圖像生成能力的要求會存在一定的差別,例如藝術創(chuàng)作者與設計者,藝術創(chuàng)作者更注重圖片的美感,設計者更傾向圖片的合理性是否接近可落地效果;普通用戶對可控性的要求相對比設計從業(yè)者低。
1)圖像質量
什么是好的圖像質量?
黑格爾在《美學》里總結道“美是感性理念的顯現(xiàn)”,美的規(guī)律一般是”和諧的、對稱的、有規(guī)律的”,美并非是絕對的感性,而是理性的理性。
那么衡量圖片的理性維度可以是,構圖合理,構圖的合理是一張圖畫最基本的美學要求。符合邏輯,生成的圖像的整體表達能夠符合現(xiàn)實世界的基本邏輯,以及輪廓清晰、精細細節(jié)、驚艷的色彩搭配。
2)圖像多樣性
視覺元素、內容風格、創(chuàng)造性具有多樣的表現(xiàn)。
用同相同的關鍵詞,生成不同的圖像視覺內容的形狀、顏色、外觀呈現(xiàn)多樣性,如果生成的圖像相似性較高,缺乏多樣性,那么模型的多樣性較低。
可生成不同的主題、場景、對象的風格,只能生成特定類型的圖像,那么模型的多樣性較低。
模型生成的圖像是否具有創(chuàng)造性,能夠產(chǎn)生獨特且令人驚喜的圖像。模型生成的圖像在創(chuàng)造性和新穎性方面欠缺,那么模型的多樣性同樣受限。
3)圖像穩(wěn)定性
避免出現(xiàn)模糊、偽影、重復、不自然等問題,不過現(xiàn)在生成圖像模型基本都是Diffusion模型,穩(wěn)定性上有較好的表現(xiàn),能夠在存在干擾的情況下仍然生成高質量的圖像。
4)圖像可控性
圖像可控性是使用者能夠對生成圖像進行細節(jié)控制和后續(xù)調整,例如圖像的顏色、形狀、紋理以及生成的物體數(shù)量等??煽匦允菆D像生成產(chǎn)品實現(xiàn)成熟商業(yè)化的前提。
普通者是否能通過文字描述來控制修改局部細節(jié),設計者對圖像可控性的要求更高,包括能否進行全景控制、精確區(qū)域控制、任意細節(jié)控制等。
AI繪畫產(chǎn)品當下有哪些變現(xiàn)手段?
大多數(shù)AI繪畫產(chǎn)品要么是充值、按月、按數(shù)量或定制模型收費,變現(xiàn)模式相對比較簡單和容易理解,也是現(xiàn)有商業(yè)化軟件常用見得變現(xiàn)手段。
5)充值消耗積分
充值多少送多少積分,根據(jù)生成圖片數(shù)量、選擇模式、生成速度來扣去積分。新用戶首次使用會贈送一定的積分數(shù),想持續(xù)使用或有更高階需求就要再額外充值。
6)軟件按月收費
每個月的價格不同,功能權限范圍不同,典型代表就是Midjourney,10/30/60美元每個月生成的數(shù)量和權益有所不同,以有1億美元的收入。
7)按照輸出圖像數(shù)量收費
不同價格輸出的圖像數(shù)量不同,例如國外avatar AI 、Lensa 、國內的美圖,支付多少錢后生成十到幾十張頭像圖片,供用戶選擇和使用。
8)模型訓練費
這種模式主要是面向B端客戶,AI繪畫產(chǎn)品公司為有定制化模型需求的客戶提供模型訓練,從而收取模型訓練費。Stable Diffusion 一項收益就是為客戶提供模型訓練服務,國內的Tiamat的主要收益還是B端,據(jù)采訪信息去年Q4,有幾百萬元的合同訂單。
對于變現(xiàn)能力來說大多數(shù)產(chǎn)品目前是無法盈利的。
根據(jù)6Pen的調查,60% 的用戶并沒有在使用AI繪圖產(chǎn)品上有過付費行為,也就是完全免費在使用,剩下40% 的付費用戶中,16% 付費在 10 元以內,14% 在100元以內,付費超過 100 元的不到 10%,我自己也只是購買了Midjourney賬號,其他產(chǎn)品還沒有讓我產(chǎn)生購買的理由。
主要的原因:
1)使用群體有限,還不是真正的“平民化”產(chǎn)品
雖然AI繪畫產(chǎn)品只需要輸入一句話就能生成圖像,但對于用戶來說需要有明確目的和技巧才能生成好的圖像,目前還不是人人都是設計創(chuàng)作者。
現(xiàn)在大部分還是設計師、內容創(chuàng)作者、繪畫人員使用較多,普通用戶最多是體驗下新鮮感,大多也就是免費嘗試。
2)產(chǎn)品能力還有待提高,用戶認知還處于嘗鮮階段,無法直接帶來商業(yè)轉化
根據(jù)6Pen問卷調查顯示,42% 的用戶認為 AI 繪畫單純只能滿足娛樂需求,38% 的用戶認為AI繪畫可以部分運用到工作之中,9.17% 的用戶認為AI繪畫具有顛覆性,與此同時,也有 7% 的用戶認為這根本不值一提。
3)Midjourney的效果出眾和Stable Diffusion的開源
Midjourney吸引大量國內優(yōu)質用戶使用,會進一步分享傳播,國內產(chǎn)品只能搶占哪些無法科學上網(wǎng)的用戶,同時Stable Diffusion的免費和開源,進一步將模型訓練的成本降低,用戶額外花錢的意愿降低。
三、AI繪畫的商業(yè)機會有哪些和制約因素?
現(xiàn)有的內容創(chuàng)作關鍵因素和之間關系
從第一性原理視角去思考內容創(chuàng)作的關鍵要素有哪些?基本要素為創(chuàng)作者、作品、消費者,創(chuàng)作者通過創(chuàng)作工具生產(chǎn)內容作品。
創(chuàng)作工具從最早的從原始的紙筆調色盤到數(shù)字化時代的數(shù)位板、繪圖軟件再到現(xiàn)在的AI。
有了作品就要通過傳播媒介給到消費者進行消費才能產(chǎn)生價值,傳播媒介從線下到線上,到更加精準和高效發(fā)展。
消費者對作品滿意有價值會成為創(chuàng)作者的粉絲,對創(chuàng)作者持續(xù)關注,從而產(chǎn)生更多內容作品。
每個鏈接點都可以產(chǎn)生商業(yè)化價值。
以消費者為核心,以作品的數(shù)字化為基礎的消費互聯(lián)網(wǎng)的大公司,在“傳播媒介”和“占有成本”上面做變革的起點,比如搜索、短視頻、網(wǎng)購等,再往“創(chuàng)作工具”和“名人/粉絲效應”上延展,比如抖音做的“剪映”視頻工具,培育網(wǎng)紅、直播帶貨等。
以創(chuàng)作者為核心的為創(chuàng)作者提供軟件工具的企業(yè)服務公司,在“創(chuàng)作工具”上面做深做透,幫助創(chuàng)作者提升“生產(chǎn)效率”(降本)或者提升“作品效果天花板”(增效),幫助創(chuàng)作者掙更多錢,從而使得創(chuàng)作者愿意花錢來購買相關的2B產(chǎn)品和服務。
新技術對關鍵因素帶來哪些改變?
以上是現(xiàn)有內容創(chuàng)作產(chǎn)業(yè)結構,那新的技術出現(xiàn)上面的結構會發(fā)展怎樣的變化。
圖像生成技術突破了只有人類才能生產(chǎn)內容的特權。
創(chuàng)作者可以借助AI進一步提升生產(chǎn)效率,這種效率的提升至指數(shù)級的,是從無到有。
消費者也能使用Ai較輕松就能生產(chǎn)高水平的作品,不用完全依賴專業(yè)人士,自己創(chuàng)作自己消費。
對于為B端創(chuàng)作者提供軟件工具的企業(yè)服務將會迎來新的變革,上一輪“云端協(xié)作”給軟件帶了新的機會,誕生了一批新的在線軟件公司,例如藍湖、墨刀、Figma、Airtable,從傳統(tǒng)大牌軟件公司中分一杯羹。
以Ai為主的2B軟件工具將會再一次迎來爆發(fā),會有很多針對垂直領域的Ai軟件,面對不同設計領域。但要成功突圍成品爆品難度也是相當?shù)拇?,不能只是簡單的單業(yè)務圖像生成能力,需要融入到整個創(chuàng)作的過程中,從前期調研、需求溝通、方案設計、方案展示、方案落地、協(xié)調溝通,以及二維到三維,否則很容易被Midjourney和Stable Diffusion給擊垮。
需要考驗玩家的場景結合能力、高質量的數(shù)據(jù)和行業(yè)專業(yè)知識的理解能力,給垂直行業(yè)找到AI的最佳實踐方式才可能成功。
現(xiàn)有的軟件也將會擁抱AI,將AI能力接入到現(xiàn)有的功能中,Adobe 發(fā)布 AI工具 Firefly,計劃將AICG完整融入到現(xiàn)有的軟件中,包括 Photoshop、Illustrator、 Adobe Express等工具。
短期內AI結合軟件工具能提供較大價值,但長期來看會很殘酷,只有少數(shù)玩家能幸存。
當AI的生產(chǎn)能力都能讓消費者生產(chǎn)符合自己的設計作品,那么會對擠壓創(chuàng)作者的生存空間,不需要那么多軟件工具了。
那么直接面向消費者的AI生產(chǎn)應用將會有更廣闊的市場空間。
對于以C端為核心的視角去結合圖像生成技術,可以從兩個方面挖掘應用場景,效率工具和創(chuàng)作工具
以效率工具切入需要生成的內容可以轉成個人經(jīng)濟的收益。
效率工具相對相對創(chuàng)作工具來說,需求和生成的要求會比較明確,與個人的經(jīng)濟收益有關的,Ai可以作為一個很好的生產(chǎn)力工具,例如在logo設計、商品圖片設計等,并且是可以為用戶帶來直接商業(yè)化轉化的價值。
現(xiàn)在大量的AI繪畫產(chǎn)品用戶還處于嘗鮮階段,只是為了獲取簡單、直接的感官體驗,未能融合到用戶的工作和生活中,更重要的原因未能構建好的應用場景。
有一個非常有價值的案例:PhotoRoom。
服務于二手電商賣家,去掉圖片背景,并增加各種細分電商應用場景所需的背景和效果,不僅節(jié)省時間,更重要是能提升商品的轉化率。
PhotoRoom 提供的背景都是各種具體的商業(yè)應用場景,不同的社交媒體和電商平臺都會有不同的銷售文案的圖片以及各類風格類型模版,目前各種模版已經(jīng)超過了 1000,基本上你只要找到自己平臺場景的背景圖片就可以直接掛上去賣了,整個優(yōu)化生成的圖片非常的有專業(yè)設計感,并且操作真的是非常簡單。
目前 PhotoRoom 已經(jīng)被下載了 4000 萬次,月活用戶 MAU 達到了 700 萬,訂閱用戶則達到了幾十萬,每天處理的圖片達到了 300 多萬張。
另一種是以創(chuàng)作工具切入應用場景,激發(fā)用戶個人創(chuàng)意、滿足娛樂化、個性化的情感需求,提供一種全新的“內容創(chuàng)作體驗”。
相對效率工具,對生產(chǎn)的圖片要求相對比較開放一些,追求的是感知效果。
Midjourney定義為人類創(chuàng)意引擎,擴展人類的想象力,產(chǎn)品形態(tài)上簡單易上手,只需要輸入命令提示符,就可以生成對應的高品質圖形,讓人感覺不可思議的力量,激發(fā)人類創(chuàng)新想象的動力。
但對于普通用戶來講,要創(chuàng)作一張高質量的圖片還是有一定門檻,首先需要有明確的使用場景需求,不然無從下手,其次你需要具備一定審美能力,知道不同風格,什么是一張好的有創(chuàng)意圖,最后你要會精準的表達,讓計算機理解你的需求。
以具體場景化來去驅動用戶的創(chuàng)作動力,會形成一定優(yōu)勢和機會點。
舉個案例,頭像風格化生成——Lensa AI。
用戶上傳10-20張自拍照,能生成50~200張不同風格的AI自畫像或頭像,切中頭像生成細分場景,契合不同的方式表達自我的需求,對用戶心理的洞察和深入挖掘,讓已經(jīng)厭倦發(fā)普通自拍的用戶獲得一種新的表達方式。
在去年12月份的時候在一眾面向C端的AIGC產(chǎn)品中尤為突出,5年內創(chuàng)造了預估820萬美元的收入。
同樣以頭像生成的有AvatarAI、國內的美圖的頭像生成。
雖然大家會擔心像昔日的臉萌,只是短期的賺錢工具,但并不影響我們去分析如何抓住用戶細分場景需求和興趣,通過新的技術方式為用戶提供更新奇、更能激發(fā)自我表達和傳播的方式,滿足滿足娛樂化、個性化的情感需求。
總的來說,對于toC場景,要切細化場景和用戶,激發(fā)用戶創(chuàng)作的動力,動力的來源要么是帶來提升收益的轉化,要么是滿足的用戶的某種情感的需求,得到了新的體驗價值。同時要求在產(chǎn)品上需要足夠簡單,可以基于細分場景提供豐富的選擇和聯(lián)想能力,把創(chuàng)作門檻變得足夠低。
四、圖像生成商業(yè)化落地挑戰(zhàn)?
1. 技術壁壘的挑戰(zhàn)
開源使AI繪畫產(chǎn)品的技術壁壘越來越低,投機者可以用很低的成本來追逐風口,在一定程度上造成商業(yè)上的混亂,這也是圖像生成領域當前不被那么VC看好的原因,在國內能拿到融資的局指可數(shù)。
想通過單點工具在該領域有獨立的生存空間并產(chǎn)生持續(xù)的現(xiàn)金流,就需要在某領域有自己的獨特數(shù)據(jù),另外,提供的產(chǎn)品或者服務是巨頭不具備的API。
2. 數(shù)據(jù)能力的挑戰(zhàn)
圖像生成的效果很大程度依賴于訓練數(shù)據(jù)的規(guī)模和數(shù)據(jù)質量,圖像生成產(chǎn)品在向細分行業(yè)和場景深入時,需要考慮存在的數(shù)據(jù)壁壘、數(shù)據(jù)量不足、數(shù)據(jù)質量不高等問題。
在模型訓練階段,可以通過數(shù)據(jù)增強策略、利用合成數(shù)據(jù)預訓練等方式進行優(yōu)化,提升下游任務的性能。
在應用階段,結合用戶所輸入的提示詞(prompt)、生成圖像選擇等進行交互行為和偏好分析,利用數(shù)據(jù)沉淀數(shù)據(jù)資產(chǎn),有針對性的進行模型迭代。
3. 產(chǎn)品化能力的挑戰(zhàn)
現(xiàn)在想要生成一張符合預期的圖片目前還是有一定門檻和時間成本,可能需要不斷嘗試不同的prompt和大量挑選過程。
除了要去優(yōu)化模型本身的性能外,可以從產(chǎn)品場景引導和交互層面去降低門檻、更高效生成符合預期的圖像。
對于用戶不是很知道要什么情況下或者說生成后有什么作用,那么可以通過細分具體場景來引導用戶,例如兒童繪本場景,可制作關于自己孩子的一些繪本故事,那這個場景下可以教用戶如何去構建故事腳本,具體如何生成,可瀏覽其他優(yōu)質繪本作品,也可進行二次生成等一系列的引導,只有讓用戶知道具體價值才會去使用。
模型對于prompt的理解和運用非常關鍵,輸入簡單的prompt可進一步給用戶完善更豐富和精準,在此基礎上,在用戶意圖的基礎上進行擴展,生成超越預期的高質量圖像。
4. 版權方面的挑戰(zhàn)
AI在模型使用的訓練數(shù)據(jù)包含明顯受到版權保護的視覺素材。Stable Diffusion訓練數(shù)據(jù)集來自LAION-58,而LAION-58包含50多億圖片以及匹配的文本標注,其中涉及大量受版權保護的內容。
同時,用戶在使用AI繪畫的工程也會大量參照現(xiàn)實藝術家或創(chuàng)作者的作品,直接加入藝術家的名字,這種行為容易造成內容版權風險。
涉及的版權問題同樣可以通過數(shù)字技術來解決,可以嘗試將畫家的作品上傳到區(qū)塊鏈中,從而加強技術溯源能力。
5. 理論與安全風的挑戰(zhàn)
由于AI本身還不具備價值判斷能力,為此一些平臺進行理論方面的限制和干預,禁止用戶輸入敏感關鍵詞語。對于輸出的數(shù)據(jù)進行篩選,移除包含明顯暴力、色黃犯法惡劣的內容圖片,還采用人工審查員檢測被標記為可能有問題的圖像。
以上內容是我個人對圖像生成領域商業(yè)化部分的學習梳理和淺顯的思考,接下來還會持續(xù)輸出一些圖像領域相關的文章內容。
作者:Rzhiyi,8年產(chǎn)品經(jīng)理經(jīng)驗,做過AI皮膚檢測系統(tǒng)和SaaS類產(chǎn)品
本文由@Rzhiyi 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!