新一代梗圖之王,居然是它
編輯導(dǎo)語:最近,有一個推特賬號上面發(fā)布的全都是一些離譜卻又獨(dú)特的梗圖。本篇文章中作者結(jié)合自身體會對此展開了一系列討論,感興趣的小伙伴們快來一起看看吧。
最近我完全迷上了一個推特賬號。
上面發(fā)的全都是些描述十分離譜,卻、又有一種獨(dú)特風(fēng)格的梗圖。
比如“懷孕的婦女將投石車瞄準(zhǔn)最高法院”:
“達(dá)斯·維達(dá)偷走一輛獨(dú)輪車的監(jiān)控畫面”:
還有“蜘蛛俠和古埃及”:
很難用文字來描述這些圖片,有多么的離譜卻又傳神了。自從我每天開始轉(zhuǎn)發(fā)這個賬號,網(wǎng)友們都驚訝于我哪兒找來的這么多梗圖……
這個賬號,就是“奇怪的 Dall-E mini 生成圖片” (Weird Dall·E Generations @weirddalle)。
在這個梗圖橫行網(wǎng)絡(luò),人們已經(jīng)不能好好說話的年代,@weirddalle 成為了最新、最時髦,也最“古靈精怪”的梗圖來源。它今年2月才注冊,現(xiàn)在粉絲數(shù)量已經(jīng)快要突破百萬了。
然而,很多人其實并不知道,這個賬號的背后,并非一位腦洞清奇和高產(chǎn)的畫手,而是一個在最近已經(jīng)火出天際的神經(jīng)網(wǎng)絡(luò)項目:DALL·E mini。
一、一個免費(fèi)公開的項目,讓所有人都變成“靈魂畫手”
近兩年,超巨大參數(shù)量規(guī)模的語言模型,是進(jìn)展最迅猛的一個創(chuàng)新方向。包括 OpenAI 的 GPT-3、谷歌的 LaMDA 等,處理起各種各樣的語言類任務(wù),效果非常強(qiáng)大。
這些科技公司還在專門研究一個具體的語言任務(wù):根據(jù)文字描述生成圖片。在這個任務(wù)方向上,OpenAI 的 DALL·E、谷歌的Imagen,以及 MidJourney 模型,都是非常知名的項目。
但是這些知名項目都是不公開或半公開的。比如 DALL·E 2,OpenAI 只給數(shù)量極其有限(大約幾百人)的外部開發(fā)者和研究人員開放了使用權(quán)限。于是,家住美國休斯頓的開發(fā)者 Boris Dayma 決定,照著 DALL·E 2 的樣子自己做一個小規(guī)模的免費(fèi)版本出來,讓大家玩?zhèn)€夠。
這個項目,就是后來的 DALL·E mini。
這個項目本來是 Dayma 拿來參加 Hugging Face 挑戰(zhàn)賽的,因為效果實在太棒,又是開源免費(fèi)使用的,沒過半年它就成功破圈,進(jìn)入了主流社會的視野。
至于為什么一個出于愛好性質(zhì),由個人開發(fā)者做出來的圖片生成模型,能夠和 OpenAI 的 DALL·E 一代不相上下,在于這個小項目用了三個圖片-描述平行數(shù)據(jù)庫,分別為300萬、1200萬和1500萬張圖片,其中1500萬的這個數(shù)據(jù)庫正好是 OpenAI 的 YFCC100M 數(shù)據(jù)子集。
現(xiàn)在,大家正在瘋狂地使用 DALL·E mini 進(jìn)行創(chuàng)作輸出。粉絲們甚至在 Reddit 上專門建立了一個subreddit社區(qū),目前已經(jīng)有超過8萬名用戶,在一個尋常的周四晚上,都有超過一千人同時在線:
在這個 subreddit 里,各式各樣腦洞清奇的作品更是層出不窮:
有強(qiáng)迫模型生成 PPT 藝術(shù)字的:
有用它來偽造歷史照片的:
圖注:《星戰(zhàn)》角色佳佳賓克斯在紐倫堡受審
雖然名字有點(diǎn)像,功能也基本一樣,但 DALL·E mini 除了名字和訓(xùn)練數(shù)據(jù)庫之外,跟 OpenAI 的 DALL·E 完全沒有任何關(guān)系。也是因為它最近實在太火,搞得 OpenAI 有意見了,Dayma 只好把自己的項目名稱改成了 Craiyon。
聽說此事之后,粉絲們還做了一張梗圖,嘲笑 OpenAI 那邊還在控制測試權(quán)限,這邊 DALL·E mini 早就給全網(wǎng)玩嗨了……
Dayma 在本周三透露,目前 DALL·E mini 后臺正在面臨巨大的算力和流量壓力,每天要處理大約500萬次生成指令。他表示“做了這么一個怪怪的但是能用的東西出來,反而大家都挺喜歡的的”,自己還是挺開心。
更重要的是,把過去只有少數(shù)“AI 特權(quán)人士”才擁有工具,交到每一個普通網(wǎng)民的手上,才是正確的事情。
Dayma 在接受英國媒體“i”采訪時指出,那些能夠使用類似圖片生成模型的 AI 精英們,通常只會把讓他們自己感到滿意的生成結(jié)果發(fā)出來,這容易讓其它看熱鬧的人誤以為這些模型已經(jīng)非常厲害了,然而實際情況可能并非如此。
所以他才會搗鼓出 DALL·E mini 這個小玩意,讓所有人都能用上,“這樣大家才能真正明白這些模型到底水平如何?!?/p>
二、無所不能的語言模型,終于染指了藝術(shù)創(chuàng)作
2020年,OpenAI 的研究者揭開了 GPT-3 模型的蓋頭,當(dāng)時的論文題為“Language Models are Few-Shot Learners”,直接點(diǎn)出了超大語言模型在多種非訓(xùn)練任務(wù)上具備強(qiáng)大的快速學(xué)習(xí)/掌握能力。
而在語言模型基礎(chǔ)之上,面向圖片生成這一專門任務(wù)方向而調(diào)試訓(xùn)練出的結(jié)果,像 DALL·E、DALL·E mini、Imagen、Midjourney 等的圖片生成模型,更是展示出了令人驚訝的“藝術(shù)創(chuàng)作”能力。
2022年6月的一個星期一下午,傳媒巨頭赫斯特旗下時尚雜志《COSMO》位于紐約市的編輯開了一個視頻電話會。會議的目的是為該雜志的6月刊設(shè)計一個封面,但和往常不同的是,位于西海岸的 OpenAI 員工也參與到了會議里。
《COSMO》的編輯們震驚于 OpenAI 在 AI 藝術(shù)創(chuàng)作上取得的驚人進(jìn)展,決定邀請這家公司一同在傳媒行業(yè)做一件從未發(fā)生過的事情:
讓 DALL·E 2 來設(shè)計一本頂級時尚雜志的整版封面。
封面,對于傳媒人來說是頂禮膜拜的一種存在,時尚媒體更是如此。對于一本時尚雜志,封面濃縮了編輯部的社交關(guān)系能力和藝術(shù)審美水準(zhǔn),讓人一眼即可領(lǐng)略本期內(nèi)容的精華,和雜志本身的積淀。
而當(dāng)《COSMO》讓 AI 來設(shè)計封面的決定在業(yè)界傳開之后,難免有人詰問:是否傳媒創(chuàng)意行業(yè)也江郎才盡,將要和其它很多藍(lán)白粉領(lǐng)工作一樣,最終難免讓位給 AI?
如果僅從這次視頻會議的工作效率來看,肯定的答案似乎是顯而易見的:DALL·E 2 以平均每次輸入20秒的用時,就可以根據(jù)編輯輸入的字句,生成對應(yīng)的圖片,而且一次可以出六版,相比人工畫師,效率簡直高出天際了。
只是,這些圖片都令人不甚滿意。
最終,六位參會者不斷地打磨和迭代輸入的文本,又經(jīng)過了一整夜之后,DALL·E 2 才終于生成了令所有人都滿意的封面結(jié)果。
圖片來源:COSMO 雜志
輸入語句:“從下往上的廣角拍攝,一個有著健美女性身材的女性宇航員,在火星上和無限的宇宙背景中中大搖大擺地走向相機(jī),采用合成波風(fēng)格 (synthwave)?!?/p>
圖片來源:OpenAI/COSMO 雜志
采用 DALL·E 2 “outpainting”功能,根據(jù)初始生成的圖片,不斷在邊緣處進(jìn)行“補(bǔ)完”,最終生成一張連貫的圖片。
在今天,DALL·E 2、DALL·E mini、MidJourney、Imagen 在生成視覺藝術(shù)上的確展現(xiàn)出極大的潛力。但如果你仔細(xì)想,它更大的意義,其實在于為那些“空有靈感”卻沒有視覺創(chuàng)作技藝的人,也即互聯(lián)網(wǎng)上的每個你和我,賦予了一件強(qiáng)大的工具。
DALL·E 項目產(chǎn)品經(jīng)理 Joanne Jang 表示,OpenAI 最終肯定還是希望能夠?qū)?DALL·E 2 商業(yè)化的,但希望在藝術(shù)生成的這個方向上,把它做成一個創(chuàng)作者的工具,而不是替代品。
沒有任何工具應(yīng)該替代創(chuàng)作者本人的藝術(shù)理解和表達(dá)對創(chuàng)作產(chǎn)物所造成的影響。但是,當(dāng)文字生成圖片技術(shù)進(jìn)一步普及過后,難免出現(xiàn)大批入門級創(chuàng)作者淪為模型的“操作員”,過度依賴工具。
參與了《COSMO》封面項目的數(shù)字藝術(shù)家 KarenCheng 認(rèn)為,AI的采用確實會對各行各業(yè)造成深遠(yuǎn)影響,讓很多人失去工作,“不過與此同時,創(chuàng)意將會迎來一次爆發(fā),新的工種也將被創(chuàng)造出來,那種可能性是今天的我們所無法想象的?!?/strong>
作者:杜晨;編輯:Vicky Xiao
來源:https://mp.weixin.qq.com/s/iy5R7NjFThYp8EubtkT6dw
本文由 @硅星人 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
好抽象啊,是我跟不上時代了嗎,不過還蠻有意思的
哈哈哈啊哈,還真的是挺有趣的,創(chuàng)作來源于生活。
哈哈哈腦洞真的很清奇,沒有想到這個方向也能創(chuàng)造出這么多有趣的圖
它更大的意義,其實在于為那些“空有靈感”卻沒有視覺創(chuàng)作技藝的人,也即互聯(lián)網(wǎng)上的每個你和我,賦予了一件強(qiáng)大的工具。
哈哈哈哈哈哈看完這些圖片,確實覺得很有意思,互聯(lián)網(wǎng)都是人才
創(chuàng)意終究還是由人類來闡釋的,不過便捷的工具能為大眾娛樂提供不少幫助呀
現(xiàn)在互聯(lián)網(wǎng)節(jié)奏本身就很快,更新?lián)Q代是常有的事情。經(jīng)常需要新的刺激來保證具有活躍度嘛
哈哈哈神圖時時都在更新,感覺都是一些好玩的東西吧我覺得,都是短期的