AI+圖像|Ideogram:可生成包含清晰文本的圖片,a16z 領(lǐng)投八千萬(wàn)美金 A 輪
文生圖領(lǐng)域已經(jīng)有不少產(chǎn)品出現(xiàn),而Ideogram這款產(chǎn)品,在解決了文本與圖像結(jié)合的問(wèn)題之后,又很大程度上促進(jìn)了個(gè)人的表達(dá)。一起來(lái)看看本文的分享。
圖片生成模型已經(jīng)得到了廣泛應(yīng)用,但這項(xiàng)技術(shù)仍然處在早期且存在很多不足。例如生成效果難以控制且很難將正確的文本添加到圖像中。一家由前谷歌員工組成的創(chuàng)業(yè)團(tuán)隊(duì) Ideogram 推出了其最新文字生成圖像模型,旨在讓用戶(hù)創(chuàng)建包含可以清晰閱讀文本,且更加清晰逼真的圖片。
Sense 思考:
我們嘗試基于文章內(nèi)容,提出更多發(fā)散性的推演和深思,歡迎交流。
AI 推動(dòng)了創(chuàng)造力的普及:“幫助我們將想象從頭腦中提取出來(lái)并顯示在屏幕上的工具終于來(lái)了?!蓖ㄟ^(guò) Ideogram 為代表的生成式 AI 技術(shù),創(chuàng)造力的普及正在發(fā)生。這項(xiàng)技術(shù)使得沒(méi)有專(zhuān)業(yè)訓(xùn)練的普通人也能創(chuàng)作出高質(zhì)量的作品,從而重新定義“藝術(shù)家”和“創(chuàng)意者”的概念。
Ideogram 在圖像的真實(shí)感、細(xì)節(jié)處理及文本渲染方面取得的進(jìn)步體現(xiàn)了 AI 技術(shù)發(fā)展的快速性。在解決了文本與圖像結(jié)合問(wèn)題之后,可以極大促進(jìn)個(gè)人表達(dá)和創(chuàng)意產(chǎn)業(yè)發(fā)展。
AI Native 產(chǎn)品分析——Ideogram
1. 創(chuàng)立時(shí)間:2023 年 8 月
2. 產(chǎn)品上線時(shí)間:2023 年 9 月推出,2024 年 2 月發(fā)布最新版本
3. 創(chuàng)始人:Mohammad Norouzi
- 來(lái)自伊朗,2015 年在多倫多大學(xué)獲計(jì)算機(jī)科學(xué)博士學(xué)位,到了谷歌機(jī)器學(xué)習(xí)博士獎(jiǎng)學(xué)金的支持
- 前 Google Brain 高級(jí)研究科學(xué)家
4. 項(xiàng)目簡(jiǎn)介:
文本生成圖像 AI 模型,提供了業(yè)內(nèi)領(lǐng)先的文本渲染技術(shù)、前所未有的逼真效果和對(duì)常提示的精準(zhǔn)響應(yīng)
5.官網(wǎng):https://ideogram.ai/
在人類(lèi)的每一個(gè)文化、國(guó)家,或是歷史時(shí)期,創(chuàng)造性表達(dá)一直是人類(lèi)不可或缺的一部分。這種內(nèi)在的特質(zhì)讓我們與其他生命形式顯著不同,被視為人類(lèi)的獨(dú)特標(biāo)志。然而,盡管創(chuàng)造力是我們固有的一部分,一個(gè)人被稱(chēng)為“創(chuàng)意者”往往指的是他們?cè)谝魳?lè)、繪畫(huà)或雕塑等領(lǐng)域擁有天賦或?qū)I(yè)技能。可惜的是,并非每個(gè)人都有時(shí)間或天分深入從事創(chuàng)意工作。
幸運(yùn)的是,生成式 AI 正將創(chuàng)造力帶給所有人,想象與實(shí)現(xiàn)之間的距離從未如此接近。沒(méi)有什么能取代人類(lèi)的想象力和創(chuàng)造力,但幫助我們從頭腦中提取出來(lái)并顯示在屏幕上的工具終于來(lái)了。
圖片生成模型已經(jīng)存在一段時(shí)間且得到了廣泛應(yīng)用,但這項(xiàng)技術(shù)仍然處在早期且存在很多不足。例如,圖像生成通常緩慢而難以控制,分辨率較差,并且很難將正確的文本添加到圖像中。因此有無(wú)數(shù)團(tuán)隊(duì)在推進(jìn)這一領(lǐng)域的進(jìn)步。
近期,一家由前谷歌員工組成的創(chuàng)業(yè)團(tuán)隊(duì) Ideogram.ai 宣布推出其最新圖像生成模型,并獲得高額融資。
一、Ideogram,讓用戶(hù)創(chuàng)建包含可清晰閱讀文本的圖像
Ideogram 成立于 2023 年 8 月,總部位于多倫多,由幾位前谷歌員工創(chuàng)建,他們?cè)鴧⑴c開(kāi)發(fā)谷歌的 Imagen 圖像生成軟件和視頻生成模型。目前 Ideogram 專(zhuān)注于開(kāi)發(fā)人工智能圖像生成技術(shù),旨在解決 AI 生成圖像技術(shù)的一個(gè)棘手問(wèn)題:讓用戶(hù)創(chuàng)建包含可以清晰閱讀文本的圖像。
2023 年 9 月,在其軟件公開(kāi)發(fā)布時(shí),當(dāng)時(shí)流行的 AI 圖像生成產(chǎn)品如 Midjourney、OpenAI 的 DALL-E 2 和 Stability AI 的 Stable Diffusion 在嘗試生成包含文字的圖片時(shí)常常失敗,經(jīng)常顯示無(wú)意義的內(nèi)容。
(9 月份從同一提示中生成的 AI 圖像,“a photograph of an adorable kitten wearing a t-shirt with the words ‘ask me about my AI startup. ’”。從左上角順時(shí)針依次是:Ideogram、OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion 和 Midjourney)
如今,隨著技術(shù)的迅猛發(fā)展,包括 OpenAI 最新的 DALL-E 3 模型在內(nèi)的一些工具也開(kāi)始能夠有效地處理圖像中的文字內(nèi)容。但 Ideogram 的 CEO Norouzi 認(rèn)為他們最新推出的 AI 模型在處理長(zhǎng)篇復(fù)雜文本的圖像生成方面仍具有競(jìng)爭(zhēng)優(yōu)勢(shì)。
二、Ideogram 最新模型,幫助用戶(hù)編寫(xiě)詳細(xì)的提示
Ideogram 近期推出了他們最新的文本轉(zhuǎn)圖像模型 Ideogram 1.0,Ideogram 1.0 在正確顯示文本方面有了顯著提升,同時(shí)生成的圖像更加逼真以及對(duì)可以對(duì)復(fù)雜提示詞進(jìn)行精確響應(yīng)。同時(shí) Ideogram 1.0 引入了一個(gè)名為“魔法提示”的新功能,這個(gè)功能可以根據(jù)用戶(hù)的原始描述,編寫(xiě)更詳細(xì)的提示,進(jìn)而創(chuàng)造創(chuàng)造出更美觀且具創(chuàng)意的圖像。
從 AI 生產(chǎn)圖像模型推出以來(lái),AI 在圖像中生成的文本一直存在準(zhǔn)確性問(wèn)題。在圖像中正確添加文本一直是較為困難的。Ideogram 1.0 通過(guò)其文本渲染功能解決了這個(gè)問(wèn)題,它不僅允許直接向圖像添加文本,而且文本與圖像融合度極高,風(fēng)格匹配,使表達(dá)更加突出。這一改進(jìn)使得用戶(hù)能夠輕松創(chuàng)作個(gè)性化信息、模因、海報(bào)、T 恤設(shè)計(jì)、生日卡片、商標(biāo)等。
Ideogram 1.0 模型的另一個(gè)重大進(jìn)步是圖像的真實(shí)感和細(xì)節(jié)。要使 AI 生成的圖像獲得廣泛采用,在專(zhuān)業(yè)設(shè)計(jì)到沉浸感方面都需要照片級(jí)的真實(shí)感。同時(shí)這一模型還擅長(zhǎng)解釋復(fù)雜的提示,如下面的示例,生成的圖像準(zhǔn)確地反映了其提示的每個(gè)細(xì)節(jié)。
( Prompt: two men in a study room. The man on the left stands, wearing a long coat, a patterned shirt, and holding a walking stick. He has an unkempt appearance with a beard. The man on the right is seated on a chair, dressed in a formal suit, and holding a cane. Behind them, there’s a framed portrait of a man on the wall. The room has a vintage feel, with ornate curtains and a carpeted floor.)
Ideogram 1.0 模型還包括“魔法提示”功能,這是一個(gè)創(chuàng)意輔助工具,能自動(dòng)增強(qiáng)、延伸并轉(zhuǎn)換用戶(hù)提示,從而創(chuàng)造出更精細(xì)且具有創(chuàng)造性的圖像。如果提示詞是 GenAI 時(shí)代的畫(huà)筆,那么提示魔法就像是一個(gè)增強(qiáng)器,自動(dòng)擴(kuò)展并豐富它們的語(yǔ)義深度。
( Prompt: vegetables orbiting the sun
Magic Prompt: A captivating and whimsical illustration of various vegetables in orbit around a bright, golden sun. The vegetables, each with their own distinct personality, are comically suspended by invisible strings, creating a sense of weightlessness. A mix of classic vegetables like carrots, potatoes, and tomatoes, as well as more exotic ones like artichokes and eggplants, fill the celestial scene. The background stars twinkle in the vast universe, adding to the fantastical, cosmic atmosphere.)
Ideogram 表示,參與測(cè)試的評(píng)估者對(duì)于 Ideogram 1.0 在提示對(duì)齊、圖像連貫性、整體偏好和文本渲染質(zhì)量方面的偏好超越了 DALL·E 3 和 Midjourney V6。
三、Ideogram 獲八千萬(wàn)美金融資
Ideogram 種子輪就獲得了包括 a16z 在內(nèi)的多家頂尖風(fēng)投與 AI 領(lǐng)域行業(yè)專(zhuān)家的投資,2024 年 2 月底,Ideogram 完成了八千萬(wàn)美金的 A 輪融資,暫未透露公司估值。其 A 輪融資由 Andreessen Horowitz 領(lǐng)投,Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel 等參投。A16Z 的普通合伙人 Martin Casado 將加入 Ideogram 的董事會(huì)。
Ideogram 此次融資將用于招聘和滿足計(jì)算需求。由于訓(xùn)練和運(yùn)行前沿 AI 模型成本高昂,硅谷近來(lái)對(duì) AI 的投資熱潮持續(xù)升溫。
Norouzi 表示,這輪資金將支持公司以數(shù)據(jù)為驅(qū)動(dòng),分析并優(yōu)化其 AI 圖像創(chuàng)建應(yīng)用。目前 Ideogram 已開(kāi)始提供付費(fèi)訂閱服務(wù),包括更快的圖像生成和訪問(wèn)編輯工具,但用戶(hù)仍然可以繼續(xù)免費(fèi)試用該產(chǎn)品。
參考材料:
https://www.bloomberg.com/news/articles/2024-02-28/startup-ideogram-raises-80-million-for-ai-image-generation?embedded-checkout=true
https://a16z.com/announcement/investing-in-ideogram/
https://about.ideogram.ai/1.0
編譯:Wes;編輯:Vela
來(lái)源公眾號(hào):深思SenseAI;關(guān)注全球 AI 前沿,走進(jìn)科技創(chuàng)業(yè)公司,提供產(chǎn)業(yè)多維深思。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @深思SenseAI 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!