AI+圖像|Ideogram:可生成包含清晰文本的圖片,a16z 領(lǐng)投八千萬美金 A 輪

0 評論 2770 瀏覽 4 收藏 12 分鐘

文生圖領(lǐng)域已經(jīng)有不少產(chǎn)品出現(xiàn),而Ideogram這款產(chǎn)品,在解決了文本與圖像結(jié)合的問題之后,又很大程度上促進(jìn)了個人的表達(dá)。一起來看看本文的分享。

圖片生成模型已經(jīng)得到了廣泛應(yīng)用,但這項技術(shù)仍然處在早期且存在很多不足。例如生成效果難以控制且很難將正確的文本添加到圖像中。一家由前谷歌員工組成的創(chuàng)業(yè)團(tuán)隊 Ideogram 推出了其最新文字生成圖像模型,旨在讓用戶創(chuàng)建包含可以清晰閱讀文本,且更加清晰逼真的圖片。

Sense 思考:

我們嘗試基于文章內(nèi)容,提出更多發(fā)散性的推演和深思,歡迎交流。

AI 推動了創(chuàng)造力的普及:“幫助我們將想象從頭腦中提取出來并顯示在屏幕上的工具終于來了?!蓖ㄟ^ Ideogram 為代表的生成式 AI 技術(shù),創(chuàng)造力的普及正在發(fā)生。這項技術(shù)使得沒有專業(yè)訓(xùn)練的普通人也能創(chuàng)作出高質(zhì)量的作品,從而重新定義“藝術(shù)家”和“創(chuàng)意者”的概念。

Ideogram 在圖像的真實感、細(xì)節(jié)處理及文本渲染方面取得的進(jìn)步體現(xiàn)了 AI 技術(shù)發(fā)展的快速性。在解決了文本與圖像結(jié)合問題之后,可以極大促進(jìn)個人表達(dá)和創(chuàng)意產(chǎn)業(yè)發(fā)展。

AI Native 產(chǎn)品分析——Ideogram

1. 創(chuàng)立時間:2023 年 8 月

2. 產(chǎn)品上線時間:2023 年 9 月推出,2024 年 2 月發(fā)布最新版本

3. 創(chuàng)始人:Mohammad Norouzi

  • 來自伊朗,2015 年在多倫多大學(xué)獲計算機(jī)科學(xué)博士學(xué)位,到了谷歌機(jī)器學(xué)習(xí)博士獎學(xué)金的支持
  • 前 Google Brain 高級研究科學(xué)家

4. 項目簡介:

文本生成圖像 AI 模型,提供了業(yè)內(nèi)領(lǐng)先的文本渲染技術(shù)、前所未有的逼真效果和對常提示的精準(zhǔn)響應(yīng)

5.官網(wǎng):https://ideogram.ai/

在人類的每一個文化、國家,或是歷史時期,創(chuàng)造性表達(dá)一直是人類不可或缺的一部分。這種內(nèi)在的特質(zhì)讓我們與其他生命形式顯著不同,被視為人類的獨(dú)特標(biāo)志。然而,盡管創(chuàng)造力是我們固有的一部分,一個人被稱為“創(chuàng)意者”往往指的是他們在音樂、繪畫或雕塑等領(lǐng)域擁有天賦或?qū)I(yè)技能??上У氖?,并非每個人都有時間或天分深入從事創(chuàng)意工作。

幸運(yùn)的是,生成式 AI 正將創(chuàng)造力帶給所有人,想象與實現(xiàn)之間的距離從未如此接近。沒有什么能取代人類的想象力和創(chuàng)造力,但幫助我們從頭腦中提取出來并顯示在屏幕上的工具終于來了。

圖片生成模型已經(jīng)存在一段時間且得到了廣泛應(yīng)用,但這項技術(shù)仍然處在早期且存在很多不足。例如,圖像生成通常緩慢而難以控制,分辨率較差,并且很難將正確的文本添加到圖像中。因此有無數(shù)團(tuán)隊在推進(jìn)這一領(lǐng)域的進(jìn)步。

近期,一家由前谷歌員工組成的創(chuàng)業(yè)團(tuán)隊 Ideogram.ai 宣布推出其最新圖像生成模型,并獲得高額融資。

一、Ideogram,讓用戶創(chuàng)建包含可清晰閱讀文本的圖像

Ideogram 成立于 2023 年 8 月,總部位于多倫多,由幾位前谷歌員工創(chuàng)建,他們曾參與開發(fā)谷歌的 Imagen 圖像生成軟件和視頻生成模型。目前 Ideogram 專注于開發(fā)人工智能圖像生成技術(shù),旨在解決 AI 生成圖像技術(shù)的一個棘手問題:讓用戶創(chuàng)建包含可以清晰閱讀文本的圖像。

2023 年 9 月,在其軟件公開發(fā)布時,當(dāng)時流行的 AI 圖像生成產(chǎn)品如 Midjourney、OpenAI 的 DALL-E 2 和 Stability AI 的 Stable Diffusion 在嘗試生成包含文字的圖片時常常失敗,經(jīng)常顯示無意義的內(nèi)容。

(9 月份從同一提示中生成的 AI 圖像,“a photograph of an adorable kitten wearing a t-shirt with the words ‘ask me about my AI startup. ’”。從左上角順時針依次是:Ideogram、OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion 和 Midjourney)

如今,隨著技術(shù)的迅猛發(fā)展,包括 OpenAI 最新的 DALL-E 3 模型在內(nèi)的一些工具也開始能夠有效地處理圖像中的文字內(nèi)容。但 Ideogram 的 CEO Norouzi 認(rèn)為他們最新推出的 AI 模型在處理長篇復(fù)雜文本的圖像生成方面仍具有競爭優(yōu)勢。

二、Ideogram 最新模型,幫助用戶編寫詳細(xì)的提示

Ideogram 近期推出了他們最新的文本轉(zhuǎn)圖像模型 Ideogram 1.0,Ideogram 1.0 在正確顯示文本方面有了顯著提升,同時生成的圖像更加逼真以及對可以對復(fù)雜提示詞進(jìn)行精確響應(yīng)。同時 Ideogram 1.0 引入了一個名為“魔法提示”的新功能,這個功能可以根據(jù)用戶的原始描述,編寫更詳細(xì)的提示,進(jìn)而創(chuàng)造創(chuàng)造出更美觀且具創(chuàng)意的圖像。

從 AI 生產(chǎn)圖像模型推出以來,AI 在圖像中生成的文本一直存在準(zhǔn)確性問題。在圖像中正確添加文本一直是較為困難的。Ideogram 1.0 通過其文本渲染功能解決了這個問題,它不僅允許直接向圖像添加文本,而且文本與圖像融合度極高,風(fēng)格匹配,使表達(dá)更加突出。這一改進(jìn)使得用戶能夠輕松創(chuàng)作個性化信息、模因、海報、T 恤設(shè)計、生日卡片、商標(biāo)等。

Ideogram 1.0 模型的另一個重大進(jìn)步是圖像的真實感和細(xì)節(jié)。要使 AI 生成的圖像獲得廣泛采用,在專業(yè)設(shè)計到沉浸感方面都需要照片級的真實感。同時這一模型還擅長解釋復(fù)雜的提示,如下面的示例,生成的圖像準(zhǔn)確地反映了其提示的每個細(xì)節(jié)。

( Prompt: two men in a study room. The man on the left stands, wearing a long coat, a patterned shirt, and holding a walking stick. He has an unkempt appearance with a beard. The man on the right is seated on a chair, dressed in a formal suit, and holding a cane. Behind them, there’s a framed portrait of a man on the wall. The room has a vintage feel, with ornate curtains and a carpeted floor.)

Ideogram 1.0 模型還包括“魔法提示”功能,這是一個創(chuàng)意輔助工具,能自動增強(qiáng)、延伸并轉(zhuǎn)換用戶提示,從而創(chuàng)造出更精細(xì)且具有創(chuàng)造性的圖像。如果提示詞是 GenAI 時代的畫筆,那么提示魔法就像是一個增強(qiáng)器,自動擴(kuò)展并豐富它們的語義深度。

Prompt: vegetables orbiting the sun

Magic Prompt: A captivating and whimsical illustration of various vegetables in orbit around a bright, golden sun. The vegetables, each with their own distinct personality, are comically suspended by invisible strings, creating a sense of weightlessness. A mix of classic vegetables like carrots, potatoes, and tomatoes, as well as more exotic ones like artichokes and eggplants, fill the celestial scene. The background stars twinkle in the vast universe, adding to the fantastical, cosmic atmosphere.)

Ideogram 表示,參與測試的評估者對于 Ideogram 1.0 在提示對齊、圖像連貫性、整體偏好和文本渲染質(zhì)量方面的偏好超越了 DALL·E 3 和 Midjourney V6。

三、Ideogram 獲八千萬美金融資

Ideogram 種子輪就獲得了包括 a16z 在內(nèi)的多家頂尖風(fēng)投與 AI 領(lǐng)域行業(yè)專家的投資,2024 年 2 月底,Ideogram 完成了八千萬美金的 A 輪融資,暫未透露公司估值。其 A 輪融資由 Andreessen Horowitz 領(lǐng)投,Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel 等參投。A16Z 的普通合伙人 Martin Casado 將加入 Ideogram 的董事會。

Ideogram 此次融資將用于招聘和滿足計算需求。由于訓(xùn)練和運(yùn)行前沿 AI 模型成本高昂,硅谷近來對 AI 的投資熱潮持續(xù)升溫。

Norouzi 表示,這輪資金將支持公司以數(shù)據(jù)為驅(qū)動,分析并優(yōu)化其 AI 圖像創(chuàng)建應(yīng)用。目前 Ideogram 已開始提供付費(fèi)訂閱服務(wù),包括更快的圖像生成和訪問編輯工具,但用戶仍然可以繼續(xù)免費(fèi)試用該產(chǎn)品。

參考材料:

https://www.bloomberg.com/news/articles/2024-02-28/startup-ideogram-raises-80-million-for-ai-image-generation?embedded-checkout=true

https://a16z.com/announcement/investing-in-ideogram/

https://about.ideogram.ai/1.0

編譯:Wes;編輯:Vela

來源公眾號:深思SenseAI;關(guān)注全球 AI 前沿,走進(jìn)科技創(chuàng)業(yè)公司,提供產(chǎn)業(yè)多維深思。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @深思SenseAI 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!