新范式 | iRAG讓百度終于真正領(lǐng)先了行業(yè)一回
百度的最新技術(shù)iRAG,就像是給AI開(kāi)了掛,讓圖片生成不再是“睜眼說(shuō)瞎話”。這篇文章帶你一探究竟,看看百度是如何用iRAG技術(shù)讓AI變得更加靠譜,甚至可能顛覆我們對(duì)AI繪圖的認(rèn)知。
就個(gè)人而言,我對(duì)百度并沒(méi)有多少好感,百度給我的印象是:啥都愛(ài)爭(zhēng)第一的營(yíng)銷型公司,不管是AI、元宇宙概念還是這波大模型革命,百度始終是中國(guó)科技風(fēng)向的領(lǐng)跑者,從2017年提出[All in AI]的口號(hào),到元宇宙產(chǎn)品[息壤]、大模型產(chǎn)品[文心一言]的發(fā)布,總是遙遙領(lǐng)先于其他公司,這點(diǎn)騰訊、阿里、字節(jié)也得甘拜下風(fēng),所以百度身上有很多“國(guó)內(nèi)第一”的標(biāo)簽,但“第一”并非等于“最好”,單論國(guó)產(chǎn)大模型的使用體驗(yàn),個(gè)人首推阿里[通義]、月之暗面的[kimi],至于百度的[文心一言]的使用效果實(shí)在難以評(píng)價(jià),所以跑得快的百度在技術(shù)上我一直看不太上。
不過(guò)最近看了李彥宏在百度世界2024大會(huì)上的演講,讓我對(duì)百度的態(tài)度有了些許改觀。在李彥宏[應(yīng)用來(lái)了]的演講中,提到了一個(gè)檢索增強(qiáng)的文生圖技術(shù)(iRAG),這個(gè)技術(shù)解決了大模型在圖片生成上的幻覺(jué)問(wèn)題,極大提升實(shí)用性,由于之前這個(gè)技術(shù)名詞在行業(yè)里較少提及,所以本文主要想對(duì)這塊內(nèi)容進(jìn)行科普;至于演講的其他部分諸如百度文心大模型的日均調(diào)用量超15億次、發(fā)布無(wú)代碼工具“秒噠”等,這些屬于對(duì)外宣發(fā)和行業(yè)跟進(jìn)內(nèi)容,沒(méi)有很大的參考價(jià)值,大家感興趣可自行了解。
01. 什么是RAG?
講iRAG之前,我們先看看什么是RAG?
兩年前ChatGPT橫空出世,盡管其能力已經(jīng)足夠讓人驚艷,但“一本正經(jīng)地胡說(shuō)八道”仍然時(shí)有出現(xiàn)。這種現(xiàn)象被稱為“幻覺(jué)”,如果不能把“幻覺(jué)”出現(xiàn)的概率降到足夠低,大模型就無(wú)法真正從[好用]變成[有用]。
所以行業(yè)為了解決幻覺(jué)問(wèn)題,通用的解決方案是增加RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)。
RAG的基本思想是通過(guò)從外部知識(shí)庫(kù)中檢索相關(guān)信息,并將這些信息作為額外的上下文提供給語(yǔ)言模型,從而增強(qiáng)模型生成文本的能力。
RAG的工作流程通常包括以下幾個(gè)步驟:
- 檢索:當(dāng)用戶提出一個(gè)問(wèn)題或請(qǐng)求時(shí),RAG首先從一個(gè)預(yù)先構(gòu)建的知識(shí)庫(kù)中檢索相關(guān)信息。這個(gè)知識(shí)庫(kù)可以是結(jié)構(gòu)化的數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化的文檔集合或其他形式的數(shù)據(jù)源。檢索過(guò)程通常使用向量搜索技術(shù),如FAISS或Milvus,將文本轉(zhuǎn)化為向量,并在向量空間中找到最相似的條目。
增強(qiáng):檢索到的信息會(huì)被整合到一個(gè)上下文模板中,這個(gè)模板通常包含用戶的原始查詢。這樣,檢索到的信息就成為了生成模型的一部分輸入,增強(qiáng)了模型對(duì)問(wèn)題的理解和回答能力。
生成:最后,增強(qiáng)后的上下文被輸入到大語(yǔ)言模型中,模型根據(jù)這些信息生成最終的響應(yīng)。生成的響應(yīng)不僅基于模型自身的知識(shí),還結(jié)合了檢索到的外部信息,從而更加準(zhǔn)確和豐富。
舉個(gè)更容易理解的例子,沒(méi)有RAG之前的大模型是閉卷考試的學(xué)生,難免會(huì)出現(xiàn)差錯(cuò),而RAG讓大模型帶上各種參考資料,答題的同時(shí)可以翻閱與題目有關(guān)的材料,這樣回答的結(jié)果肯定是更準(zhǔn)確。
02. iRAG為什么很重要?
了解了RAG,那么iRAG(image based RAG)就可以理解是大模型在圖像領(lǐng)域的RAG。
回顧過(guò)去兩年,不管是AI搜索還是AI客服,本質(zhì)都是檢索增強(qiáng)生成(RAG)的延伸,目前在文字層面的RAG已經(jīng)做得很好,基本讓大模型消除了幻覺(jué);但在圖像等多模態(tài)方面,和RAG的結(jié)合還不夠。
各種基于大語(yǔ)言模型的文生圖還有比較嚴(yán)重的幻覺(jué),尤其是針對(duì)現(xiàn)實(shí)生活中特定地點(diǎn)、物品和人物的描述和繪畫,常常會(huì)出現(xiàn)張冠李戴的幻覺(jué)問(wèn)題,讓生成的圖片“一眼假”,極大地影響了AI的實(shí)用性。
百度文心一言舊模型:唐伯虎點(diǎn)秋香
所以不管是Midjouney、Stable Diffusion,還是前段時(shí)間很好的Flux等各類 AI 繪畫模型,它們的本質(zhì)都是在培養(yǎng)一個(gè)抽象的、超現(xiàn)實(shí)主義的藝術(shù)家,對(duì)于現(xiàn)實(shí)世界了解不足,生產(chǎn)炫酷、天馬行空的畫作是它們的特長(zhǎng),但是藝術(shù)這個(gè)東西往往和實(shí)用存在矛盾,我相信很多朋友應(yīng)該和我一樣都對(duì)非寫實(shí)的畫作很難鑒賞。
不過(guò)人在物質(zhì)需求極大滿足后才會(huì)追求精神需求,所以對(duì)于大眾來(lái)說(shuō),AI能幫我們提升生產(chǎn)力和生產(chǎn)效率才是最關(guān)鍵的,這點(diǎn)我認(rèn)同李彥宏的看法:iRAG技術(shù)極大地提高了AI生成圖片的可用性。比如在品牌宣傳上,以前拍一組海報(bào)動(dòng)輒大幾十萬(wàn),但現(xiàn)在的創(chuàng)作成本接近于0。此外,在影視作品、漫畫作品、連續(xù)畫本、海報(bào)制作等應(yīng)用場(chǎng)景中,iRAG都可以大幅降低創(chuàng)作成本。
新文心大模型生成的大眾攬巡汽車飛躍長(zhǎng)城的圖片。車型車標(biāo)、長(zhǎng)城,均未出錯(cuò)
所以,帶有iRAG的圖像大模型就從藝術(shù)家變成了人類美工,結(jié)合現(xiàn)實(shí)世界的知識(shí),消除了大模型的幻覺(jué),這也是AI應(yīng)用爆發(fā)的基礎(chǔ)。
03. iRAG可能是新的文生圖范式
雖然AI繪畫領(lǐng)域以往流量最大、噱頭最多的那些超現(xiàn)實(shí)的效果圖,人們往往對(duì)特效流的東西著迷,但這部分也容易曇花一現(xiàn),無(wú)法體現(xiàn)AI的真正價(jià)值,準(zhǔn)確和可控才是文生圖領(lǐng)域一直以來(lái)最大的難題。
對(duì)于這個(gè)難題,百度目前是提出了自己的解決方案:根據(jù)文本RAG的原理,我猜測(cè)百度的iRAG可能是,利用百度搜索的億級(jí)圖片資源,在語(yǔ)義理解和視覺(jué)表現(xiàn)的轉(zhuǎn)換上下功夫,把用戶的文本需求和圖像先進(jìn)行對(duì)齊,避免了張冠李戴,然后再根據(jù)prompt中的其他要求對(duì)已檢索到的圖像進(jìn)行重繪和組合,這樣就能實(shí)現(xiàn)精準(zhǔn)的要求。
有朋友說(shuō),iRAG的原理看起來(lái)是摳圖然后拼接,這點(diǎn)我不是很贊同,比如:馬斯克在房間吃蛋糕,如果只是簡(jiǎn)單的摳圖,那當(dāng)前的要求在互聯(lián)網(wǎng)圖像上并沒(méi)有對(duì)應(yīng)的資源怎么辦呢?所以百度肯定還是做了很多工程化的處理,我能看見(jiàn)至少圖像重繪的環(huán)節(jié)是一定存在的,并非簡(jiǎn)單摳圖。當(dāng)然這部分的工程應(yīng)該是iRAG的重中之重,這里的細(xì)節(jié)百度并未公布,所以我才說(shuō)很可能百度會(huì)引領(lǐng)新的文生圖范式。
最后,雖然百度這次的iRAG是一次全新的嘗試,但是百度自己的AI繪圖的質(zhì)量確實(shí)和行業(yè)領(lǐng)先水平存在差距,這點(diǎn)我們得承認(rèn)。不過(guò)要是未來(lái)Midjourney、Flux這種行業(yè)Top的AI繪圖產(chǎn)品在百度的啟發(fā)下也加入了iRAG,且能更廣泛、準(zhǔn)確滿足人類的繪圖需求,那我覺(jué)得這才是百度對(duì)行業(yè)的最大貢獻(xiàn)。
至少這次看起來(lái)比以往的百度其他行業(yè)第一有價(jià)值太多了!
作者:小布Bruce,公眾號(hào):AI思
本文由 @小布Bruce 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!