在线播放免费人成视频在线观看,激情久久综合激情久久GiF,欧美亚洲色综久久精品国产

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

李彥宏宣稱無幻覺，文心一言親測卻「打臉」？

新識研究所

2024-11-14

1 評論 391 瀏覽 0 收藏

11 分鐘

百度創(chuàng)始人李彥宏在百度世界2024大會上宣稱，大模型技術已經“基本消除了幻覺”，并介紹了其最新研發(fā)的檢索增強的文生圖技術（iRAG）。然而，新識研究所對文心一言的實際測試結果卻顯示，李彥宏所宣稱的“無幻覺”效果似乎并不穩(wěn)定，甚至在某些情況下與實際情況相去甚遠。

11月12日，在百度世界2024大會上，李彥宏在主題為《應用來了》的演講中，公開對外表達了“過去24個月，AI行業(yè)的最大變化是什么？是大模型基本消除了幻覺”的看法，并且發(fā)布了檢索增強的文生圖技術（iRAG），稱其可“用于解決大模型在圖片生成上的幻覺問題，極大提升實用性”。

然而在體驗中，新識研究所卻發(fā)現(xiàn)文心一言在文字與文生圖上消除/解決了幻覺，可能只是李彥宏的“幻覺”。

一、李彥宏說大模型消除幻覺，文心一言復現(xiàn)卻漏洞百出？

作為在發(fā)布會上展示的技術，除了當場演示不翻車之外，最起碼要做到讓用戶可以復現(xiàn)。但李彥宏這次的現(xiàn)場演示，卻實在讓人懷疑他用的是不是提前預設好的東西。

在大會當場，李彥宏隆重推出了檢索增強的文生圖技術——iRAG。據(jù)介紹，該技術將百度搜索的億級圖片資源與基礎模型能力相結合，能生成極為逼真的圖片。李彥宏強調，iRAG技術效果遠超原生文生圖系統(tǒng)，成功消除了機器味，并顯著提升了AI生成圖片的實用性。

那么是怎么個消除了機器味、證明生成的圖片是真實的呢？李彥宏拿出了天壇作為案例。

首先，李彥宏使用某開源模型生成了一張北京天壇的圖片，然后告訴大家，這張?zhí)靿瘓D片是錯誤的，因為天壇只有三層而該開源模型生成的圖片中天壇有四層，并告訴大家，這就是圖像等多模態(tài)模型幻覺的最真實情況。

而在指出這個開源模型的錯誤后，李彥宏也展示了文心一言利用iRAG技術生成的愛因斯坦在天壇的圖片，以展現(xiàn)百度iRAG技術消除多模態(tài)模型幻覺的實力。

圖源：小熊財經

這一切看似很流暢，使用了iRAG技術生成的圖片也的確不再“臆想”，但在我們復現(xiàn)該圖片的時候，卻出現(xiàn)了問題。

在同樣的要求之下，文心大模型生成的“天壇”卻不像李彥宏當場展示的一般，而是給出了有四層的“天壇”圖片，這不剛好也算是犯了李彥宏指出同行們的錯誤嗎？

圖源：文心一言生成

在層數(shù)之外，這張生成的“天壇”照片在下面欄桿的數(shù)量上也與真實的天壇對不上號，真實的天壇共有三層欄桿，而生成的圖片則有四層甚至五層欄桿出現(xiàn)。

圖源：文心一言生成

或許有人覺得我這樣的要求有點“吹毛求疵”，但在五次同樣的要求之下，文心一言有三次給出了“打臉”李彥宏的輸出結果，實在令人有些汗顏。

而在另外一張現(xiàn)場展示的“大眾攬巡汽車飛躍長城”圖片上，文心一言也給出了同展示相去甚遠的答案。

圖源：文心一言生成

左上圖為真實的大眾攬巡，左下為大會展示的大眾攬巡，而右圖則為再次生成的大眾攬巡，李彥宏展示的圖片與真實的攬巡的確相差不遠，但為何再次生成的圖片，連大眾的logo都被“幻覺”掉了呢？

在圖片之外，李彥宏表示文字層面的RAG已經做得很好，基本讓大模型消除了幻覺，但作為日常深度使用各家大模型的用戶來說，起碼在豆包、Kimi、文心一言這些大眾使用頻率最高的大模型應用上，是遠遠達不到李彥宏所說的程度的。

（事實上多倫多不是加拿大的首都）

而從技術上來說，RAG（檢索增強生成）本質上是一種基于信息檢索方法緩解LLM幻覺的技術，就是無法徹底杜絕模型的幻覺問題，這似乎就是Transformer架構本身的問題，例如在處理代碼編寫和數(shù)學等需要推理的任務時，RAG的表現(xiàn)就不那么理想了，而如此武斷地給出RAG基本讓大模型消除了幻覺的論斷，真的沒有問題嗎？

二、李彥宏，才是被“忽悠瘸”的那個？

如果說像這樣的事件是偶然的話那還可以理解，但從AI時代開始李彥宏與百度的多次發(fā)聲與動作來看，也不能排除李彥宏被下面做產品、做業(yè)務甚至所宣傳的人“忽悠”出幻覺的可能。

作為最先發(fā)布大模型的企業(yè)，百度的文心一言在去年年初可謂是風光無兩，就差把中國大模型之光的title安在腦袋上了。但一年半之后的現(xiàn)在，占盡先發(fā)優(yōu)勢的文小言的MAU只有豆包的四分之一，同文心一言年齡相仿的月之暗面的產品Kimi也快要趕上。

數(shù)據(jù)來源：公眾號@AI產品榜

而要追究個中原因，雖然的確脫不開近幾個月豆包有抖音“獨家宣傳權”、Kimi大肆燒錢的因素，但歸根結底，還是由于百度在大模型上的進展并沒有保持住領先優(yōu)勢。

在今年4月Create 2024百度AI開發(fā)者大會上，百度帶來了包括智能體開發(fā)工具AgentBuilder、AI原生應用開發(fā)工具AppBuilder、各種尺寸的模型定制工具ModelBuilder在內的三個AI開發(fā)工具，其中的智能體開發(fā)工具AgentBuilder似乎有很大的超越性，也被百度寄予了厚望。

但是，在創(chuàng)建智能體的能力上，百度的超越性并沒有宣稱的那么大。

以豆包為例，發(fā)現(xiàn)智能體、創(chuàng)建AI智能體也早已對C端用戶放開，并在真實的使用中并不輸給百度AgentBuilder開發(fā)的智能體。

圖源：豆包

李彥宏對于大模型技術和趨勢的一些發(fā)言和判斷，也經常會讓人覺得與現(xiàn)實發(fā)展并不相符。

同樣在今年4月Create 2024百度AI開發(fā)者大會上，李彥宏曾表示：“開源模型會越來越落后”。他給出的原因是，大家以前用開源覺得便宜，其實在大模型場景下，開源是最貴的，所以開源模型會越來越落后。

開源模型成本高就一定會落后？顯然并不是直接的因果關系。更何況在技術領域，幾乎每一個開發(fā)者都信奉開源的力量，認為開源驅動了絕大多數(shù)技術創(chuàng)新，那為什么到了李彥宏這里就出現(xiàn)了另一種答案呢？

而再往前，早在去年百度發(fā)布文心一言時，李彥宏就稱“百度文心一言和OpenAI差距可能在兩個月左右”，但王小川直言“這可能是平行宇宙里的李彥宏說的，不是我們這個世界里的”。至于彼時百度文心一言和ChatGPT的差距究竟有多大，當前文心一言的使用體驗有沒有追上GPT-4o，其實明眼人都能看得出來。

再加上一直以來重發(fā)布、輕落地，重宣傳、輕體驗的大模型應用功能迭代，很難讓人不懷疑，以技術出身的Robin，是真的跟隨百度進入了AI時代，還是在潛移默化之間被筑起的信息繭房慢慢同化，成為了那些產品開發(fā)人員、業(yè)務人員乃至公關人員的“發(fā)聲筒”了？

作者：楊啟隆
編輯：丁力

本文由人人都是產品經理作者【新識研究所】，微信公眾號：【新識研究所】，原創(chuàng)/授權發(fā)布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

新識研究所

咸寧日報旗下，關注互聯(lián)網(wǎng)、科技與新產業(yè)

104篇作品 315759總閱讀量

情緒板如何有效應用于「視覺風格定義」？

04-184071 瀏覽

開掛 | 如果你可以復制粘貼別人的能力

08-083746 瀏覽

大齡互聯(lián)網(wǎng)人去哪了？哪都可以去

02-2417631 瀏覽

寶寶輔食TOP品牌秋田滿滿，私域用戶超百萬，如何做好高轉化私域？

12-272061 瀏覽

罵得越兇，優(yōu)惠越狠！

03-024527 瀏覽

評論

陳祉含

李彥宏在百度世界2024大會上提出，大模型技術已經“基本消除了幻覺”，并通過檢索增強的文生圖技術（iRAG）展示了其在圖片生成上的進步。然而，實際測試顯示，文心一言在消除幻覺方面似乎并不穩(wěn)定，有時甚至與宣稱的效果相去甚遠。這種現(xiàn)象引發(fā)了外界對百度大模型技術實際應用效果的質疑，也表明在實際應用中，技術的宣稱與實際效果之間可能存在差距。

16小時前來自遼寧回復