我們內測了文心一言,結果令人意想不到

3 評論 4988 瀏覽 2 收藏 12 分鐘

3月16日下午,百度新一代大語言模型文心一言發布了。根據發布會上的展示,文心一言具備五種能力,分別是文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成,本文作者在進行測試后,對這五種能力進行了分析,一起來看一下吧。

文心一言的初體驗,確實還沒ready。

硬著頭皮也好,萬眾期待也罷,北京時間3月16日下午,百度新一代大語言模型文心一言發布了。

怎么說呢,雖然一開始就知道可能會輸給GPT-4(李廠長自己說:這個門檻有點高),但還是盼著文心一言好,盼著百度好,盼著中國首個生成式AI產品好。

但伴隨著發布會的,是百度港股市值的大跳水,雖然最后回調了一波,但二級市場對中國版“ChatGPT”似乎信心不足。

我們內測了文心一言,結果令人意想不到

發布會期間百度股價實時數據

即使吸取了谷歌發布Bard時的前車之鑒,用提前準備好的錄制視頻展示,但依然沒能阻止股價受挫。反而李廠長的皮帶鏈接和容顏青春永駐,成了彈幕留言關注的焦點。

據百度透露,文心一言新聞發布會后三小時,企業版API調用服務測試的企業用戶達6.5萬,與百度智能云基于文心一言展開合作咨詢達到5590條。

01 測試開始,有驚有喜

根據發布會上的展示,文心一言具備五種能力,包括了文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。

硅兔君拿到了內測邀請碼后,第一時間開始了測試。

1. 文學創作

發布會緊跟潮流,用最近熱度上的《三體》,對文心一言的文學創作進行展示。提出的6個問題,文心一言都可以從容應答。

硅兔君用《哈利波特》再考了考他(畢竟都是史詩級巨作)。

對于《哈利波特》的創作背景和作者簡介,文心一言剛開始給了一個“省事”的答案。

我們內測了文心一言,結果令人意想不到

但我并不滿意,又問了一遍,這個版本就明顯學術了很多。

我們內測了文心一言,結果令人意想不到

緊接著我問了發布會上同樣的問題,讓文心一言為續寫《哈利波特》提供思路,答得還可以。

我們內測了文心一言,結果令人意想不到

硅兔君又問了個比較八卦的感情線問題:赫敏和哈利波特之間,有愛情嗎?

文心一言給出的答案建議各大明星經紀公司參考一下,以后回應戀情別只會發律師函。

我們內測了文心一言,結果令人意想不到

2. 商業文案創作

針對商業文案創作這塊,硅兔君就拿自己做個測試,提問:

如果要新建一個關于硅谷科技創投新聞的自媒體賬號,融入“兔”這個字,可以給賬號起個什么名字?

我們內測了文心一言,結果令人意想不到

文心一言給出的答案其實挺贊,考慮到硅谷的屬性,甚至也有英文的名字。

VentureBuddies這個名字你別說,你還真別說~

在我給這個名字予以肯定后,讓文心一言幫我寫個簡介,畫風直接變成了英文,不過直接給我安上了“最近在居家辦公”的設定,不知為何。

我們內測了文心一言,結果令人意想不到

說實話不咋地,亂七八糟的。

3. 邏輯數理

邏輯數理推算是生成式大模型的一道坎兒,不僅考數理,更考邏輯。

發布會上用了ChatGPT剛上線時翻車過的的雞兔同籠,文心一言能發現問題中的錯誤并在糾正后正確回答出來。

可當硅兔君嘗試問了幾個小學生邏輯數學題,文心一言翻車了!

張老師15年前15歲,15年后多少歲?

我們內測了文心一言,結果令人意想不到

文心一言答錯了,怕描述不夠清楚又問一遍,依然令人遺憾……

(知道答案的朋友可以評論區見,看看多少人答對)

我們內測了文心一言,結果令人意想不到

接著問了個更繞的:

一個西瓜進價50元,賣了70元,老板收了100元假幣,請問老板一共損失多少錢?

我們內測了文心一言,結果令人意想不到

這個問題同樣問了ChatGPT,它一頓邏輯推理瘋狂輸出之后,給出了一個不同答案。

我們內測了文心一言,結果令人意想不到

事情變得很有意思了,你們說誰對?

4. 中文理解

在中文理解上,硅兔君用了常被錯誤理解的成語來提問,結果ChatGPT確實錯誤地學習了現代用法。

“差強人意”是什么意思?

正確答案:

我們內測了文心一言,結果令人意想不到

錯誤答案:

我們內測了文心一言,結果令人意想不到

一題見分曉,這一局文心一言完勝了。

5. 多模態生成

最后,也是最令人期待的多模態生成。硅兔君按照發布會的語言范本試了兩次,都沒有給出滿意的答案,不得不說和GPT-4的差距不是一點半點。

我們內測了文心一言,結果令人意想不到

生成視頻方面也沒有實現,并且給出了“無法生成視頻”的回復(難怪發布會上用的錄像,不然大型翻車現場)。

我們內測了文心一言,結果令人意想不到

還有一個被忽略的點就是編程能力,在發布會上并沒有展現,也是ChatGPT的優勢之一。硅兔君讓文心一言用C語言編一個小游戲,這是它給出的回答:

我們內測了文心一言,結果令人意想不到

02 文心一言 vs ChatGPT

作為一個人工智能語言模型,ChatGPT也存在一些缺點和局限性。以下是我對ChatGPT的缺點評價:

1. 知識庫的深度和廣度仍需要進一步提高:雖然ChatGPT可以回答各種領域的問題,但它的知識庫還不夠完備,有些問題可能無法找到合適的回答。

2. 生成式對話的質量還有待提高:盡管ChatGPT可以生成自然流暢的對話,但它的生成式對話還不如人類專業演員,有時可能會出現口誤或重復等問題。

3. 某些情況下可能會出現錯誤或不準確的回答:由于訓練數據的限制,ChatGPT在某些情況下可能無法正確理解用戶的意圖,或者回答內容可能不夠準確或恰當。

4. 依賴于預先訓練的數據集:目前的ChatGPT主要是基于文本進行對話生成的,如果未來想要擴展功能或使用場景,可能需要更多地依賴于預先訓練的數據集,這會增加開發難度和維護成本。

5. 中文表達能力有待改進:作為一個英文名稱為GPT的機器學習模型,其中文名稱“小微”似乎并沒有體現出與真實世界中的Micronesia相關的含義和特點,這可能會影響其普及程度和應用范圍。

總之,盡管ChatGPT在許多方面都表現出色,但它也存在一些缺點和局限性。

以上是文心一言對ChatGPT的評價,把人家的缺點安排得明明白白。

麥克風交給ChatGPT,很遺憾,它好像還不知道文心一言的到來……

我們內測了文心一言,結果令人意想不到

總的來講,百度這波發布,正如李彥宏所說:“因為有市場需求,百度各個產品線,大家都在等著用這樣的技術?!?/p>

(都在催,不得不趕緊上線)

也如李彥宏所說:“懷胎十月,一朝分娩?!?/p>

(我們還只是個孩子)

不過全世界都知道前一天GPT-4的問世,在這個節骨眼上頂著壓力發布產品的勇氣還是值得肯定的。

硅兔君認為我們需要做的,是再給一些耐心。就如開頭說的那樣——我們都盼著它好。

作者:蔓蔓周

來源公眾號:硅兔賽跑(ID:sv_race),10萬創投人都關注的創新媒體,坐標硅谷

本文由人人都是產品經理合作媒體 @硅兔賽跑 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 張老師15年前15歲,15年后多少歲? 這個問題本身就有歧義,參照點存在歧義。ai無法理解就只能基于歷史經驗來聊,目前chat有可能回答對,給出兩種不同的答案來。

    歷史經驗可以基于,明天是星期幾那個題。

    來自北京 回復
  2. 小邊有必要去了解一下“差強人意”的意思再來當評判

    來自江蘇 回復
    1. 文心直接引用的百科的原文。但是兩個ai表達的意思都貼近。所以小編這個評判表述不太對。

      來自北京 回復