“越長”就越強?為何通義千問卷不動Kimi
可以說在Kimi的刺激下,國內的大模型也開始在長文本能力上下功夫了,那么,國產大模型的長文本能力究竟如何?不妨來看看本文的測評結果。
最近,受到Kimi大火的刺激,國內大模型們又開始了新一輪“我有多長”的比賽了。
在Kimi 目前200萬文本長度打底的情況下,其他各家沒個四五百萬打底,都不好意思見人了。
比如360那個“智腦”,號稱能處理500萬字長文本,而百度稍微低調些,打算下個月開放200萬-400萬的長文本能力。
最狂的是通義千問,直接升級到了1000萬文本長度,成了全球文檔處理容量第一的AI。
但是,“越長”就真的“越強”嗎?
在長文本方面,想成為真正的“大家伙”,可不僅僅只是把所有知識都灌進肚子里就行了。光是囫圇吞不算啥,得能穿針引線,理解和應用其中的內容、知識,才能幫用戶解決真正的問題。
所以,今天我們不妨先拿通義千問這個“出頭鳥”來開開刀,用幾個最為常見的長文本任務,好好拿捏一下這上千萬的文本能力,究竟有多少含金量。
一、三大考驗
1. 新聞摘要
今天咱們要干的第一個長文本活兒,就是最常見的新聞摘要歸納。
因為那些媒體搞的大新聞啊、深度調查啊,為了把事情說透徹,堆砌了一大堆事實、數據、例子,文章就賊拉長。
現在呢,咱們得把這些長文章濃縮一下,簡單直白地說說重點。
在這里,我們選擇的文章,是36氪的文章《卷進前1%,誰能拿下新藥出海下一個百億美元交易?》
首先來看看通義千問的表現。
從這個總結的結果來看,通義千問基本覆蓋了文章的主要信息點,并簡要地對每個要點進行了摘要,行文還算流暢。
但是,仔細看下來,這樣的總結長度較長,缺乏清晰的層次結構,用戶需要投入更多時間和精力去梳理歸納要點。
此外,其在總結時,很多地方是直接摘錄了原文的風格,沒有對內容進行高度壓縮概括,效率相對較低。
接下來再看看kimi的表現。
相較之下,Kimi的總結結構層次分明,將要點分為多個方面進行陳述,使得用戶可以快速掌握文章的框架和重點內容。
同時,從覆蓋面來看,Kimi總結的要點一共有9個,涉及了出海形式、創新要求、BD對比IPO、長期發展等核心內容,反映了對文章信息的更全面梳理。
而通義千問的總結雖然內容也算完整,但遺漏了一些重點,比如沒有涉及創新和專利、國際化能力等等等。
2. 研報分析
如果說,對長篇新聞的總結,體現的是大模型在長文本方面的主旨概括能力,那么接下來的研報分析,考驗的則是在長文本下,大模型推理能力的表現。
在這里,我們上傳了一份長達60頁的企業研報,來分別測試通義千問和Kimi的表現。
這份研報這份研報主要包括了一家名為元隆雅圖的企業的業務戰略、財務表現、以及市場前景。
在測試中,我們要求通義千問對該企業在AI時代可能具有的潛在優勢進行分析。
從結果來看,雖然其生成了一段“看似”詳細和具體的答案,但如果仔細觀察,就會發現這樣的回答,在很多要點上,都是比較重復的。
例如“IP資源智能化運營” 與“IP資產數字化轉型”,以及“新媒體營銷智能化”與“一體化營銷服務升級”,這些實際上都可以合并成一個點。
那相較之下,Kimi的表現怎樣呢?
可以看到,Kimi所分析出的要點,明顯比通義千問范圍更廣,維度更多,并且每個點都直擊主題。這點在進行長文本分析時,就顯得尤為重要。
對短文本來說,集中精力、深入挖掘一兩個重點就可以搞定。但長文本就不一樣了,首先,長文本內容豐富、層次繁多,單一視角顯然是捕捉不了全貌的。
再者,從概率上說,切入的角度越多,區別度越大,碰撞出新思路和想法的可能性也就越大。這也很符合某種智能的“涌現”規律。
3. 小說閱讀
最后,咱們再來個有點挑戰的。
這不像之前某些簡單的測試,光讓模型復述下小說情節就完事了。還得在通讀全文的基礎上,按咱說的特殊文風,把情節重新講出來。這考驗的就是一個指令遵循能力。
這里,我們選擇的是科幻小說《沙丘》。
我們的要求是:《史記》的風格,概述《沙丘》的主要情節。
雖然通義千問在剛開始時,勉強保持了相應的文風,但從第三段開始,整個文風又變成了現代文,沒能一以貫之地保持。
可以看出,在這一回合,Kimi幾乎完勝,不僅情節敘述得更為完整、詳細,而且幾乎從始至終地保持了接近《史記》的敘述風格。
這顯示了Kimi在閱讀長文本時,強大的信息提取能力和指令遵循能力。
二、跟風與內卷,救不了國產大模型
可以看出,在長文本方面,Kimi無論是總結能力、分析能力,還是理解執行指令的能力,目前都把通義千問給壓下去了。
以通義千問為代表的這類國產大模型,一上來就號稱數百萬,乃至上千萬的文本長度,結果在實測中搞出了“長文本室溫超導”的感覺,這說明了,長文本這事兒,還真不是“越長越強?!?/strong>
之前,對于文本窗口的長度,月之暗面的CEO楊植麟就表示:“不能只提升窗口,不能只看數字,今天是幾百萬還是多少億的窗口沒有意義。你要看它在這個窗口下能實現的推理能力、the faithfulness的能力(對原始信息的忠實度)、the instruction following的能力(遵循指令的能力)?!?/p>
換言之,只有在這些核心能力方面展現出了真本事,你的長文本能力才真算數。
倘若不好好修煉“內功”,對“片段級遞歸”、“相對位置編碼”等一系列重要的模型機制不夠諳熟,只是打激素式地增加文本長度,最終的結果,除了跟風式地蹭蹭熱度,徒增些內卷的負擔外,對中國大模型的發展實無裨益。
作者:V
來源公眾號:AI新智能(ID:alpAIworks),一個致力于探索人工智能對商業世界和社會影響的平臺。
本文由人人都是產品經理合作媒體 @AI新智能 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!