長文本能力哪家強?四款AI大模型的橫向測試

0 評論 3695 瀏覽 2 收藏 24 分鐘

隨著國產AI大模型在長文本處理能力上的突破,Kimi、百度、阿里等科技巨頭紛紛加入競爭,開啟了AI長文本應用的新時代。本文將深入探討這些AI大模型在長文本處理上的表現,以及它們如何改變我們的工作和生活方式,為讀者揭示AI技術的最新進展和應用前景。

國產AI大模型內卷長文本時代,Kimi憑借先發優勢率先“出圈”,隨著百度、阿里等業界巨頭的下場,AI長文本應用賽道競爭開始變得白熱化。

01 內卷長文本,AI大模型的生產力工具屬性

“長文本作為公司‘登月’的第一步,是新的計算機內存,很本質,個性化并非通過微調實現,上下文定義了個性化過程。”——Moonshot AI月之暗面(Kimi母公司)創始人楊植麟的發言拉開了AI大模型“長文本”時代的序幕。  

從數千到數十萬token,大模型正在以“肉眼可見”的速度越變越“長”。對標月之暗面Kimi 智能助手的200萬字參數量,百度文心一言開放200萬~500萬字長文本處理功能,較此前最高2.8萬字的文檔處理能力提升上百倍;阿里通義千問宣布升級,開放最高1000萬字的長文本處理能力;360智腦正在內測500萬字,功能正式升級后將入駐360AI瀏覽器。

“卷”長文本儼然成為基礎通用大模型在新賽季的首個賽點,200萬字是什么概念呢?曹雪芹的《紅樓夢》全本大約有80萬字,而J.R.R.托爾金的《魔戒》三部曲(包括《魔戒現身》《雙塔奇兵》和《王者歸來》)的中文版總字數大約在150萬字左右,200萬字略多于《魔戒》三部曲的總字數。

如此長的內容對于具備“長文本”能力的大模型而言,僅數秒就可以閱讀完成并根據用戶需求生成相應的概括、總結。

Kimi點燃了AI大模型內卷長文本的    

主流科技企業之所以對大模型長文本應用如此感興趣,很大程度在于長文本賽道出色的變現能力。

長文本模型就具備更準確的文本理解和生成能力以及更強大的跨領域遷移能力,這對于打造垂直領域的行業專家是一個非常必要的能力支持,比如面向一些鴻篇巨制的醫療文獻、法律文件、財務報告等,長文本模型就具備更好的理解能力,對應完成跨領域學習和應用,從而打造出更專業的醫療助理、法律助理以及金融助理等應用,這意味著AI大模型能夠擁有更強的生產力工具屬性。

02 真假長文本,數值≠能力

當眾多大模型企業在極短時間內宣布旗下產品在“長文本”賽道取得突破后,一些質疑的聲音也出現了。質疑者認為后來者上線的并不是真正的長文本技術,而是RAG技術。RAG是一種被稱為檢索增強生成的技術,這種技術可以從文檔中搜索出相關內容,并把這些內容給到大模型做推理。  

月之暗面公司相關負責人也曾向媒體強調,與其他公司的產品不同,Kimi的長文本是無損壓縮技術的長上下文,RAG是有損壓縮技術。他舉例說,比如讀一本100萬字的書,Kimi的長文本技術會逐字逐句挨個讀,讀完100萬字再歸納總結做分析。RAG技術可能只讀了這本書每一頁的第一行,就去歸納總結做分析。在最終呈現的效果上,無損壓縮技術輸出的內容更真實、全面、有效。

當前,全球大型模型普遍采用Transformer解碼器作為核心架構。為了實現長上下文處理,研究者們對解碼器架構進行了多項改進,主要包括以下四個方面——

一是采用高效的注意力機制,降低計算成本,使得在訓練過程中能夠處理更長的序列,進而提高推理時的序列長度;二是實現長期記憶,通過設計顯式記憶機制,克服上下文記憶的局限;三是改進位置編碼,對現有編碼方法進行優化,以實現上下文的外推;四是對上下文進行處理,通過額外的預處理和后處理手段,確保每次調用大型語言模型時,輸入的文本始終符合最大長度要求。              

Transformer架構原理圖

而長上下文作為核心技術,各廠商選擇不公開。目前僅能通過其他公開渠道整理推測各家上下長文本技術,以月之暗面為例,其創始人楊植麟主要的學術論文Transformer-XL和XL-Net,均探討了長上下文的實現方法,且前者屬于長期記憶力的優化,后者屬于特殊目標函數的優化。百度的 ERNIE-DOC 則同時采用了長期記憶力和特殊目標函數的優化方法。

阿里Qwen-7B 則使用了優化的位置編碼算法 extended RoPE。所以我們推測,國內模型廠商之所以能夠在短期內實踐出長上下文方法,或是在原有積累的基礎上進行了算法迭代,采取多方法的混合優化,實現快速超車。    

事實上,經過一年的快速迭代后,業內早已清醒認識到文本長度是不是越長越好,效果才是AI大模型在長文本賽道立足的根本。

03?四款長文本AI大模型的角力

近一年時間的“內卷”,當下AI大模型在長文本領域表現究竟如何?

我們選擇了代表初代長文本大模型的Kimi、代表支持長文本并側重Chat對話的文心一言(4.0 Turbo)、從智能搜索領域切入長文本應用的秘塔AI以及專注長文本賽道的AI原生應用“橙篇”四款應用進行橫向比較,為大家展示當下AI大模型在長文本應用上的狀況。

在測試方法上,從“閱讀”和“寫作”兩個方面的長文應用進行橫向比較,進而全方位展示當下AI大模型的長文本能力。

04?閱讀理解:橙篇表現出眾

閱讀理解測試部分細分為線上和本地文件兩個環節,現在部分以“分析最近10年清華大學和北京大學通過高考在重慶的錄取人數,以圖表的形式展現”為指令,讓Kimi、文心一言、秘塔AI、橙篇閱讀網絡資料的同時生成圖表,這里不僅涉及AI大模型的閱讀理解能力,更會用圖表考校當下AI大模型部分多模態能力。    

從上往下,從左往右依次為橙篇、Kimi、文心一言、秘塔AI生成結果      

四款應用對于互聯網數據的收集整理差距非常明顯,Kimi表示沒有直接數據提供的情況下,僅整理了清華大學2023和2016兩年在重慶的錄取人數,北京大學更是只有2023年的錄取人數,“橙篇”則不僅根據互聯網數據按要求完成了兩所大學近10年在重慶招生人數對比,且2022年和2023年兩年還對物理和歷史錄取人數進行了區分。

秘塔AI則有些“直男”地僅對其能直接收集到數據的年份進行了整理,幾乎看不到其分析、推理的努力,這多少有些職場“給多少工資干多少事兒”的味道了。            

“橙篇”不僅可以生成數據清晰的表格,更為用戶提供了備注,通過仔細閱讀備注我們發現,“橙篇”在數據整理和分析時,明確提到2020年的數據來源的三所學校以及影響數據的各種因素,這樣一份答案的生成,意味著“橙篇”不僅對互聯網數據進行了整理,更按用戶要求進行分析、歸類,同時,“橙篇”還對數據進行了簡單的分析。

相較而言,同樣隸屬百度大生態的文心一言在數據的處理上反而表現出“理科生”的謹慎,其對數據的預估非常謹慎,不僅明確標注“估算,基于整體錄取情況”,更會引用“具體重慶錄取人數未詳,但北京總人數較多”這種地區對比來強化數據準確性,雖在表格數據生成上難以實現直接取用,但分析邏輯清晰,完全稱得上“沒有功勞也有苦勞”了。

而在本地文本閱讀方面,我們則選用一篇包含圖文及表格信息,名為“C919放量元年,大飛機乘風起航”的研報讓四款應用閱讀,并以“幫我總結這些文件”為指令,讓AI大模型給出總結內容。    

從左往右依次為Kimi、橙篇的生成結果   

對比發現,Kimi在文章概括中忽略了“C919技術亮點與材料應用”,同時,“產業鏈公司梳理”也是直接堆在一起表述,而“橙篇”則細分為“機體制造商”“材料供應商”和“機載系統供應商”三個類別,再針對每一個類別對企業進行歸類,“文心一言”也對“國產化率與替代進程”進行了詳細的列舉和總結,對于內容的概括較為詳實,遺憾的是目前秘塔AI暫不支持本地文件上傳,這極大削弱了其在閱讀理解方面的應用。  

單從總結內容看,“橙篇”與“文心一言”不相上下,但“橙篇”對內容概要進行梳理的同時,還在文末附帶了“整體總結”,其對長文本的整體閱讀理解能力上表現上更為出色,再憑借出色的線上閱讀理解能力,“橙篇”在“閱讀理解”測試環節表現明顯優于其他幾家。

05?長篇寫作,正在改變的內容生成模式

從內容采集、整理到創作,相較讓AI根據高考作文生成一篇闡述人生觀、價值觀的可讀性文章,不如直接以“幫我寫一篇長文,主題是:介紹北京排名前十的博物館”為指令,讓AI大模型生成可轉換成旅游冊子或導游指南的內容更具變現價值。

四款AI大模型接收到指令后,在內容生成上表現出截然不同的流程和方式,其中Kimi和文心一言直接為我們撰寫了一篇類似搜索結果合集的“文章”。Kimi和文心一言直接根據指令生成了長文,其內容包含了10個北京主要博物館的介紹,從理解到答題并沒有任何偏差,但面對同樣的指令,“橙篇”首先生成的是文章大綱,用戶可以直接在大綱中進行修改、調整。  

左為Kimi生成長文,右為文心一言生成長文   

橙篇在生成長文之前,會先生成可調整的文章大綱  

用戶確認“橙篇”生成的大綱無誤后即可點擊“生成長文”按鈕(如果特別不滿意,甚至可以直接點擊“換個大綱”)。根據大綱,“橙篇”完成了一篇13,158字的長文,詳細介紹10個北京博物館的同時,更給出了參觀和游覽建議,更在文末附有參考文獻。      

橙篇生成最終結果,無論字數還是文章結構都相當出色 

而秘塔AI在接到指令后,其直接羅列出“北京排名前十博物館”信息的同時,更提示用戶使用秘塔旗下“寫作貓AI”完成文章的生成。  

秘塔AI在結果界面會有明確的“寫作貓AI”提示 

選擇進入“寫作貓AI”界面后,即可看到類似在線輕辦公的界面,這里不僅會重新梳理秘塔AI的搜索內容,更會在底部給出“寫內容”和“寫大綱”兩項提示,點選“寫大綱”后,秘塔“寫作貓AI”也會根據剛才的搜索內容撰寫文章大綱。

寫作貓AI根據秘塔AI搜索內容,完成文章的創作

在寫作貓AI界面,我們不僅可以對字體界面等細節進行調整,更可以輸入指令讓寫作貓AI進行插入或重寫,將輕辦公應用同AI融為一體,只不過從默認生成的內容看,秘塔“寫作貓AI”針對本次指令完成的文章深度不如橙篇。    

不過從長文完成步驟和作品呈現上看,秘塔AI和橙篇已經不再是單純地在用對話的方式完成上下長文內容的生成了,從指令的分析、理解到長文提綱的生成以及內容的完整生成,這兩款AI大模型的長文生成流程已經近似真人,同時,無論是秘塔“寫作貓AI”還是橙篇本身自帶的Word編輯器,其都將AI大模型與輕辦公融為一體,這意味著AI長文本辦公已具備一站式辦公雛形。    

06?一站式辦公:橙篇與秘塔AI的對決

將AI大模型與輕辦公平臺整合在一起,橙篇與秘塔AI在長文本應用落地上讓我們看到了不少新意。這里需要注意的是目前秘塔AI是借助秘塔旗下“寫作貓AI”將輕辦公同秘塔AI長文本能力進行結合,雖然其在軟件內部實現了“打通”操作,但畢竟屬于兩個完全獨立的AI應用,在用戶使用一致性上還值得改進。在具體的AI+輕辦公設計思路上,橙篇與秘塔AI其實具有較大差異。

橙篇嵌入“智能助手”的同時,在功能上偏向明顯的工具屬性,其重點強調“全文校整”“格式整理”等應用,用戶除在中部主界面完成字體、段落調整外,拓展功能基本放到了界面右側。

橙篇在功能設計上更偏向文本功能

相對于“橙篇”在文本處理上的“專一”,秘塔“寫作貓AI”則更在意AI功能的整體融入,其中部的操作界面本身就分為“開始”“效率”“審閱”三個部分,用戶除在“開始”界面直接調整文章內容字體、段落外,還可以在“效率”界面讓AI幫助實現“全文改寫”“全文總結”“智能排版”等功能。同時,用戶點擊“寫作貓AI”內容界面的右上角“協作”按鈕,還可以邀請他人一同創作或直接公開發布創作內容,在輕文本辦公設計上已經有些向騰訊文檔、石墨文檔靠近了。

而作為相對對立的存在,秘塔或許本身想將“寫作貓AI”打造成AI寫作的獨立平臺,用戶點擊操作界面右上角“協作”旁邊的田字格圖標時,整個界面左側會根據“AI寫作”“校閱”“圖片”“詞典”“評論”五個菜單,展現不同的AI工具合集。    

秘塔“寫作貓AI”以平臺化的方式展現各AI工具        

這里我們重點嘗試了“寫作貓AI”的“校閱”欄目,畢竟WPS已經將“文檔校對”功能劃分到會員功能區,這類AI平臺能夠直接對長文字詞內容進行準確的校對,無疑具有相當的實用性。

“寫作貓AI”的“校閱”功能細分為“內容建議”“事實驗證”和“全文總結”三個部分,這同我們理解的“校閱”功能有些差異,其在傳統字詞校對的基礎上加入了“事實驗證”和“全文總結”,這兩個功能更偏對文章內容的審視。          

“寫作貓AI”的“校閱”功能具有一定創新性        

相比而言,橙篇在“校對”功能上就更接地氣一些。橙篇的“全文校正”功能呢直接分為“糾錯”“可讀性”和“全文建議”三個部分,“糾錯”主要針對字詞錯誤,而“可讀性”則是針對文章句子的優化,用戶可以選擇“忽略”或“采納”建議,左右邊欄的設計操作起來非常方便。

橙篇校對功能更符合日常辦公體驗     

“AI+輕辦公”并不算全新的概念,本身騰訊文檔、夸克智能文檔其實也在積極嵌入AI大模型,綜合提升用戶應用體驗,而橙篇、秘塔AI則從AI大模型的角度對輕辦公平臺進行融合,兩種路線暫時并不存在沖突。橙篇和秘塔更多時候是通過文本編輯完成生成式AI內容的閉環,相當于從互聯網內容閱讀理解到長文生成、編輯,AI大模型可以一站式滿足用戶需求。

無論是自媒體從業者、新聞工作者,又或是有文章撰寫需求的白領群體和學生群體,橙篇、秘塔AI這樣的產品無疑能有效提高學習和辦公效率。      

07寫在最后:AI細分應用賽道的崛起

Chat類大模型想要在C端大眾市場收獲用戶,無外乎兩條路可走:一是提效工具,二是娛樂工具。自Kimi推動AI大模型向長文本賽道“內卷”后,能夠體現生產力價值的AI大模型顯然更符合當下終端消費市場需求。          

從內容創作到法律、金融等專業領域,具備長文本能力的AI大模型能夠快速對信息進行提取、整理甚至分析,充當“助手”的角色,減輕用戶工作量的同時,也踐行AI工具價值的落地。

而即便是作為娛樂工具,長文本可以通過提供更多上下文信息和細節信息,來輔助模型判斷語義,進一步減少歧義,并且基于所提供事實基礎上的歸納、推理也更加準確。這意味著主打“情感陪伴”的Agent(智體)能夠具備長期“記憶”,從而為用戶帶來連貫的交互體驗,也推動整個AI應用的崛起。

本文由人人都是產品經理作者【汪仔1064】,微信公眾號:【電腦報】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!