不吹也不擂,看看國內各廠的chatbot都進化到哪了?|(1)數據統計能力測評和高考數學題能力測評
前段時間高考,作為這幾年大熱的大模型也被人拉出來評測了一番,從各個科目的表現來看并不是很理想——特別是在數學表現上。但是在打工人日常其實有不少數據統計、分析的工作,這時候的大模型,能否幫到我們?以及,表現怎么樣?
相信大家在日常工作生活中,都已經體驗過各類chatbot了,像chatGPT、chatGLM、文心一言、通義千問,還有近來上線的騰訊元寶等;那不知大家是否有一些使用心得和使用經驗或槽點呢?
我本人目前基本上,每天都會使用LLM來幫助我工作提效(但于我是否真的提效,還有待考證)~
我用的比較多的兩個場景是:
- 幫我“搜索內容+整理內容+按我要求的格式”輸出給我;
- 幫我“提煉一篇或多篇文章(pdf或網頁url)的要點”;
那除了上面這些場景,PM在日常工作中,還有一些【數據統計分析】的工作,比如查數據、統計數據,那這時候LLM,可否幫幫我們呢?
(雖然我們之前可能早已注意到,chatbot并不擅長數據分析,但隨著各類智能體框架和技術的演進,相信一些廠商已經能夠解決該問題)
話不多說,讓我們一起來看看吧…
一、國內各家chatbot【數據統計能力】測評過程記錄、測評結論
這里,本人選取了chatGLM網頁版(智譜清言)、文心一言3.5網頁版(百度)、通義千問2.5網頁版(阿里)、kimi網頁版(月之暗面)、騰訊元寶,進行“chatbot數據分析”能力測試。
注:測評過程內容較多,可跳過測評過程,先看測評結論。以下是測評內容和測評結果。
1、我是先用了word文檔,直接測試,統計“某一列值=xx,共有多少條數據”
——發現不行。word就是沒法很好的完成數據統計分析功能;
2、接著換成了excel文檔,內容和問題不變。
——發現好了一點。智譜AI完勝,可以理解問題,并自行判斷調用其內部的何種工具來完成問題,結果正確,還支持繪制圖表,并進行更深層次的統計分析。文心一言還不支持解析excel。騰訊元寶還在卡BUG死循環的路上。kimi回答不正確。
3、——為了不冤枉各個廠商,我翻了bchabot全部功能(應該沒遺漏),最后發現,我沒有冤枉文心一言、元寶、kimi~他們的數據統計分析就是不行~
4、關于2024高考數學題,星火、九章大模型、文心一言、智譜GLM4的表現如何?
2.1 實驗一:使用word文檔,測試簡單的【數據統計】功能
(1)實驗時間:2024年6月17日
(2)實驗人:南方蝶道
(3)實驗過程記錄:
使用文檔:境內深度合成服務算法備案清單(2024年6月) (1).docx
p.s. 共有492條數據,服務提供者=389條;服務技術支持者=103條;
測試輸入:
測試結果輸出:
(1)chatGLM-4.0網頁版-輸出結果:
(2)百度文心一言3.5網頁版-輸出結果:
回答報錯、不正確。
第一次系統默認調用【閱讀助手】插件,報錯(這個插件總是報錯,這是我遇到的第五六次了…)
第二次系統給的結果如下:
(3)阿里通義千問2.5網頁版-輸出結果:
回答不正確
(4)kimi網頁版-輸出結果:
回答不正確
(5)騰訊元寶網頁版-輸出結果:
回答不正確
實驗一結論:
可以看到,當使用word文檔,對chatbot進行數據統計提問時,各個廠商的chatbot均不能完成任務,哪怕是簡單的“統計某一列中值=XX 的行數等于多少” ,現階段的chatbot也不能完成。
okay,是輸入方式不對,我們改成 EXCEL文件作為輸入,進行測試。詳見下面的實驗二。
2.2 實驗二:使用excel文件,測試簡單的【數據統計】功能:統計某一列 [數值=xx] 的行數有多少
(1)實驗時間:2024年6月17日
(2)實驗人:南方蝶道
(3)實驗過程記錄:
使用文件:24年6月備案通過名單.xlsx
p.s. 共有492條數據,服務提供者=389條;服務技術支持者=103條;
測試輸入:
測試結果輸出:
(1)chatGLM-4.0網頁版
下面結果表明:chatGLM不僅數據分析問題可以計算正確,還可以繪制統計圖表~
再問它一個統計問題:“幫我統計 涉及“多模態”字樣的 ,且角色為 “服務技術支持者”的數據有多少條,并給出具體的數據行”
(2)百度文心一言3.5網頁版-輸出結果:
文心一言chatbot默認的對話窗口,不支持解析excel。即不支持上傳excel文件,僅支持pdf、word和圖片類型文件。
(3)阿里通義千問2.5網頁版-輸出結果:
計算不正確
(4)kimi網頁版-輸出結果:
算了2遍,都不對。
(5)騰訊元寶網頁版-輸出結果:
自己報錯,執行不下去中斷了問題。
再試一遍:還是同樣的報錯。顯然,這不是偶發BUG。
報錯問題詳見:https://yuanbao.tencent.com/bot/app/share/chat/177e6bdd9125a1df7fdeac80574fd415
實驗結論:
由實驗二各個廠家chatbot的實際測試結果,“數據統計功能“哪家強?——相信大家也一目了然。
1、智譜AI(GLM-4)不僅給出了正確的計算結果,還可以給出相關問題并繪制”數據分布圖表“;kimi給出了結論,但計算錯誤;騰訊還在報錯卡BUG執行不下去的路上;百度還不支持excel數據分析,任重而道遠~
綜上,智譜AI chatbot在【數據統計分析】的路上,進化的最快、能力最強!
在2024年6月17這個時間節點,在”Excel數據統計&分析“這一命題任務上,chatGLM完勝!這一點毋庸置疑~ 它能夠分析問題->自主判斷調用其系統內部的【代碼生成助手】→自動執行任務→給出結果&且結果正確。
emmm,但本著開放包容、不冤枉任何一家chatbot的原則,下面再深入看看,是不是各家chatbot有其它隱藏著的excel技能(如Excel數據分析智能體啥的),只是我沒有發現?
——嗯,下面再來深入看一看吧…
2.3 實驗三:騰訊元寶、百度文心一言、阿里通義千問、kimi chatbot【數據分析】功能深挖
(1)實驗時間:2024年6月17日
(2) 實驗人:南方蝶道
(3)實驗過程記錄:
(3.1)百度chatbot–【數據分析】功能深挖,到底有沒有?
之前在實驗二中,我們發現文心一言chatbot,壓根不支持在【對話框】中對excel類型的文件進行上傳和解析;
下面看一看其【插件商城】、【智能體中心】(百寶箱)里面是不是有相關的彩蛋?
(1)文心一言-【插件商城】截圖:
翻了一圈【文心一言-插件商城】,沒有看到【數據分析】相關的插件~
(2)文心一言-【百寶箱】截圖:
直接搜excel相關的智能體/指令,百寶箱搜索結果中給了4個,嗯,但是也沒有能干”excel數據統計分析“這件事的。
再試一試“代碼”、“sql”相關的:
至此,文心一言chatbot鑒定完畢,現階段(2024年6月)就是不支持【數據統計分析】,看來只能挪步至隔壁【千帆大模型平臺】了~~
后面翻一翻【千帆大模型】平臺上的智能體,是否有”數據統計分析“相關的。
(3.2)騰訊元寶–【數據分析】功能深挖
搜一搜元寶是否有 excel相關的智能體?——emmm,Nothing~(下圖是24年6月17日截圖)
再試一試 是否有“代碼生成”(參照智譜AI)相關的智能體?——emm,也沒有。(下圖是24年6月17日截圖)
(3.3)阿里通義千問–【數據分析】功能深挖
(1)通義千問-效率導航-工具箱:無“數據分析”相關;
2)通義千問-智能體:提供了excel相關的智能體,但是測評下來,智能體的功能單一、質量不高,無法完成任務(如不支持傳excel文件、有1000的token限制等);
(3.4)kimi–【數據分析】功能深挖
下面是kimi 的”kimi+“智能體列表全部的截圖(2024年6月17日),可以看到在這個節點,kimi智能體中心沒有【數據統計分析】相關的~
實驗三結論:
看來,我沒有冤枉各家chatbot,真的沒有更多的數據統計分析能力…
二、各種PR稿鼓吹大模型可以做高考數學題,真的能嗎?
結論是:現階段,還不能~ 但有機會,任重而道遠~~
這里給大家奉上一篇,我個人認為寫的不錯的文章(《當AI遇上高考數學題,4個大模型“考生”“成績單”出爐》,6月19日發表的,下稱文章1),文章中的一些核心觀點和測評過程中遇到的大模型問題,給大家分享一下(他山之石、可以攻玉):
該篇文章選擇了4個大模型,分別是【星火大模型(v3.5版本)】、【文心一言(3.5版)】、【智譜清言(GLM-4)】通用大模型,和 以數學能力見長的教育垂類模型:【九章大模型】。
測評數據:選取的是2024全國高考數學–新課標1卷–客觀題部分,進行測評。其中包括8道單選題、3道多選題、3道填空題。
此外,由于試題中存在圖形、大量數學符號,該篇文章,為防止以文本形式輸入題目產生偏差,統一選擇以圖片形式呈現題目并提供給大模型進行解答。
測評表現和測評結果:
四位“考生”此次作答正確率:從高到低依次為星火大模型(85.71%)、九章大模型(78.57%)、智譜清言(28.57%)、文心一言(7.14%)。
盡管做題結果正確,但各個模型做題的推理過程,均禁不起推敲;
——那么究竟差在哪了?
“第一,題目識別上存在比較大的困難,涉及一些數學符號、分式等會影響識別效果,還有一些圖形、表格識別存在問題,以及一些數學專業術語的表述識別也不夠精準。
第二,幾個大模型在邏輯推理能力上還存在不足。
第三是解題方法較為單一,大模型似乎只能按照固定的模板去答題,而不能依據題目的特征因地制宜地選擇最優方法?!?/p>
——以上觀點,均來自《文章1》
(1)文心一言(v3.5)–2024年-高考數學客觀題表現
– 該篇文章測評中可以發現:
①文心一言具備讀取圖片內容的能力,但無法識別僅帶有復雜分數的公式和圖形。
– 例如單選題第3題,明明成功讀出題目中的“⊥”符號為“垂直”,卻在后面的步驟中理解為“平行”(題面中未出現任何平行相關字眼或符號),經提示,文心一言發現理解錯誤,卻在再次解答時又出現理解偏差。
——這就是大模型普遍均存在的讓人頭疼的“幻覺之一”(上下文矛盾問題);
②文心一言解答數學題并不是用數理邏輯,而是試圖用文字論證的方式去猜測一個接近的結果。
– 從單選題第5題的答題情況不難看出;
③文心一言幾乎對每一題都進行了詳細的推理,但最終大部分題目都得出了錯誤的答案。
④ 文心一言:優秀的文科生,但理科真的差;
“文心一言在答數學題能力上雖然遜色,但通過一系列的追問、對話可以發現,這位“考生”對語義語境的把控能力非常優秀,很容易明白用戶在說什么,在用戶補充提醒的時候,它很快就可以知道根據新信息去解釋上面的題目?!薄恼?。
(2)智譜清言(GLM-4)–2024年-高考數學客觀題表現
①智譜清言也存在上下文矛盾的幻覺問題。
在第12題中,經過一番分析后,智譜清言告訴用戶無法計算出結果。
在第13題中,智譜清言重復地分析、發現問題、重新審視問題,又一遍一遍地發現行不通,進行了十輪以上的死循環(在我之前測試,我發現騰訊元寶也有這個問題…后面和大家分享),直到人工點擊暫停才停下。
②智譜清言的解答比較簡潔,一般會直接回應題目,有一定的邏輯性和條理性。
③但答案不是特別詳細,也沒有深入分析。
④有些題目的回答和標準答案的匹配度不高,有些題目雖然答對了,但會漏掉一些關鍵點。
(3)星火大模型、九章大模型——2024年-高考數學客觀題表現
①如果說文心一言是個“不錯的文科生”,那么【星火大模型】和【九章大模型】,就是典型的“理科生”,雖然非常擅長解題,但上下文語義語境的理解是它們的弱勢。
– 例如,當用戶對【星火大模型】提出:
Q:“上面這道題可以再詳細分析一下嗎”時,星火并不能理解指向的是什么,而是回答:
星火大模型回答:“很抱歉,由于我無法看到您提到的具體問題,所以無法為您提供更詳細的分析。請提供問題的詳細信息,以便我能夠更好地幫助您。”
–當用戶對【九章大模型】追問:
Q:“請你檢查一下這道題,D選項到底對不對”;
九章:“當然可以,請您提供題目的具體內容,包括選項D的表述,我會盡力幫助您檢查?!?/p>
——說明其比較擅長解題,但很難聯系上下文語境語義來與用戶互動對話。并不明白用戶問的是什么。
②九章大模型的部分解題過程也存在瑕疵。
在一道多選題中,九章大模型在推理中明明認為C選項錯誤,但最后又把C選為正確答案,“這個表述上下文之間沒啥邏輯關系,讓人摸不到頭腦。”上述數學專業人士指出。
② 星火和九章 對題目的處理上:
1)九章大模型在圖片題目識別上,會先在輸入文本框中識別讀取出題面,并以文本形式呈現,用戶可在框內確認題目的準確性。若發現識別錯誤,點擊即可出現數學符號的輔助輸入工具欄,進行編輯修改,防止題目讀取錯誤。
2)而星火大模型,沒有上面這個步驟。直接回答,所以不知道題目識別環節理解了多少。
三、寫在最后的一點思考
我的一些觀點:
1、PR稿吹得天花亂墜,但是實際落地,一堆工程問題需要解決;
——這是因為廠商需要“造夢”,以獲得資本的青睞;
——所以我們要建好心里預期,不要抱過高期待;
2、新技術的出現,于世界、于我們都是好事,我們要擁抱它,同時需要給予它一些耐心和包容性~
3、大模型之于教育場景(輔導服務,課后點評,輔助解題等)有很多想象空間,但同時也有很長的一段路要走…
寫在最后:
1、希望本文對各位小伙伴了解chatbot能力和市場,有所幫助~~
但是但是,借用本文內容的觀點和內容,請注明來源鏈接~~ 禁止直接抄襲~
2、除了本文的chatbot【數據統計】能力測評外,本人還系統進行了“AI搜索+寫作”、“圖片理解”、“長文檔解析和問答”、“Agent搭建”等各項能力測評,后續有時間同大家分享~
本文參考資料:
[1]當AI遇上高考數學題,4個大模型“考生”“成績單”出爐 — 新京報
本文由 @南方碟道 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!