精品成人乱色一区二区,欧美三级韩国三级日本三斤

中文字幕无码av不卡一区,亚洲综合AV永久无码精品一区二区,黑人巨大白妞出浆,黄色高清无码免费看,久久久久免费精品国产,久久无码人妻丰满熟妇区毛片,欧美日韩国产综合草草,久久福利网站,亚洲一区二区三区中文字幕在线,av国内精品久久久久影院

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

“越長”就越強？為何通義千問卷不動Kimi

AI新智能

2024-04-29

0 評論 1701 瀏覽 1 收藏

10 分鐘

可以說在Kimi的刺激下，國內的大模型也開始在長文本能力上下功夫了，那么，國產大模型的長文本能力究竟如何？不妨來看看本文的測評結果。

最近，受到Kimi大火的刺激，國內大模型們又開始了新一輪“我有多長”的比賽了。

在Kimi 目前200萬文本長度打底的情況下，其他各家沒個四五百萬打底，都不好意思見人了。

比如360那個“智腦”，號稱能處理500萬字長文本，而百度稍微低調些，打算下個月開放200萬-400萬的長文本能力。

最狂的是通義千問，直接升級到了1000萬文本長度，成了全球文檔處理容量第一的AI。

但是，“越長”就真的“越強”嗎？

在長文本方面，想成為真正的“大家伙”，可不僅僅只是把所有知識都灌進肚子里就行了。光是囫圇吞不算啥，得能穿針引線，理解和應用其中的內容、知識，才能幫用戶解決真正的問題。

所以，今天我們不妨先拿通義千問這個“出頭鳥”來開開刀，用幾個最為常見的長文本任務，好好拿捏一下這上千萬的文本能力，究竟有多少含金量。

一、三大考驗

1. 新聞摘要

今天咱們要干的第一個長文本活兒，就是最常見的新聞摘要歸納。

因為那些媒體搞的大新聞啊、深度調查啊，為了把事情說透徹，堆砌了一大堆事實、數據、例子，文章就賊拉長。

現在呢，咱們得把這些長文章濃縮一下，簡單直白地說說重點。

在這里，我們選擇的文章，是36氪的文章《卷進前1%，誰能拿下新藥出海下一個百億美元交易？》

首先來看看通義千問的表現。

從這個總結的結果來看，通義千問基本覆蓋了文章的主要信息點，并簡要地對每個要點進行了摘要，行文還算流暢。

但是，仔細看下來，這樣的總結長度較長，缺乏清晰的層次結構，用戶需要投入更多時間和精力去梳理歸納要點。

此外，其在總結時，很多地方是直接摘錄了原文的風格，沒有對內容進行高度壓縮概括，效率相對較低。

接下來再看看kimi的表現。

相較之下，Kimi的總結結構層次分明，將要點分為多個方面進行陳述，使得用戶可以快速掌握文章的框架和重點內容。

同時，從覆蓋面來看，Kimi總結的要點一共有9個，涉及了出海形式、創新要求、BD對比IPO、長期發展等核心內容，反映了對文章信息的更全面梳理。

而通義千問的總結雖然內容也算完整，但遺漏了一些重點，比如沒有涉及創新和專利、國際化能力等等等。

2. 研報分析

如果說，對長篇新聞的總結，體現的是大模型在長文本方面的主旨概括能力，那么接下來的研報分析，考驗的則是在長文本下，大模型推理能力的表現。

在這里，我們上傳了一份長達60頁的企業研報，來分別測試通義千問和Kimi的表現。

這份研報這份研報主要包括了一家名為元隆雅圖的企業的業務戰略、財務表現、以及市場前景。

在測試中，我們要求通義千問對該企業在AI時代可能具有的潛在優勢進行分析。

從結果來看，雖然其生成了一段“看似”詳細和具體的答案，但如果仔細觀察，就會發現這樣的回答，在很多要點上，都是比較重復的。

例如“IP資源智能化運營” 與“IP資產數字化轉型”，以及“新媒體營銷智能化”與“一體化營銷服務升級”，這些實際上都可以合并成一個點。

那相較之下，Kimi的表現怎樣呢？

可以看到，Kimi所分析出的要點，明顯比通義千問范圍更廣，維度更多，并且每個點都直擊主題。這點在進行長文本分析時，就顯得尤為重要。

對短文本來說，集中精力、深入挖掘一兩個重點就可以搞定。但長文本就不一樣了，首先,長文本內容豐富、層次繁多，單一視角顯然是捕捉不了全貌的。

再者，從概率上說，切入的角度越多，區別度越大，碰撞出新思路和想法的可能性也就越大。這也很符合某種智能的“涌現”規律。

3. 小說閱讀

最后，咱們再來個有點挑戰的。

這不像之前某些簡單的測試，光讓模型復述下小說情節就完事了。還得在通讀全文的基礎上，按咱說的特殊文風，把情節重新講出來。這考驗的就是一個指令遵循能力。

這里，我們選擇的是科幻小說《沙丘》。

我們的要求是：《史記》的風格，概述《沙丘》的主要情節。

雖然通義千問在剛開始時，勉強保持了相應的文風，但從第三段開始，整個文風又變成了現代文，沒能一以貫之地保持。

可以看出，在這一回合，Kimi幾乎完勝，不僅情節敘述得更為完整、詳細，而且幾乎從始至終地保持了接近《史記》的敘述風格。

這顯示了Kimi在閱讀長文本時，強大的信息提取能力和指令遵循能力。

二、跟風與內卷，救不了國產大模型

可以看出，在長文本方面，Kimi無論是總結能力、分析能力，還是理解執行指令的能力，目前都把通義千問給壓下去了。

以通義千問為代表的這類國產大模型，一上來就號稱數百萬，乃至上千萬的文本長度，結果在實測中搞出了“長文本室溫超導”的感覺，這說明了，長文本這事兒，還真不是“越長越強?！?/strong>

之前，對于文本窗口的長度，月之暗面的CEO楊植麟就表示：“不能只提升窗口，不能只看數字，今天是幾百萬還是多少億的窗口沒有意義。你要看它在這個窗口下能實現的推理能力、the faithfulness的能力（對原始信息的忠實度）、the instruction following的能力（遵循指令的能力）?！?/p>

換言之，只有在這些核心能力方面展現出了真本事，你的長文本能力才真算數。

倘若不好好修煉“內功”，對“片段級遞歸”、“相對位置編碼”等一系列重要的模型機制不夠諳熟，只是打激素式地增加文本長度，最終的結果，除了跟風式地蹭蹭熱度，徒增些內卷的負擔外，對中國大模型的發展實無裨益。

作者：V

來源公眾號：AI新智能（ID：alpAIworks），一個致力于探索人工智能對商業世界和社會影響的平臺。

本文由人人都是產品經理合作媒體 @AI新智能授權發布，未經許可，禁止轉載。

題圖來自 Unsplash，基于 CC0 協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

Kimi 大模型通義千問長文本

AI新智能

一個致力于探索人工智能對商業世界和社會影響的平臺。

32篇作品 72825總閱讀量

為你推薦

大模型，教培機構要過窄門

09-155493 瀏覽

解析設計目標、業務目標與用戶目標的關系

05-225467 瀏覽

Axure中的密碼強度校驗

05-064073 瀏覽

Keep是一家“互聯網平臺公司”嗎？我不這么認為

07-133416 瀏覽

ToB業務的核心，是幫助你的客戶完成他的經營指標

03-134861 瀏覽

評論

評論請登錄

目前還沒評論，等你發揮！

為你推薦

一代人有一代人的“雪王”

11-022261 瀏覽

不想當人的年輕人們，把猴子“嗎嘍”捧上了神壇

12-112026 瀏覽

Mac 設置的迭代，讓我學到了什么

11-203315 瀏覽

快訊
查看更多

熱門文章

從零搭建增長框架：企業增長之路-上篇

12-13

現階段的大模型，發展在放緩，還是提速？

12-07

用AI寫微信群發文案，再也不用擔心被拉黑了，回復率噌噌上漲

12-25

透過現象看本質：魚骨圖分析法

12-11

前幾天豬廠還在控訴Q音抄襲，結果自己像素級復刻了個小紅書

12-04

老板走進直播間2.0，品牌第一，帶貨第二

12-04

文章導航

一、三大考驗

二、跟風與內卷，救不了國產大模型

關于
人人都是產品經理（woshipm.com）是以產品經理、運營為核心的學習、交流、分享平臺，集媒體、培訓、社群為一體，全方位服務產品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產品經理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業有較高的影響力和知名度。平臺聚集了眾多BAT美團京東滴滴360小米網易等知名互聯網公司產品總監和運營總監，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產品經理導航

起點課堂

豬八戒網

人才熱線

伙伴云表格

網易易盾

個推

友盟+

糧倉

創業邦

每日報告

鳥哥筆記

慕課網

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產品經理 - 粵ICP備14037330號-粵公網安備 44030502001309號
 廣播電視節目制作經營許可證（粵）字第03109號增值電信業務經營許可證粵B2-20190788 版權所有 ? 深圳聚力創想信息科技有限公司

“越長”就越強？為何通義千問卷不動Kimi

一、三大考驗