久久天天躁夜夜躁狠狠,最新精品国自产拍福利,亚洲精品成人久久av

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

自媒體人必備：文心一言、Kimi等4款AI大模型測評對比及推薦

李子木說運營

2024-04-28

1 評論 39685 瀏覽 50 收藏

15 分鐘

現在，國內已經有海量大模型誕生，那么，哪款大模型的表現會更好？這篇文章里，作者站在自媒體人的角度，對四款大模型做了評估和對比，一起來看一下。

說到AI，很多人會想到ChatGPT，而我們現在也有許多好用的國產AI大模型。

在2023年的中國，8個月內誕生了238個大模型，阿里、華為、騰訊、京東、字節、360、科大訊飛等一眾大廠紛紛下場，還有復旦、清華等高校機構加速研究，以及智譜AI、月之暗面等黑馬出現。

這些海量AI大模型里，子木挑選了4款市面上反響比較好的、也是我常用的AI大模型進行評估對比，幫助你選擇適合自己的國產AI大模型。

本文評估的4個AI大模型

文心一言4.0、通義千問、kimiAI、天工AI。

一、大語言模型的5個評估維度

對于AI大模型的評估，目前還沒有權威、統一的評估維度，我根據文案創作的需求、使用習慣，建立了自己的AI大模型內容創作評估維度：

1. 語言質量與創意性

這是用AI創作中最關注的部分，體現AI寫出來的內容質量。

它包括：

文本流暢度，用來評估AI生成的文案是否自然流暢，語法正確，符合人類日常交流習慣，我會用主題文章、簡歷撰寫這兩個題目來進行測試評估；

個性化內容，用來評估AI是否可以根據我們輸入的個性化要求，比如語氣、風格等等來定制文案，滿足不同的創作需求，我會用不同人物介紹同一個事物的2個問題來進行測試評估。

2. 領域適應性

用來評估AI模型是否具備特定行業或領域的專業知識，能否生成相關性強、準確無誤的文案內容，我比較關注的是新媒體、教育培訓行業，所以我一般會用這兩個行業的代表性問題來進行測試評估，這一塊每個行業的問題不一樣，大家可以根據自己的行業來設計問題。如果有需要的話，也可以提問或聯系我交流。

3. 邏輯性

用來評估AI創作內容的邏輯性，我會用公務員考試常用的邏輯推理題，和故事的續寫這兩個問題來測試評估，邏輯推理題是看它的推理過程，結果是否正確，而故事的續寫，看情節是否合理、人物的行為是否符合邏輯。

4. 時效性

時效性決定了AI生成內容時是否能用到最新的案例或事件、我們在用AI尋找資訊時是否能給到最新的信息。我會用最新的熱點事件、1個月前、3個月前的3個不同問題，來評估測試AI的時效性。

5. 成本與易用性

AI作為一個輔助工具，是不是方便使用、使用成本如何，也是我們需要考慮的點。

二、4款國產大模型對比

1. 大模型簡介

文心一言4.0：是百度推出的知識增強大語言模型，可以輸出文本內容，也可以生成圖片。
通義千問：是阿里云發布的千億級參數大模型，可以分析文檔，提煉文檔的關鍵信息。
KimiAI：月之暗面開發的大模型，可以上傳PDF、word、ppt、圖片等多種格式的文檔，還可以分析網頁內容，比較有意思的是，還能直接訪問小紅書的鏈接，抓取內容進行總結。
天工AI：昆侖萬維開發的雙千億級大語言模型，它的語言能力也很不錯。

2. 文本流暢度對比

我把4個大模型寫的“一花獨放不是春”命題作文內容，給中學語文老師看了，滿分60分，可以打到40分以上的程度，整體表現都還不錯。

文心一言4.0的文筆流暢度更高，文彩也更好。對于主題的整體理解更加準確，沒有什么邏輯問題，可以算得上是一篇文采不錯的作文。

通義千問的流暢度也還不錯，但是行文手法不如文心一言老練，比較中規中矩，相對文心一言4.0弱一些。

kimiAI的語言流暢度跟通義千問類似，但對于主題的理解相對弱一些，文章的整體性相對最弱，有一些段落偏離了題目本身的意思。

天工AI的行文流暢、老練，只是有一兩個段落顯得有些生搬硬套，前后意思不一致，有意思的是，天工AI表現出了比較強的政治素養，寫出來的內容不像高考作文，而更像申論作文，做政務公文類的可以優先考慮天工AI。

打分：

文心一言4.0 ? ? ? ? ?
通義千問 ? ? ? ?
kimi AI ? ? ?
天工AI ? ? ?

3. 個性化內容對比

四個AI大模型都能夠區分不同的口吻，同時，也能夠區分不同的身份角色對于同一件事情所關注的不同的方面。

從8歲女孩的角度來介紹一輛新能源車，4個大模型都會把重點放在了車子是用電的、很神奇的描述上，也都用到了小孩子能理解的語言，用打比方的、形象化的描述來講這個車子。其中，kimi AI對于角色年齡的把握比其他三個大模型稍微弱一點。

而從男企業家的角度來介紹新能源車，4個大模型都選擇了將新能源車定義為這個企業家自己的產品，從更宏觀的角度開始介紹這輛車，都表達了對于“未來出行”的創新和積極探索，側重從技術的角度來介紹。

所以在個性化內容方面，4個大模型表現差不多，kimiAI要稍微弱一些。

打分：

文心一言4.0 ? ? ? ? ?
通義千問 ? ? ? ? ?
kimi AI ? ? ? ?
天工AI ? ? ? ? ?

4. 邏輯性對比

AI思考邏輯測試，內容是一道經典的公務員考試的行測問題。

4個AI都在很短的時間內給出正確答案，AI參加公務員考試，估計能秒殺99.9%的人。

在回答的內容中，文心一言給到的思路最詳盡、看起來條理也相對最清晰，而天工AI給到的思路最簡略，沒有描述太多的思考過程，我認為這是相對欠缺的。

AI續寫邏輯測試，內容一個故事的續寫。

我在故事里設計了3個人物，發現藏寶地圖的小明、他的好朋友小帥、妹妹小美，而故事也是圍繞著尋寶的冒險之旅展開，這樣，就能考察AI對于人物的設定，是否符合邏輯，以及故事線是否符合邏輯。

在這個測試中，文心一言的表現相對較好，發揮了較強的對于人物風格的把控能力，能夠在故事中寫人物對話，對話的風格也符合3個人物的性格設定，故事內容更長，相對更細致。

而通義千問則發揮了更多的創造力，賦予了人物更多不同的特點，不過內容更概括簡短。

kimi的表現與通義千問相似，也是通過賦予人物不同特點來塑造人物，對故事的描述更加細節一些，內容也稍長一點。

天工AI的內容則更加簡短，沒有把控不同的人物風格、也沒有賦予人物不同的特點，表現相對是最弱的。

打分：

文心一言4.0 ? ? ? ? ?
通義千問 ? ? ? ?
kimi AI ? ? ? ?
天工AI ? ? ?

5. 時效性對比

這是我非常非?？粗氐姆矫?，在內容的創作中，引用時下的熱點資訊，對于自媒體運營而言，是一種重要的能力，所以我們會需要時效性強的AI。我用最新、一個月前、三個月前的三個問題來進行測試。

在這一輪測試中，表現最弱的，反而是曾經的搜索巨頭百度所開發的文心一言。

對于2月29日前的最新熱點“董宇輝為什么清空微博”這件事情的解釋上，通義千問、kimi、天工三個大模型都給出了正確答案，只有文心一言給出的答案不正確。

對于一個月前哈爾濱的熱點、三個月前的雙十一銷售額，則4個大模型都給出了正確答案。

同時，文心一言、kimi AI都給出了答案所引用的參考資料，但文心一言給的參考資料，主要都來自百度系自己的內容，主要是好看視頻、百家號，但這里存在一個bug：大語言模型不能解析視頻內容，所以對于董宇輝為什么清空微博這件事情，文心一言雖然根據視頻的標題，找到了好看視頻中的參考資料，但是因為不能解析視頻內容，找到參考資料也看不懂，就像找到一份天書，仍然只能根據自己的邏輯編造一個回答。

而同樣給出了參考資料的kimi AI，對于董宇輝清空微博的事件，則引用了更新的、也更全面的資訊。它引用了最近1天的內容鏈接，引用來源包括騰訊網、知乎、澎湃媒體等，搜索來源比文心一言更廣。

我在使用kimi AI搜索AI相關的內容時，它能給到的參考資料范圍也很廣、很精準，除了主要來源知乎之外，還會給到包括GitHub、人民數據、中國通信院，和一些可以公域訪問的數據報告的鏈接，搜索能力和時效性是比較強的。

另外2個AI大模型，通義千問和天工AI雖然沒有給到引用鏈接，但對3個問題的回答都是準確的。

所以在時效性上，kimiAI最強，它不僅能比較大范圍地搜索到相關資訊，并且能給出引用鏈接，讓我們能夠直接通過鏈接，去判斷這個內容的有效性、是否正確，通義千問和天工AI相對較弱，因為不能給出引用鏈接，對我們判斷起來相對更困難一點，最弱的是文心一言。

打分：