AI產品調研-文心一言 、扣子

1 評論 2368 瀏覽 15 收藏 21 分鐘

文心一言算是國內大模型的佼佼者,而扣子則在智能體方面有著不錯的表現。在一些常見的場景上,這兩個模型都有什么樣的表現?這篇文章,我們看看作者的分析。

一、文心一言

1.1 分析目的

了解文心一言當前產品現狀與最新功能解讀。

1.2 產品基本信息

1.研發公司:百度

2.官網:https://yiyan.baidu.com/

3.產品定位:治愈系智能產品,以聲音和科技為媒介,為人們提供溫暖治愈和關懷(對話機器人)

4.面向用戶:廣泛消費者與企業用戶,如IT互聯網從業者、教育工作者與學生、中小企業等

5.使用情況:用戶量4.3億(截止24.11.12,百度世界2024大會宣布)

1.3 核心業務

1.3.1 基礎能力

理解能力:理解上下文,為用戶提供快捷的知識獲取方式

生成能力:生成高質量的文本內容、圖片、代碼等,例如新聞報道、小說創作等

邏輯能力:復雜的邏輯難題、數學計算均可幫助用戶解決

記憶能力:多輪對話后,仍然記得很早之前文本中的重點等

1.3.2 主要業務場景

生活助手:如美食推薦、運動規劃等

情感陪伴:如心理咨詢、閑聊陪伴、人際交往等

職場提效:如文案撰寫、輔助編程等

休閑娛樂:如歌單推薦、頭像生成等

學習成長:如技能學習、論文提效、學習規劃等

1.4 產品體驗

1.4.1 產品功能

1)對話

更貼合國人的交流習慣:智能伙伴,既能寫文案、想點子,又能聊天、答疑解惑,支持多模態形式,工作生活提效。

來源:文心一言

2)智能體

可根據需要創建自己的智能體,也可在智能體廣場直接使用某一垂類場景他人已發布的智能體,快速上手。

來源:文心一言

3)百寶箱

參考指令(Prompt):提供各場景、各職業的專業指令參考,輔助快速生成內容。

來源:文心一言

4)社區(僅App)

用戶交流社區,可對自有內容或他人內容進行分享學習,增加用戶粘性。

來源:文心一言

1.4.2 使用體驗

1)錯誤辨識(與Kimi、通義千問對比)

結論:回答正確、沒有亂說,相比Kimi、通義千問,文心一言在家庭關系狀態類的問題上表現更好一些。

●詢問一些經典問題

(1)貓為什么會飛?

結論:均回答正確,且給出了其他可能出現的場景例子。

來源-文心一言:24/11月測試

來源-Kimi:24/11月測試

來源-通義千問:24/11月測試

(2)1+1在什么情況下等于3?

結論:均回答正確,且都給出了一些可能等于3的場景例子。

來源-文心一言:24/11月測試

來源-Kimi:24/11月測試

來源-通義千問:24/11月測試

(3)爺爺奶奶能不能結婚?

結論:文心一言結合法律法規的基礎上,補充了常規觀念。

來源-文心一言:24/11月測試

來源-Kimi:24/11月測試

來源-通義千問:24/11月測試

2)智力

結論:計算能力有所提升、并更細化了思考步驟;不過偶爾出現題目太繞,導致很難明白問題本質原因的情況。

●詢問計算、腦筋急轉彎問題

(1)5年前,媽媽年齡是兒子的7倍,兒子今年9歲,媽媽今年多少歲?(與文心一言23年表現對比)

結論:相比去年文心一言計算準確性提升了。

來源-文心一言:23/4月CSDN文章

來源-文心一言:24/11月測試

(2)有兩個人決定進行自行車比賽,看誰的自行車跑的快,比賽在一個平坦寬敞的體育場里進行,但當比賽開始時,他們兩個卻誰也不愿意領先,反而都在慢悠悠的騎,已知他們兩人都不會互相謙讓,也沒有外來因素干擾,總之,一切都很正常,這究竟是為什么呢?(正確答案:因為兩人互換了自行車)

結論:較長的腦筋急轉彎,文心一言并沒有給出準確答案,只推測出現象的可能原因。

來源-文心一言:24/11月測試

3)表達

結論:表達比較清晰,會突出核心重點;不過在部分問答時,沒有分點式說明,不如ChatGPT更有閱讀意愿。

●潤色文章

結論:按照提示詞要求潤色文章,語句通暢,表達比較不錯。

(1)Prompt

我有一段文字,內容如下:

GPT是LLM的一種特定實現,通過海量數據訓練的深度學習模型,能夠識別人的語言、執行語言類任務,并擁有大量參數。它使用Transformer架構,并通過大規模的預訓練,學習語言的模式和結構;ChatGPT則是基于這些內容而實現出來供我們使用的產品。

要求:我希望你對其進行潤色,讓這段文字更清晰,使用親和的風格、嚴肅的語氣、傳達核心知識。

完成潤色后,希望你能解釋一下你是如何改動的。

限制:500字以內。

2)結果截圖

來源-文心一言:24/11月測試

●用戶情感

結論:文心一言和ChatGPT在語言風格和處理邏輯上有較大的差異,ChatGPT的回答兼具程序化和人文關懷,而文言一心雖然更加貼近自然地溝通交流,但不像ChatGPT保持分點式回答,閱讀意愿上在對比中文心一言這一塊的表現稍弱。

來源-文心一言:24/11月測試

來源-ChatGPT:24/11月測試

4)速度

結論:使用過程中,文心一言AI回答的速度基本分布在2~5秒之間,相比Kimi、通義千問模型稍快一些。

5)專業能力

結論:提供多場景、各行各業的專業指令關鍵詞供用戶使用,可幫助用戶更高效的完成各種任務;專業領域問題有待辨識。

●一言百寶箱

結論:多樣化的場景提示詞供用戶使用。

來源-文心一言:24/11月測試

來源-文心一言:24/11月測試

●專業領域問題

結論:專業領域問題答案有待辨識。

(1)患者,女,29歲,因有機磷中毒入院治療,在治療過程中出現阿托品中毒,應立即給予什么治療?(教科書類內容查詢答案為:輸液及毛果蕓香堿)

來源-文心一言:24/11月測試

6)亮點功能

AI繪畫是文心一言的亮點功能,其他大模型如Kimi、通義千問沒有的能力,并且畫質相比2023年也提升了很多。

來源:23/4月CSDN文章

來源:24/11月測試

1.5 技術架構

文心一言底層基于Transformer結構,依托飛槳、文心大模型開發的。這種架構使其具備卓越的自然語言處理能力,能夠理解和生成文本,完成各種任務。

1.6 總結

● 優勢

  1. 在模型能力上,相比較Kimi、通義千問,文心一言擁有多模態能力,如文本生成、圖像生成等。
  2. 在內容風格上,相比ChatGPT更有人情味,文心一言的內容語氣更親和、溫和。
  3. 在AI繪畫上,畫圖功能有了很大提升,畫質更清晰,之前出現的圖片胡亂生成的情況變少了。

● 劣勢

  1. 文字的處理及創作上,豐富的感情和思想內涵還是目前AI做不到的。
  2. 部分用戶情感類問題回復不如ChatGPT有條理性。
  3. 在處理專業領域的問題時,準確性有待辨別。

二、扣子(coze國內版)

2.1 分析目的

了解扣子產品現狀與功能體驗。

2.2 產品基礎信息

1.研發公司:字節跳動

2.官網:https://www.coze.cn/home

3.產品定位:新一代AI應用開發平臺。

4.用戶體量:月訪問用戶數200萬左右(來源:截至24/6月Similarweb數據)

5.面向用戶:

2.3 為什么要做扣子?

1. 行業內對Agent的廣泛關注

很多業界的人把大模型的出現比作當年移動互聯網的出現,移動互聯網的應用呈現是App,很多業界人士統一認知,AI應用的呈現形式是Agent;字節的另一款產品“豆包”,主要的呈現形式就是一個綜合性的AI智能體平臺,可見Agent在其產品里的認知很深刻。

2. 人工智能領域需要一個快速構建AI應用的平臺

移動互聯網時代有快速構建App的標準技術,發布App的應用商店,那AI時代的應用開發平臺是什么?應用發布平臺又是什么呢?這個時代需要有一個更低的門檻,幫助用戶快速構建AI應用。

3. 豆包的發展加速了扣子的研發

豆包早期平臺內的智能體是由官方為了豐富AI引用場景,發布了20多個官方智能體,包括寫作助手、圖片生成等,但后續將創建智能體交給了第三方和用戶,推測豆包官方感受到了創建智能體的有限性,要促進AI智能體的生態,需要一個更專業的AI智能體開發平臺。

2.4 核心能力

1. 快速開發AI應用、智能體

無編程基礎也可使用,快速搭建智能體。

2. 靈活的模型選擇與編排

1)Prompt(可自動優化已編輯的提示詞)

提示詞編寫,是用戶創建智能體最基本的技能,很多智能體,通過精心的編排和設計提示詞基本都能達到比較好的效果,扣子提供了提示詞優化的功能,不過沒有提示詞模板,對于沒有提示詞基礎的用戶,可能不是很友好。

來源:扣子-創建智能體

2)插件(700多個)

插件是構建AI應用必不可少的能力,大家都知道大模型只是提供了文本生成等能力,但不具備搜索引擎、網頁內容查詢等能力,構建AI應用的過程中,不僅需要大模型的基礎能力,還需要把大模型武裝起來,這時候就需要插件來支持,插件本質是各種API服務,扣子通過調用這些API來實現各種功能。

扣子可根據左側的提示詞,自動生成一些插件,提高用戶操作效率。

第三方大模型:插件中還包含第三方模型服務,如通義千問等,用戶可根據需要自行選擇模型。

來源:扣子-創建智能體

3)知識庫(可自建/上傳)

幫助模型學習更多知識,解決一些專業問題,在解決一些垂直行業的問題,提供知識庫是非常有必要的,也是提高模型生成內容的準確性,扣子可自建/上傳本地文件、網頁、筆記、數據表、圖片等。

來源:扣子-創建智能體

4)記憶能力

由于部分模型存在一些上下文限制,模型的記憶能力有限,若需讓產品有長期記憶的能力,扣子提供了變量、數據庫、文件等長期記憶功能。

來源:扣子-創建智能體

5)工作流(編排服務,提供模版)

對于需要通過一系列流程、規劃才能實現的AI應用,工作流功能提供了比較好的編排服務,對于有編程基礎的人員是比較好的體驗,不過對于不會編程的人員,使用起來還是有門檻的,好在扣子提供了工作流模板,在一定程度上降低了部分功能門檻。

來源:扣子-創建應用

3. 應用發布

1)與集成多渠道發布豆包、扣子商城、應用分發平臺、社交媒體賬號平臺、開

發者社區。

2)與外部系統集成。

4. 商店

用戶可以將自己創建的智能體發布到商店,也可在商店直接使用他人已發布的智能體,提高效率。

來源:扣子-商店

2.5 用戶痛點與需求

1.AI應用自研的門檻高,投入成本大

2.單一的AI應用功能擴展性差,資源集成工作量大

3.應用場景復雜多變(用戶需求多樣,且個性化,難以找到解決個性化需求的AI應用)

2.6 商業模式

主要向開發者收費,較典型的SaaS增值付費模式,分為基礎版與專業版。

1.基礎版

1)基礎應用開發能力:限制團隊可使用人數、知識庫使用空間、API調用量等。

2)模型使用權限:可使用的模型有限,更多模型需開通專業版。

3)AI應用使用量:發布到扣子商店后,限制AI應用的使用量。

2.專業版

1)基礎應用開發能力擴充:不限制API調用次數等,限制調用頻率等。

2)可使用模型種類增多:可使用火山方舟上更豐富的模型與版本。

3)AI應用使用量、調用量不做限制:按照專業版計費方式收費。

2.7 挑戰與難題

1. 對于沒有編排基礎的用戶

1)產品的使用難度還是比較高

2)使用關鍵配置功能門檻較高

3)模型效果難以達到預期

2. 對于有編排基礎的用戶

1)智能體的商業變現模式還不清晰

2)開發者缺乏專業、豐富的知識庫資源

三、總結

字節的扣子應用降低了AI開發門檻,集成豐富的插件與強大的功能,支持快速構建、部署AI Bot,并一鍵發布至多平臺,操作簡單、功能豐富;但目前只能部署到有限的應用中,無法將機器人嵌入到更多的應用中,降低了系統的靈活性和適用性。

本文由 @不知名產品露 原創發布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 這倆感覺并不是一類產品,用來橫評略有些不合適

    來自廣東 回復