AI產品調研-文心一言 、扣子
文心一言算是國內大模型的佼佼者,而扣子則在智能體方面有著不錯的表現。在一些常見的場景上,這兩個模型都有什么樣的表現?這篇文章,我們看看作者的分析。
一、文心一言
1.1 分析目的
了解文心一言當前產品現狀與最新功能解讀。
1.2 產品基本信息
1.研發公司:百度
2.官網:https://yiyan.baidu.com/
3.產品定位:治愈系智能產品,以聲音和科技為媒介,為人們提供溫暖治愈和關懷(對話機器人)
4.面向用戶:廣泛消費者與企業用戶,如IT互聯網從業者、教育工作者與學生、中小企業等
5.使用情況:用戶量4.3億(截止24.11.12,百度世界2024大會宣布)
1.3 核心業務
1.3.1 基礎能力
理解能力:理解上下文,為用戶提供快捷的知識獲取方式
生成能力:生成高質量的文本內容、圖片、代碼等,例如新聞報道、小說創作等
邏輯能力:復雜的邏輯難題、數學計算均可幫助用戶解決
記憶能力:多輪對話后,仍然記得很早之前文本中的重點等
1.3.2 主要業務場景
生活助手:如美食推薦、運動規劃等
情感陪伴:如心理咨詢、閑聊陪伴、人際交往等
職場提效:如文案撰寫、輔助編程等
休閑娛樂:如歌單推薦、頭像生成等
學習成長:如技能學習、論文提效、學習規劃等
1.4 產品體驗
1.4.1 產品功能
1)對話
更貼合國人的交流習慣:智能伙伴,既能寫文案、想點子,又能聊天、答疑解惑,支持多模態形式,工作生活提效。
來源:文心一言
2)智能體
可根據需要創建自己的智能體,也可在智能體廣場直接使用某一垂類場景他人已發布的智能體,快速上手。
來源:文心一言
3)百寶箱
參考指令(Prompt):提供各場景、各職業的專業指令參考,輔助快速生成內容。
來源:文心一言
4)社區(僅App)
用戶交流社區,可對自有內容或他人內容進行分享學習,增加用戶粘性。
來源:文心一言
1.4.2 使用體驗
1)錯誤辨識(與Kimi、通義千問對比)
結論:回答正確、沒有亂說,相比Kimi、通義千問,文心一言在家庭關系狀態類的問題上表現更好一些。
●詢問一些經典問題
(1)貓為什么會飛?
結論:均回答正確,且給出了其他可能出現的場景例子。
來源-文心一言:24/11月測試
來源-Kimi:24/11月測試
來源-通義千問:24/11月測試
(2)1+1在什么情況下等于3?
結論:均回答正確,且都給出了一些可能等于3的場景例子。
來源-文心一言:24/11月測試
來源-Kimi:24/11月測試
來源-通義千問:24/11月測試
(3)爺爺奶奶能不能結婚?
結論:文心一言結合法律法規的基礎上,補充了常規觀念。
來源-文心一言:24/11月測試
來源-Kimi:24/11月測試
來源-通義千問:24/11月測試
2)智力
結論:計算能力有所提升、并更細化了思考步驟;不過偶爾出現題目太繞,導致很難明白問題本質原因的情況。
●詢問計算、腦筋急轉彎問題
(1)5年前,媽媽年齡是兒子的7倍,兒子今年9歲,媽媽今年多少歲?(與文心一言23年表現對比)
結論:相比去年文心一言計算準確性提升了。
來源-文心一言:23/4月CSDN文章
來源-文心一言:24/11月測試
(2)有兩個人決定進行自行車比賽,看誰的自行車跑的快,比賽在一個平坦寬敞的體育場里進行,但當比賽開始時,他們兩個卻誰也不愿意領先,反而都在慢悠悠的騎,已知他們兩人都不會互相謙讓,也沒有外來因素干擾,總之,一切都很正常,這究竟是為什么呢?(正確答案:因為兩人互換了自行車)
結論:較長的腦筋急轉彎,文心一言并沒有給出準確答案,只推測出現象的可能原因。
來源-文心一言:24/11月測試
3)表達
結論:表達比較清晰,會突出核心重點;不過在部分問答時,沒有分點式說明,不如ChatGPT更有閱讀意愿。
●潤色文章
結論:按照提示詞要求潤色文章,語句通暢,表達比較不錯。
(1)Prompt
我有一段文字,內容如下:
GPT是LLM的一種特定實現,通過海量數據訓練的深度學習模型,能夠識別人的語言、執行語言類任務,并擁有大量參數。它使用Transformer架構,并通過大規模的預訓練,學習語言的模式和結構;ChatGPT則是基于這些內容而實現出來供我們使用的產品。
要求:我希望你對其進行潤色,讓這段文字更清晰,使用親和的風格、嚴肅的語氣、傳達核心知識。
完成潤色后,希望你能解釋一下你是如何改動的。
限制:500字以內。
2)結果截圖
來源-文心一言:24/11月測試
●用戶情感
結論:文心一言和ChatGPT在語言風格和處理邏輯上有較大的差異,ChatGPT的回答兼具程序化和人文關懷,而文言一心雖然更加貼近自然地溝通交流,但不像ChatGPT保持分點式回答,閱讀意愿上在對比中文心一言這一塊的表現稍弱。
來源-文心一言:24/11月測試
來源-ChatGPT:24/11月測試
4)速度
結論:使用過程中,文心一言AI回答的速度基本分布在2~5秒之間,相比Kimi、通義千問模型稍快一些。
5)專業能力
結論:提供多場景、各行各業的專業指令關鍵詞供用戶使用,可幫助用戶更高效的完成各種任務;專業領域問題有待辨識。
●一言百寶箱
結論:多樣化的場景提示詞供用戶使用。
來源-文心一言:24/11月測試
來源-文心一言:24/11月測試
●專業領域問題
結論:專業領域問題答案有待辨識。
(1)患者,女,29歲,因有機磷中毒入院治療,在治療過程中出現阿托品中毒,應立即給予什么治療?(教科書類內容查詢答案為:輸液及毛果蕓香堿)
來源-文心一言:24/11月測試
6)亮點功能
AI繪畫是文心一言的亮點功能,其他大模型如Kimi、通義千問沒有的能力,并且畫質相比2023年也提升了很多。
來源:23/4月CSDN文章
來源:24/11月測試
1.5 技術架構
文心一言底層基于Transformer結構,依托飛槳、文心大模型開發的。這種架構使其具備卓越的自然語言處理能力,能夠理解和生成文本,完成各種任務。
1.6 總結
● 優勢
- 在模型能力上,相比較Kimi、通義千問,文心一言擁有多模態能力,如文本生成、圖像生成等。
- 在內容風格上,相比ChatGPT更有人情味,文心一言的內容語氣更親和、溫和。
- 在AI繪畫上,畫圖功能有了很大提升,畫質更清晰,之前出現的圖片胡亂生成的情況變少了。
● 劣勢
- 文字的處理及創作上,豐富的感情和思想內涵還是目前AI做不到的。
- 部分用戶情感類問題回復不如ChatGPT有條理性。
- 在處理專業領域的問題時,準確性有待辨別。
二、扣子(coze國內版)
2.1 分析目的
了解扣子產品現狀與功能體驗。
2.2 產品基礎信息
1.研發公司:字節跳動
2.官網:https://www.coze.cn/home
3.產品定位:新一代AI應用開發平臺。
4.用戶體量:月訪問用戶數200萬左右(來源:截至24/6月Similarweb數據)
5.面向用戶:
2.3 為什么要做扣子?
1. 行業內對Agent的廣泛關注
很多業界的人把大模型的出現比作當年移動互聯網的出現,移動互聯網的應用呈現是App,很多業界人士統一認知,AI應用的呈現形式是Agent;字節的另一款產品“豆包”,主要的呈現形式就是一個綜合性的AI智能體平臺,可見Agent在其產品里的認知很深刻。
2. 人工智能領域需要一個快速構建AI應用的平臺
移動互聯網時代有快速構建App的標準技術,發布App的應用商店,那AI時代的應用開發平臺是什么?應用發布平臺又是什么呢?這個時代需要有一個更低的門檻,幫助用戶快速構建AI應用。
3. 豆包的發展加速了扣子的研發
豆包早期平臺內的智能體是由官方為了豐富AI引用場景,發布了20多個官方智能體,包括寫作助手、圖片生成等,但后續將創建智能體交給了第三方和用戶,推測豆包官方感受到了創建智能體的有限性,要促進AI智能體的生態,需要一個更專業的AI智能體開發平臺。
2.4 核心能力
1. 快速開發AI應用、智能體
無編程基礎也可使用,快速搭建智能體。
2. 靈活的模型選擇與編排
1)Prompt(可自動優化已編輯的提示詞)
提示詞編寫,是用戶創建智能體最基本的技能,很多智能體,通過精心的編排和設計提示詞基本都能達到比較好的效果,扣子提供了提示詞優化的功能,不過沒有提示詞模板,對于沒有提示詞基礎的用戶,可能不是很友好。
來源:扣子-創建智能體
2)插件(700多個)
插件是構建AI應用必不可少的能力,大家都知道大模型只是提供了文本生成等能力,但不具備搜索引擎、網頁內容查詢等能力,構建AI應用的過程中,不僅需要大模型的基礎能力,還需要把大模型武裝起來,這時候就需要插件來支持,插件本質是各種API服務,扣子通過調用這些API來實現各種功能。
扣子可根據左側的提示詞,自動生成一些插件,提高用戶操作效率。
第三方大模型:插件中還包含第三方模型服務,如通義千問等,用戶可根據需要自行選擇模型。
來源:扣子-創建智能體
3)知識庫(可自建/上傳)
幫助模型學習更多知識,解決一些專業問題,在解決一些垂直行業的問題,提供知識庫是非常有必要的,也是提高模型生成內容的準確性,扣子可自建/上傳本地文件、網頁、筆記、數據表、圖片等。
來源:扣子-創建智能體
4)記憶能力
由于部分模型存在一些上下文限制,模型的記憶能力有限,若需讓產品有長期記憶的能力,扣子提供了變量、數據庫、文件等長期記憶功能。
來源:扣子-創建智能體
5)工作流(編排服務,提供模版)
對于需要通過一系列流程、規劃才能實現的AI應用,工作流功能提供了比較好的編排服務,對于有編程基礎的人員是比較好的體驗,不過對于不會編程的人員,使用起來還是有門檻的,好在扣子提供了工作流模板,在一定程度上降低了部分功能門檻。
來源:扣子-創建應用
3. 應用發布
1)與集成多渠道發布豆包、扣子商城、應用分發平臺、社交媒體賬號平臺、開
發者社區。
2)與外部系統集成。
4. 商店
用戶可以將自己創建的智能體發布到商店,也可在商店直接使用他人已發布的智能體,提高效率。
來源:扣子-商店
2.5 用戶痛點與需求
1.AI應用自研的門檻高,投入成本大
2.單一的AI應用功能擴展性差,資源集成工作量大
3.應用場景復雜多變(用戶需求多樣,且個性化,難以找到解決個性化需求的AI應用)
2.6 商業模式
主要向開發者收費,較典型的SaaS增值付費模式,分為基礎版與專業版。
1.基礎版
1)基礎應用開發能力:限制團隊可使用人數、知識庫使用空間、API調用量等。
2)模型使用權限:可使用的模型有限,更多模型需開通專業版。
3)AI應用使用量:發布到扣子商店后,限制AI應用的使用量。
2.專業版
1)基礎應用開發能力擴充:不限制API調用次數等,限制調用頻率等。
2)可使用模型種類增多:可使用火山方舟上更豐富的模型與版本。
3)AI應用使用量、調用量不做限制:按照專業版計費方式收費。
2.7 挑戰與難題
1. 對于沒有編排基礎的用戶
1)產品的使用難度還是比較高
2)使用關鍵配置功能門檻較高
3)模型效果難以達到預期
2. 對于有編排基礎的用戶
1)智能體的商業變現模式還不清晰
2)開發者缺乏專業、豐富的知識庫資源
三、總結
字節的扣子應用降低了AI開發門檻,集成豐富的插件與強大的功能,支持快速構建、部署AI Bot,并一鍵發布至多平臺,操作簡單、功能豐富;但目前只能部署到有限的應用中,無法將機器人嵌入到更多的應用中,降低了系統的靈活性和適用性。
本文由 @不知名產品露 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
這倆感覺并不是一類產品,用來橫評略有些不合適