2萬字大模型調研:橫向對比文心一言、百川、Minimax、通義千問、訊飛星火、ChatGPT

4 評論 52633 瀏覽 178 收藏 55 分鐘

2萬字、47張圖表、對6大模型進行了測評和體驗。本文注重產品使用感受、實際應用場景與效果測評,讓你輕松掌握各大模型的優(yōu)劣與特色,助你全面理解各大模型的真實表現(xiàn),快來看看吧。

一、引言

1. 調研目的與意義

2023年之后,國內外多個大模型的相繼發(fā)布和升級,進一步推動了全球AI競賽的白熱化,并對社會各行業(yè)產生深遠影響。

中國的大模型包括百度的文心一言(ERNIE系列)、阿里云的通義千問、Minimax系列模型、科大訊飛的訊飛星火以及美國OpenAI研發(fā)的ChatGPT等。這些模型憑借其強大的語言理解和生成能力,在文本創(chuàng)作、智能問答、知識檢索、商業(yè)文案生成等諸多場景中展現(xiàn)出了巨大潛力。

本次調研旨在為企業(yè)選擇一款合適的大模型產品,其目的和意義如下:

了解市場上的大模型產品及其供應商,分析各家產品的優(yōu)缺點和適用場景。評估各家大模型產品的性能指標,為企業(yè)提供參考依據(jù)。了解大模型產品的部署、接入成本和定制化開發(fā)等技術支持和服務,確保企業(yè)能夠順利實施和應用。

通過調研,為公司推薦適合的大模型產品,提高AI產品穩(wěn)定性和效果表現(xiàn)。

2. 調研背景與現(xiàn)狀

目前我們正在合作的AI,以及我們正在使用的的大模型產品。從實踐的角度來看,都存在產品穩(wěn)定性不夠、產品效果不佳,以及供應商服務響應不太及時的問題。

經過團隊的溝通,現(xiàn)需要調研新的大模型產品,以尋找現(xiàn)有的產品的替換品或補充品,已保證的穩(wěn)定運行,及高質量的輸出表現(xiàn)。

AI的服務問題示例:

3. 調研范圍與限制

1)調研范圍

主要集中在國內的大模型廠商,以及openAI的接口測試能力。因為政策原因,對其他更多的外國廠商不進行調研和測試。

調研的版本,僅限于當前廠商能提供的對外開放的版本,大概率是最新版。

調研的維度:主要選取和對比各家大模型的優(yōu)劣勢、產品性能、擅長領域、接入方式、使用成本、是否支持微調等。

2)調研限制

因為篇幅和個人能力有限,對大模型的技術原理、訓練方法、模型架構不做深入的研究和分析,感興趣的伙伴,可以尋找其他更加專業(yè)的作者的文章閱讀。

調研主要是通過產品和用戶視角進行,比較注重上層表現(xiàn)效果,調研內容僅供參考。

調研的主要方式是通過官網產品的C端體驗進行,形式非權威且不正式,調研思路僅提供一種可能性啟發(fā),結果僅供參考。

二、企業(yè)需求分析

1. 接入大模型的主要原因分析

1)提高生產效率:通過大模型技術,企業(yè)可以自動化處理大量數(shù)據(jù),提高生產效率,降低成本。例如:

  1. 輿情項目的文章分析和分類處理;
  2. 智能寫作;
  3. 自動撰寫新聞稿。

2)提升客戶體驗:大模型技術可以幫助企業(yè)更好地理解客戶需求,提供更加個性化的服務和產品,提升客戶體驗。例如:

  1. 文章閱讀和AI解讀;
  2. 產業(yè)的數(shù)據(jù)分析;
  3. *網的資訊自動化、機器人化等。

3)創(chuàng)新業(yè)務模式:大模型技術可以推動企業(yè)創(chuàng)新業(yè)務模式,為企業(yè)創(chuàng)造新的增長點。例如:

  1. 針對*產業(yè)的相關資訊的智能化咨詢;
  2. 相關資訊智能推薦;
  3. *產業(yè)專業(yè)內容、數(shù)據(jù)解讀、研報解讀等。

2. 接入大模型的產品需求

應用場景:自然語言處理、文章分析、內容識別和分類、智能推薦、數(shù)據(jù)分析。

功能需求:自然語言對話、智能摘要、文章解讀、文檔閱讀、推薦算法、行業(yè)模型微調。

性能需求:

  1. 如響應速度快,有專屬的客服團隊,日常工作中能及時響應;
  2. 并發(fā)處理能力稍強,大于30QPS;
  3. 穩(wěn)定性要好,系統(tǒng)故障和奔潰率要低于0.05%;
  4. 安全性要強,符合國內的政策法規(guī),經過備案,對敏感詞有過濾,對用戶輸入有識別和違禁詞的攔截;
  5. 支持可擴展性,支持微調。

成本預算:年成本不高于120w。

服務與支持:考察供應商的售后服務體系,包括技術支持、培訓服務、升級維護等。

技術路線與未來發(fā)展:考慮產品是否符合行業(yè)發(fā)展趨勢,能否滿足企業(yè)未來一段時間內的發(fā)展需求。

3. 大模型選型原則與標準

基于以上需求,*在選擇大模型產品時應該遵循以下原則與標準:

  1. 性能:產品的性能要穩(wěn)定可靠,能夠高效地處理大量數(shù)據(jù),滿足企業(yè)的業(yè)務需求。
  2. 易用性:產品的操作要簡單易懂,不需要過多的技術門檻,方便企業(yè)快速上手。
  3. 可擴展性:產品要具有良好的可擴展性,能夠隨著企業(yè)業(yè)務的發(fā)展而不斷升級和優(yōu)化。
  4. 成本:產品的價格要合理,同時要考慮其性價比,避免不必要的浪費。
  5. 技術支持與服務:產品提供商要具備完善的技術支持和服務體系,能夠及時解決企業(yè)遇到的問題。

三、大模型產品概述

1. 大模型技術的發(fā)展歷程

大模型技術,也稱為深度學習模型,其發(fā)展歷程可以追溯到2006年,當時深度學習的概念被提出,并在語音識別、圖像處理等領域開始得到應用。隨著數(shù)據(jù)的不斷積累和計算能力的提升,深度學習模型逐漸從傳統(tǒng)的神經網絡演變?yōu)楦鼜碗s的結構,如卷積神經網絡(CNN)、循環(huán)神經網絡(RNN)和Transformer等。

其中,Transformer結構在大模型中得到了廣泛應用,尤其是在自然語言處理領域。隨著預訓練語言模型的出現(xiàn),如GPT系列和BERT等,大模型在自然語言處理任務中取得了顯著成果,推動了人工智能技術的進一步發(fā)展。

通俗地解釋就是:如果電腦是個孩子,那么大模型技術就是他的大腦。一開始,這個孩子不太聰明,后來他通過不斷學習,變得越來越聰明。大模型技術就是這樣,它通過大量數(shù)據(jù)的學習,變得越來越“聰明”。這個技術的發(fā)展經歷了很長時間,現(xiàn)在已經被廣泛應用于各種領域。

2. 競爭格局與主要參與者

大模型的競爭格局日趨激烈,全球范圍內,眾多企業(yè)、初創(chuàng)公司和研究機構都在積極投入和研發(fā)大模型技術。

1)國內主要大模型企業(yè):

① 百度

百度在人工智能領域有著深厚積累,其研發(fā)的大模型包括“文心一言”(ERNIE系列),這是一個預訓練語言模型,具有強大的自然語言理解和生成能力。百度利用該模型在搜索、信息流推薦、廣告投放、智能寫作、對話系統(tǒng)等場景中實現(xiàn)智能化升級,為用戶提供更精準和個性化的服務。

② 阿里巴巴

阿里巴巴推出的是“通義千問”大模型,這是基于阿里云構建的大型預訓練模型,在電商、金融、物流等多個業(yè)務場景發(fā)揮了重要作用。例如,它能夠優(yōu)化商品推薦算法,提升客服效率,輔助決策分析,并在文本生成、問答交互等方面提供強大的技術支持。

③ 騰訊

騰訊在AI領域的布局也十分積極,盡管混元大模型還在內測階段,但預計會在游戲開發(fā)、內容生成、社交網絡、在線娛樂等多個方面發(fā)揮重要作用,以提升用戶體驗并增強騰訊產品和服務的競爭力。

④ 華為

華為研發(fā)了盤古大模型系列,旨在通過先進的深度學習技術推動云計算、物聯(lián)網、智能終端等領域的技術創(chuàng)新。盤古大模型可應用于華為云服務,賦能行業(yè)解決方案,同時也在華為自家的智能手機、智能家居等智能硬件設備上提供了更加智能的功能。

⑤ 字節(jié)跳動

字節(jié)跳動雖然沒有公開具體的大模型名稱,但在自然語言處理和推薦系統(tǒng)等領域有深厚的積累和技術實力。其旗下的抖音、今日頭條等平臺依賴于高度智能的算法和模型,推測正在內部研發(fā)或應用大模型來提升內容理解與個性化推薦效果。

⑥ 京東

京東的言犀大模型是專為其電商平臺定制的人工智能模型,尤其擅長在智能客服、智能營銷和智能供應鏈管理等方面發(fā)揮作用。通過言犀,京東可以高效地處理用戶咨詢、精準推薦商品以及優(yōu)化運營策略。

⑦ 科大訊飛

科大訊飛作為中國語音識別和人工智能行業(yè)的領軍企業(yè)之一,推出了星火大模型,這是一種認知智能大模型,集成了多種自然語言處理和機器學習技術。星火大模型在教育、醫(yī)療、政務、司法等行業(yè)應用場景中廣泛使用,尤其是在智能語音合成、語音識別、語義理解和知識圖譜構建等方面表現(xiàn)突出。

⑧ 360集團

360集團依托自身在搜索引擎和網絡安全領域的優(yōu)勢,推出了360GPT大模型。這款大模型不僅強化了360搜索引擎的智能化程度,還在網絡安全防護、威脅情報分析、智能硬件協(xié)同等方面展現(xiàn)出強大的功能,有助于提升整體的互聯(lián)網安全水平及用戶體驗。

2)國外主要大模型企業(yè)

  1. 谷歌:擁有LaMDA、PaLM等大模型,并在搜索、廣告、自然語言處理等領域有廣泛應用。
  2. 微軟:推出了Azure OpenAI服務,集成了GPT系列等大模型,并在云服務、辦公軟件等領域有所應用。
  3. 亞馬遜:擁有自己的大模型技術,并在電商、云服務、智能音響等領域有所應用,但尚未公開具體的大模型名稱。
  4. Meta:在自然語言處理和圖像處理等領域有所布局,推出了LLaMA等大模型。
  5. 蘋果:雖然蘋果尚未公開具體的大模型技術,但其在Siri、Face ID等方面已有所應用。

3)初創(chuàng)公司和研究機構

當然,以下是您提到的國外主要大模型企業(yè)的詳細情況:

① 谷歌

谷歌在人工智能領域處于全球領先地位,其研發(fā)的大模型包括LaMDA(Language Model for Dialogue Applications)和PaLM(Pathways Language Model)。LaMDA是專為對話交互設計的大型語言模型,旨在提供更自然、有深度的人機對話體驗;而PaLM則是一個超大規(guī)模的語言模型,具有極強的推理能力和泛化能力,在搜索、廣告相關性預測、智能助手響應生成等方面發(fā)揮關鍵作用。

② 微軟

微軟通過與OpenAI合作,將GPT系列大模型集成到了Azure云服務中,為企業(yè)客戶提供強大的自然語言處理能力。例如,Azure OpenAI服務使得用戶能夠方便地調用GPT-3等先進的預訓練模型來開發(fā)聊天機器人、文本生成工具以及增強辦公軟件如Office 365中的智能功能。

③ 亞馬遜

亞馬遜作為電商和云計算巨頭,雖然尚未公開特定的大模型名稱,但無疑在其業(yè)務中有應用自研或整合的大模型技術。這些技術可能體現(xiàn)在個性化推薦系統(tǒng)、客戶服務機器人、Alexa智能語音助手等領域,利用大模型提高用戶體驗和服務效率。

④ Meta(前身為Facebook)

Meta在人工智能領域的探索廣泛且深入,已推出了LLaMA(Large Language Models at Meta)等大模型,主要用于自然語言處理任務,同時也涉足圖像處理、跨模態(tài)學習等前沿領域。此類大模型的應用場景涵蓋社交網絡內容理解與推薦、AR/VR虛擬世界互動、元宇宙建設等多個方面。

⑤ 蘋果

蘋果公司雖未正式對外宣布具體的大模型技術細節(jié),但在其產品和服務中廣泛應用了深度學習和人工智能技術。例如,Siri語音助手背后的自然語言理解和語音合成技術、Face ID面部識別系統(tǒng)中的機器學習算法等,都體現(xiàn)了蘋果在先進模型上的研發(fā)投入。盡管如此,推測蘋果內部正在積極研發(fā)或使用定制化的大型模型以提升旗下產品的智能化水平。

4)國內大模型初創(chuàng)公司

① 云從科技:專注于人臉識別和自然語言處理領域,開發(fā)了多款大模型應用。

作為一家人工智能領軍企業(yè),云從科技主要聚焦在計算機視覺和自然語言處理領域。其核心技術包括人臉識別、圖像識別、語音語義理解等,并基于這些技術開發(fā)了多款大模型應用,廣泛應用于金融、安防、交通、商業(yè)等多個行業(yè)場景,如智慧銀行、智慧城市等。

② 達闥科技:專注于云端機器人技術,開發(fā)了多款大模型應用。

達闥科技以云端機器人技術為核心,通過構建智能云腦和智能終端的架構,研發(fā)了針對服務機器人的大模型應用。他們致力于將人工智能與機器人技術相結合,打造具備復雜環(huán)境感知、決策規(guī)劃及自主行動能力的智能機器人解決方案。

③ 思必馳:專注于智能語音交互技術,開發(fā)了多款大模型應用。

思必馳是一家專注于智能語音交互技術的企業(yè),為各類智能硬件和軟件提供全鏈路語音交互解決方案。其研發(fā)的大模型應用在語音識別、語音合成、語義理解等方面具有先進的性能,被廣泛應用在智能家居、智能車載、智能客服等領域。

④ 深言科技:專注于自然語言處理和智能推薦技術,開發(fā)了多款大模型應用。

深言科技專攻于自然語言處理以及智能推薦技術,他們的大模型產品可進行深度語義理解和用戶行為分析,用于智能對話系統(tǒng)、個性化內容推薦等方面,提升用戶體驗并助力企業(yè)智能化升級。

⑤ 云知聲:專注于語音識別和自然語言處理技術,開發(fā)了多款大模型應用。

云知聲是國內領先的智能語音技術服務商,特別是在語音識別和自然語言處理方面有深厚的技術積累。它們開發(fā)的大模型應用在智能家居控制、醫(yī)療、教育等行業(yè)得到廣泛應用,旨在實現(xiàn)“聽見·看見·認知·思考”的AI能力。

⑥ 明略科技:專注于數(shù)據(jù)分析和管理領域,開發(fā)了多款大模型應用。

明略科技著重于數(shù)據(jù)分析和知識圖譜構建,結合大數(shù)據(jù)技術和大模型算法,為企業(yè)級客戶提供智能決策支持和數(shù)據(jù)驅動的運營管理方案。其大模型應用有助于挖掘海量數(shù)據(jù)中的價值信息,優(yōu)化業(yè)務流程和提高決策效率。

⑦ 格靈深瞳:專注于計算機視覺和深度學習技術,開發(fā)了多款大模型應用。

格靈深瞳深耕計算機視覺和深度學習技術,其大模型應用主要用于視頻內容分析、行為識別、物體檢測等場景,在公共安全、城市管理、零售業(yè)、體育賽事分析等多個行業(yè)中實現(xiàn)了智能化監(jiān)控和管理。

⑧ 商湯科技:專注于計算機視覺和人工智能領域,開發(fā)了多款大模型應用。

商湯科技是全球領先的人工智能平臺公司,尤其在計算機視覺和深度學習方面擁有頂尖實力。它們不僅開發(fā)了一系列基于大模型的應用,如圖像識別、視頻分析、增強現(xiàn)實等,還將其技術廣泛應用于智能手機、自動駕駛、智慧城市、娛樂影視、教育健康等多個領域。

5)國外大模型初創(chuàng)公司

① Scale AI

Scale AI是一家以人工智能數(shù)據(jù)標注和訓練為核心業(yè)務的公司,為自動駕駛、國防、電子商務等領域的機器學習模型提供高質量的數(shù)據(jù)集。他們開發(fā)的大模型應用和服務極大地加速了AI模型的訓練過程,通過精細標注的數(shù)據(jù)有效提升了模型性能。

② Hugging Face

Hugging Face是一家在自然語言處理(NLP)領域極具影響力的公司,他們運營著一個開放源碼社區(qū),并推出了Transformers庫,其中包含了大量的預訓練模型,如BERT、GPT系列等,使得開發(fā)者能夠輕松地利用這些大模型進行二次訓練或直接應用于文本生成、問答系統(tǒng)、語義分析等各種場景。

③ Domino Data Lab

Domino Data Lab提供了一個企業(yè)級的數(shù)據(jù)科學平臺,致力于簡化并加速從數(shù)據(jù)準備到模型部署的整個機器學習生命周期。該平臺支持大規(guī)模數(shù)據(jù)處理、模型訓練以及版本控制,讓數(shù)據(jù)科學家能夠高效地開發(fā)和管理包括大模型在內的各類機器學習項目。

④ DataRobot

DataRobot提供自動化機器學習解決方案,幫助企業(yè)用戶快速構建和優(yōu)化預測性模型。其平臺允許用戶無需編碼或深度理解算法即可訓練各種復雜的大模型,尤其擅長于預測分析和決策制定,在金融、零售、醫(yī)療等行業(yè)有廣泛應用。

⑤ Feast (Feast Feature Store)

Feast是一個開源的特征存儲系統(tǒng),雖然它不直接提供大模型的應用,但作為機器學習工程的重要組成部分,它對特征工程有著關鍵作用。Feast幫助團隊管理和共享用于訓練大模型的特征數(shù)據(jù),從而改善模型效果和協(xié)作效率。

⑥ Invenia Data Science

Invenia主要聚焦在復雜系統(tǒng)的建模與預測上,尤其是能源市場。他們的工作結合了高級數(shù)據(jù)科學和機器學習技術,盡管可能不直接對外提供大模型服務,但內部研發(fā)的模型通常規(guī)模龐大且復雜,用于解決電力市場的供需預測和其他復雜問題。

⑦ FloydHub

FloydHub是面向機器學習和深度學習研究者的云端服務平臺,提供GPU資源,支持用戶方便快捷地在云端進行大模型訓練。用戶可以通過簡單的命令行工具或API將代碼上傳至云端環(huán)境,從而實現(xiàn)計算資源的彈性擴展,大大降低了模型訓練門檻。

⑧ FastAI

FastAI 是一個專注于使深度學習易于使用的開源庫和教育項目,它構建于PyTorch之上,簡化了大模型的訓練流程。FastAI 提供了一系列工具和框架,使得即便是初學者也能快速搭建和訓練高性能的計算機視覺和自然語言處理模型,并將其部署到生產環(huán)境中。

請注意,以上列舉的初創(chuàng)公司并非全部,還有許多其他的大模型初創(chuàng)公司在不同領域進行著創(chuàng)新和應用。同時,隨著技術的不斷發(fā)展和市場的不斷變化,這些初創(chuàng)公司的競爭格局也可能會發(fā)生變化。

3. 產品類型與特點分析

大模型產品按照應用場景和功能可以分為多種類型,如:

  1. 自然語言處理大模型
  2. 計算機視覺大模型
  3. 語音識別大模型等

這些產品在模型結構、參數(shù)規(guī)模、訓練方法等方面存在差異,具有各自的特點和優(yōu)勢。其中,自然語言處理大模型是目前應用最廣泛的類型之一,其特點是通過海量數(shù)據(jù)訓練得到豐富的語義信息和語言知識,能夠實現(xiàn)自然語言理解、生成以及文本分類等任務。

計算機視覺大模型則注重圖像特征的提取和分類,廣泛應用于人臉識別、目標檢測等領域。語音識別大模型則注重語音信號的處理和識別,能夠實現(xiàn)語音轉文字、語音合成等功能。

大模型產品的特點是具有高度靈活性和可擴展性,能夠根據(jù)不同場景和需求進行定制化開發(fā)和應用。同時,大模型產品的應用也需要相應的數(shù)據(jù)資源和計算能力支持,因此在實際應用中需要考慮數(shù)據(jù)隱私和安全等方面的問題。

此外,由于大模型產品的技術門檻較高,需要專業(yè)的人才和技術支持服務。因此,企業(yè)在選擇大模型產品時需要綜合考慮產品的性能、易用性、可擴展性以及技術支持和服務質量等因素。

四、大模型產品對比分析

1. 分析對象選取

在大模型調研和分析的對象選擇上,主要考慮已備案、開放商用、有完備的API接入部署方式的國內的大模型產品。

1)第一批通過備案的大模型

  • 百度文心大模型
  • 百川大模型
  • Minimax大模型
  • 阿里通義大模型
  • 智譜AI大模型

2)第二批通過備案的大模型

訊飛星火大模型。

3)國外大模型

  • OpenAI
  • Google Gemini

2. 百度·文心大模型

1)模型定位分析

大模型產品介紹:https://wenxin.baidu.com/

大模型的能力:

  1. 通用大模型
  2. 多模態(tài)
  3. 行業(yè)級應用
  4. AI應用場景全覆蓋
  5. 多類AI工具配合使用

NLP大模型:面向語言理解、語言生成等NLP場景,具備超強語言理解能力以及對話生成、文學創(chuàng)作等能力。創(chuàng)新性地將大數(shù)據(jù)預訓練與多源豐富知識相結合,通過持續(xù)學習技術,不斷吸收海量文本數(shù)據(jù)中詞匯、結構、語義等方面的新知識,實現(xiàn)模型效果不斷進化。

在文心大模型的基礎上,有獨立的應用場景大模型可供選擇和單獨采購使用,例如:

  1. 對話PLATO-XL
  2. 搜索ERNIE-Search
  3. 跨語言ERNIE-M
  4. 代碼ERNIE-Code

除了大語言模型,還有視覺模型、跨模態(tài)模型、生物計算模型等。在這里,可以考慮一下自家企業(yè)的產品和應用場景是否涉及并需要這些模型能力。

2)產品體驗和測評

3)接入方式

文心大模型4.0已正式發(fā)布,個人和企業(yè)客戶可通過百度智能云千帆大模型平臺接入使用。

網址:https://cloud.baidu.com/product/wenxinworkshop

4)分析小結

  1. 模型性能好,多工具使用,AI產品矩陣比較全面;
  2. 接入成本較高,可通過API計入or 私有云部署(價格比較貴);
  3. 3針對目前XXX的產品需求和應用場景,主要可以使用百度的文心大模型的NLP大模型;
  4. 在未來的文檔分析和歸類應用上,可以考慮跨模態(tài)的ERNIE-Layout模型,主要作用是文檔分類、信息抽取、文檔問答等。
  5. 百度在互聯(lián)網產品上,利用大模型,以產品為切入點做了一些落地應用。例如:百度搜索助手、文庫助手、網盤助手、瀏覽器助手、AI圖片助手、百家號創(chuàng)作助手等。

3. 百川大模型

1)模型定位分析

大模型產品介紹:https://www.baichuan-ai.com/home

最新的Baichuan2-Turbo大模型版本的能力:

  1. 搜索增強
  2. 開放API
  3. 中英雙語

Baichuan2 Turbo大模型,融合長上下文窗口和搜索增強,實現(xiàn)大模型與領域知識、全網知識的全新鏈接。支持PDF、Word等多種文檔上傳及網址輸入,信息獲取及時、全面,輸出結果準確、專業(yè)。

產品優(yōu)勢

  1. 支持搜索增強+企業(yè)知識庫(限時免費?。?/li>
  2. 實現(xiàn)互聯(lián)網實時信息+企業(yè)完整知識的融合
  3. 能將足夠多的知識加載到192k上下文窗口
  4. 解決大部分定制化場景

2)產品體驗和測評

3)接入方式

百川全新開放Baichuan2-Turbo系列API,支持搜索增強和 192K長窗口,新增 百川搜索增強知識庫, 通過多項創(chuàng)新精準理解用戶意圖,召回更加準確。同時上線API體驗中心,歡迎您使用。

網址:https://platform.baichuan-ai.com/playground?sceneId=14

4)分析小結

通過對百川大模型的分析,結合XXX目前的AI產品應用場景,可取之處是:

  1. 文檔讀取提煉能力,是已有的服務,接入可使用。
  2. 企業(yè)知識庫功能比較完備,可以借鑒和使用。
  3. 長文本的輸入是一個優(yōu)勢。
  4. 新聞摘要、投資研究分析、辦公提效、公文寫作、文檔翻譯,這些工具已經設計并開發(fā)好了,可以借鑒和使用,有比較好的表現(xiàn)。
  5. 輸入網址,可以讀取內容。
  6. 總結:性能強,技術好,系統(tǒng)生態(tài)和產品矩陣欠缺,初創(chuàng)公司,服務不一定能跟上。

4. MINIMAX大模型

1)模型定位分析

大模型產品介紹:https://api.minimax.chat/

MiniMax開放平臺提供基于自然語言交互的文本生成能力(文本大模型)、語音生成能力(語音大模型)和長記憶檢索、知識庫檢索等能力,賦能開發(fā)者完成所在行業(yè)的AI場景創(chuàng)新。

  • 文本大模型(Chat Completion、Chat Completion Pro):基于自然語言交互的文本生成能力接口;
  • 語音大模型(T2A、T2A pro、T2A large):基于自然語言交互生成能力的文字轉語音接口;
  • 向量(Embeddings):文本轉化為高維向量接口,可實現(xiàn)如長記憶檢索、知識庫檢索等能力;
  • 知識庫(Retrieval):支持高效檢索文檔信息,準確回答專業(yè)問題,為大模型補充專業(yè)領域知識。

除了標準的API接口,我們提供定制模型微調。支持構造定制數(shù)據(jù)集對預訓練模型進行微調、支持多樣化微調,還支持云端私有化等多種交付方式。

2)產品體驗和測評

文本體驗中心:

語音體驗中心:

3)接入方式

4)分析小結

通過對百川大模型的分析,結合XXX目前的AI產品應用場景,可取之處是:

  1. 文本大模型沒什么特色和亮點,收費比百度貴;
  2. 語音大模型,可以考慮接入,對資訊文章進行語音播報,但是收費比較貴,一篇500字左右的文章語音播放費用,大概是3~5元。

5. 阿里通義大模型

1)模型定位分析

① 大模型產品介紹:https://tongyi.aliyun.com/

② 大模型的通用能力:

③ 垂直領域模型:

基座模型已升級到2.0版本。

開發(fā)并上線了基于通義千問的8個垂直領域模型。

2)產品體驗和測評

提問體驗和測評:

3)接入方式

4)分析小結

  1. 模型通用能力強,對用戶語言理解好,回答較充分;
  2. 行業(yè)垂類模型做得好,產品矩陣好,可作為工具模型接入“通義點金”等產品;
  3. 產品設計能力強,體系化值得借鑒;
  4. 圖片解析能力一般;
  5. 文檔解讀能力強。

6. 智譜大模型

1)模型定位分析

大模型產品介紹:https://www.zhipuai.cn/

大模型的能力:

基于千億基座模型 GLM-130B,注入代碼預訓練,通過有監(jiān)督微調等技術實現(xiàn)人類意圖對齊,具備問答、多輪對話、代碼生成功能的中英雙語大模型。

2)產品體驗和測評

3)接入方式

4)分析小結

  1. 接入的價格比較低,通用能力還OK;
  2. 技術實力比較好。

7. 訊飛星火大模型

1)模型定位分析

大模型產品介紹:

https://xinghuo.xfyun.cn/?ch=bdtg_xh_kw612&bd_vid=10136413666023107181

大模型的能力:

新一代認知智能大模型,擁有跨領域知識和語言理解能力,能夠基于自然對話方式理解與執(zhí)行任務。

2)產品體驗和測評

3)大模型原生應用產品體驗

4)接入方式

5)分析小結

  1. 模型性能好,多工具使用,AI產品矩陣比較全面;
  2. 文本回答好、圖片解析精準,有情感;
  3. 產品生態(tài)強,有多個原生應用可接入,落地應用做得好;
  4. 【訊飛智文】這個產品有很好的借鑒作用,可考慮在實際應用場景中進行落地。

8. OpenAI chatGPT-Turbo大模型

定位:

ChatGPT-Turbo被設計為提供高效、快速和準確的自然語言處理服務,它適用于多種場景,如智能客服、自然語言生成、文本摘要等。

能力:

該模型具備強大的語言理解和生成能力,能夠理解和處理各種復雜的語言結構和含義,并根據(jù)用戶輸入的上下文生成相應的回復或文本。它還能夠處理多種語言,包括英語、中文等,使得跨語言交流更加便捷。

特點:

ChatGPT-Turbo采用了先進的深度學習技術和大規(guī)模語料庫進行訓練,從而使其具備了高度的泛化能力和魯棒性。此外,該模型還支持微調,可以根據(jù)特定任務或領域的數(shù)據(jù)進行進一步的優(yōu)化,提高其在特定場景下的性能。

價格:

名為“gpt-3.5-turbo”的模型,其價格為0.002美元/每1000 tokens。

9. Google Gemini大模型

Google Gemini大模型是Google推出的一款多模態(tài)大模型,它的定位、能力、特點和價格可以從以下幾個方面進行分析:

定位:

Google Gemini大模型被定位為能夠同時處理文本、圖像、音頻、視頻和代碼五種類型信息的人工智能模型,旨在提供全面的多模態(tài)處理能力,支持廣泛的自然語言處理和多媒體任務。它可以應用于搜索、廣告、Chrome等服務中,也可以用于開發(fā)者和企業(yè)客戶的各種應用場景中。

能力:

  1. 多模態(tài)處理能力:Gemini大模型具備同時處理文本、圖像、音頻、視頻和代碼五種類型信息的能力,可以實現(xiàn)不同模態(tài)之間的轉換和理解。
  2. 自然語言處理能力:Gemini在自然語言處理方面表現(xiàn)出色,包括文本分類、情感分析、問答系統(tǒng)等任務,同時支持多種主流編程語言的高質量代碼生成。
  3. 強大的推理能力:Gemini能夠在短時間內通讀大量論文并進行總結,展現(xiàn)出了強大的復雜推理能力。

特點:

  1. 原生多模態(tài):與之前的多模態(tài)AI模型不同,Gemini是原生支持多模態(tài)能力的AI模型,從一開始就在不同模態(tài)上進行預訓練,能更高效地使用AI模型的算力。
  2. 安全性評估:Gemini在發(fā)布時經過了全面的安全性評估,以確保其在實際應用中的安全性和穩(wěn)定性。
  3. 可擴展性:Gemini具有三個不同體量的模型,可以根據(jù)不同任務需求進行選擇和擴展。

價格:

關于Google Gemini大模型的具體價格,目前尚未有公開信息??紤]到Google通常將其AI技術通過Google Cloud AI平臺提供服務,預計其價格會根據(jù)使用量、模型大小和所需計算資源等因素進行計費。具體價格需要參考Google Cloud的官方定價頁面或聯(lián)系銷售代表獲取。

整體而言,該大模型的英文效果不錯,不支持中文。

10. 對比分析總結

1)百度文心大模型

  • 優(yōu)勢:語言大模型技術領先,中文處理能力強,有豐富的應用場景和生態(tài)。
  • 劣勢:對硬件要求較高,部署和運維成本較高。
  • 產品性能:高性能的自然語言處理能力。
  • 擅長領域:語言生成、語言理解、機器翻譯等。
  • 接入方式:API接入,支持多種編程語言。
  • 使用成本:中等。

2)百川大模型

  • 優(yōu)勢:模型規(guī)模大,能夠處理大規(guī)模的文本數(shù)據(jù)和復雜場景。
  • 劣勢部署和運維成本較高,對硬件資源要求嚴格。
  • 產品性能:高性能的自然語言處理和文本生成能力。
  • 擅長領域:文本摘要、內容生成等。
  • 接入方式:API接入,支持多種編程語言。
  • 使用成本:中等。

3)Minimax

  • 優(yōu)勢:技術實力雄厚,致力于開發(fā)AI解決方案,具有廣泛的應用場景和生態(tài)。
  • 劣勢:對硬件要求較高,部署和運維成本較高。
  • 產品性能:高性能的自然語言處理能力。
  • 擅長領域:語言生成、語言理解、機器翻譯等。
  • 接入方式:API接入,支持多種編程語言。
  • 使用成本:中等。

4)阿里通義

  • 優(yōu)勢:有著強大的云計算基礎設施,大模型定制化程度高,性能穩(wěn)定。
  • 劣勢:與外部生態(tài)的連接不夠豐富,應用場景有限。
  • 產品性能:高性能的自然語言處理和圖像處理能力。
  • 擅長領域:智能客服、智能推薦等。
  • 接入方式:API接入,支持多種編程語言。
  • 使用成本:中等。

5)訊飛星火

  • 優(yōu)勢:語音識別與生成技術領先,語音大模型應用廣泛。
  • 劣勢:語言大模型技術相對較弱,對文本長度和領域有一定的限制。
  • 產品性能:高性能的語音識別和生成能力。
  • 擅長領域:語音交互、語音轉換等。
  • 接入方式:API接入,支持多種編程語言。
  • 使用成本:較高。

6)OpenAI

  • 優(yōu)勢:在自然語言處理領域具有很高的聲譽和技術實力,有廣泛的應用場景和生態(tài)。
  • 劣勢:對硬件要求較高,部署和運維成本較高。
  • 產品性能:高性能的自然語言處理能力。
  • 擅長領域:語言生成、語言理解、機器翻譯等。
  • 接入方式:API接入,支持多種編程語言。
  • 使用成本:較高。

五、大模型橫向對比測試

1. 翻譯文章功能測試

專家審核結果:

邀請行業(yè)知名英文編輯老師查看翻譯質量的結論。

看了4家翻譯,每家都有錯。具體問題如下:

1)專有公司名都是錯的,都是按照字面翻。這是非特別訓練的數(shù)據(jù)的基本共同問題。

2)文字的基本語法是正確的。

但是不能達到專業(yè)新聞寫作的提供解釋性內容的要求。特別是百川的好些。

3)4個翻譯中,百川大模型中準確性最高,百度文心和訊飛星火并列。最差是OpenAI,把“盛美上海”譯為中芯國際的“SMIC”。

文中涉及的公司名,標準處理如下:

  • 中科共芯 (剛注冊,還沒有官網,用漢語拼音可以)
  • 盛美上海 ACM Research
  • 拓荊科技 Picotech
  • 中科飛測 Skyverse
  • 微導納米 Leadmicro

2. 通用問題測試

以下是10個通用的問題,它們覆蓋了不同的主題和領域,旨在幫助您測試大模型的語言能力:

這些問題旨在評估大模型在不同主題和領域內的知識理解、分析能力和語言表達水平。通過這些問題,您可以對大模型的語言能力進行全面而有效的測試。

問題1:什么是人工智能?請簡述其發(fā)展歷程和當前應用領域。

測試結果如下:

問題2:環(huán)境保護對于可持續(xù)發(fā)展為何重要?請談談您的看法。

測試結果如下:

問題3:描述一下互聯(lián)網如何改變了我們的生活方式和工作方式?

測試結果如下:

問題4:在全球化背景下,不同文化間的交流與融合有哪些積極作用?

測試結果如下:

問題5:請談談您對健康和健康生活方式的理解,以及它們對個人和社會的重要性。

測試結果如下:

問題6:教育對于個人成長和社會發(fā)展有何重要性?您認為教育的未來趨勢是什么?

測試結果如下:

問題7:科技進步如何影響我們的日常生活?請舉例說明。

測試結果如下:

問題8:旅行可以帶來哪些好處?請談談您最喜歡的旅行經歷及其對您的影響。

測試結果如下:

  1. 百川、MINIMAX、千問比較雷同;
  2. 百度和訊飛的回答風格比較類似;
  3. OpenAI的是最全面,并且最智能的,知道自己是虛擬助手。

問題9:您如何看待社交媒體在現(xiàn)代社會中的角色?它有哪些正面和負面影響?

測試結果如下:

問題10:請描述一下您對未來世界的展望,包括科技、環(huán)境、社會等方面的發(fā)展趨勢。

測試結果如下:

3. 測試結果小結

橫向對比回答,在每個問題上的表現(xiàn),表現(xiàn)比較好的打鉤√,表現(xiàn)稍微差一些的不標識。

小結:

  1. 通用問題是AI生成的。
  2. 測評打分主要是從回答的豐富度、完整等、深度,以及連接輸出的穩(wěn)定性上進行考察。
  3. 整體而言,Open AI的效果確實比國內大模型的表現(xiàn)要好一些。
  4. 國內大模型,在通用能力的語言理解和表達上,以百度文心和通義千問效果最佳。
  5. 訊飛星火的得分比較低,主要是因為在同一個問題上,回答的結構性,輸出的文字內容豐富度不夠其他家好,但是整體給出的回答也是不錯的。
  6. 結果只是相對而言,摻雜著作者的主觀感受,僅供參考。

4. 專業(yè)機構測評結果參考

SuperCLUE總排行榜(2023年12月)

可參考:

SuperCLUE十大基礎能力排行榜(2023年12月)

可參考:

分析小結:

  1. 在計算、邏輯與推理、代碼、語言理解和收取、生成與創(chuàng)作、上下文對話、角色扮演、工具使用、傳統(tǒng)安全等領域,GPT4-Turbo是表現(xiàn)最好的,其次是國內的文心一言4.0,千問等;
  2. 知識與百科,國內的大模型表現(xiàn)比較好。

六、調研總結對比

1. 大模型的分類及主要應用場景

目前國內主流使用的是大語言模型、CV視覺模型,以及一些行業(yè)應用的垂類模型。

2. 大語言模型的應用分類

3. 能力對比

4. 價格對比

七、大模型選型建議

1. 選擇一家供應商的方案

  1. 如果是“API接入”的方式,取通用能力,首選效果好的百川大模型、其次是百度文心大模型、阿里通義大模型;
  2. 如果是“API接入+微調+服務器”的方式,取生態(tài)好,有云服務的廠商,首選:百度文心大模型、阿里通義大模型;
  3. 如果是“API接入+微調+服務器+行業(yè)落地應用+AI工具”的方式,取通用能力強、生態(tài)好、產品矩陣豐富、有云服務的廠商、行業(yè)落地產品有實際案例的,首選:阿里通義大模型、百度文心大模型、其次訊飛星火大模型。

綜合來看,考慮企業(yè)的實際情況,最有可能選擇的供應商:阿里通義大模型、百度文心大模型。

2. 多家供應商并用的方案

  1. 通用大模型,可選:百度文心大模型、阿里通義大模型、百川大模型、訊飛星火大模型;
  2. 行業(yè)落地垂類模型,可選:阿里通義大模型;
  3. 更多AI工具接入,可選:訊飛星火大模型。

綜合來看,可采用API的方式接入:百度文心大模型、阿里通義大模型、訊飛星火大模型,局部AI能力購買百度或訊飛。

放棄微調,采用百度、阿里的垂類模型定制功能,可能成本更低一些。

3. 低成本提效的方案

如果成本考慮優(yōu)先、又希望效果比較,在目前用戶量和影響力還比較好的情況下,可采?。?/p>

  1. 通用能力接openAI 的ChatGPT3.5或ChatGPT4.0的模型。前提是合法合規(guī)。
  2. 放棄微調,購買定制開發(fā)垂類模型。
  3. 定向開發(fā)AI行業(yè)屬性應用工具

八、小結

本文調研的過程有其限制性,隨著時間的推移,大模型技術在不斷更新迭代,調研結果僅供參考交流使用。

在調研過程中受益最大的是本人自己,整體對各家大模型產品和效果進行了橫向比較和測試。通過實際試用和體驗,對國內大模型有了比較全面的了解。

專欄作家

Echo 產品論,微信公眾號:產品經理的邏輯與審美,人人都是產品經理專欄作家。10年產品經驗,多個0~1的完整產品經歷,前好未來智能學習內容產品專家,目前聚焦在AI領域,專研AIGC行業(yè)應用產品落地研發(fā),對產品的邏輯和審美有獨到的思考。

本文原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 個人感覺最新的智譜4.0要比文心和通義已經領先了

    來自浙江 回復
  2. 哈哈哈辛苦辛苦

    來自廣東 回復
    1. 1

      來自北京 回復
  3. 好多啊,花了不少時間吧,博主牛,感謝分享!

    來自福建 回復