大模型混戰,誰將成就AI時代的“新地基”?
隨著ChatGPT的破圈,掀起了一場AIGC浪潮,國內外紛紛開始布局,發布自己的大模型。那么,在這匆匆發布的背后,是真的技術成熟,還是魚龍混雜?各個大模型的實力又是怎樣?本文將從語言大模型、算力與技術底座與具體應用層面狀況三大角度,分析各大模型。
自2022年stable diffusion模型的進步推動AIGC的快速發展后,年底,ChatGPT以“破圈者”的姿態,快速“吸粉”億萬,在全球范圍內掀起了一股AI浪潮,也促使了眾多海外巨頭競相發布屬于自己的大模型。
而在國內,實際上很久之前,阿里、華為、騰訊等公司便早已有所布局:2019年,阿里開始布局大模型研發,去年9月發布“通義”大模型系列的眾多大模型;華為在2021年基于昇騰AI與鵬城實驗室聯合發布了鵬程盤古大模型;而騰訊的思路也與阿里相似,發布了混元AI大模型;第二梯隊的京東、網易、360、字節跳動等企業,也紛紛官宣了自己在AI大模型方面的布局。
而進入2023年以來,隨著文心一言的發布,成為了中國第一個類ChatGPT產品后,各家的大模型也紛紛亮相,一時間,國內仿佛陷入了“大模型之戰”中。
截至目前,百度文心大模型、華為盤古大模型、商湯大模型、阿里大模型都已亮相,而后還有許多大模型正在準備粉墨登場。
那么,在這匆匆發布的背后,是真的技術成熟,還是魚龍混雜?各個大模型的實力又是怎樣?
本文將從語言大模型、算力與技術底座與具體應用層面狀況三大角度,來分析和研究目前已經發布的大模型的技術基礎、應用場景和用戶生態,看看哪些大模型更有可能在這混戰中成功突圍。
一、ChatGPT不該止于C端
ChatGPT,作為最早出圈的大模型產品應用,其問答的流暢程度與準確程度,可以很好地體現NLP模型的水平。而目前,國內廠商百度、阿里也都發布了類似模型,那么,相比之下,文心一言與通義千問的表現如何?
首先是最近對話式AI們經常出現的一個典型問題,面對自己知識庫中沒有,或本身就是錯誤的提問時,仍能對著錯誤描述侃侃而談,簡稱一本正經的胡說八道。
于是,我先問了通義千問這樣一個問題:你知道唐僧為什么要上梁山嗎?
通義千問在思考后,給出了這樣的回答:它首先簡單對唐僧進行了介紹,然后將其帶入了《水滸傳》中宋江的角色,但最后卻又回到了《西游記》中,還講“這一情節體現了唐僧的堅定和決心,也反映了他作為一個有信仰的人物的形象?!?/p>
而同樣的問題給了文心一言,卻得到了一個更加簡短但同樣荒謬的答案:唐僧上梁山的原因是因為他被迫出走,被唐朝通緝,無路可走,只能上梁山。
本次測試中,通義千問與文心一言都犯了同樣的錯誤,不過,在我指正之后,通義千問也進行了積極地認錯,展現出了良好的連續問答能力,而文心一言則并沒有“聽懂”我的指正。接下來,我又問了它們一個經典的數學問題——雞兔同籠,“雞兔同籠,頭共10,足共28,雞兔各幾只?”
通義千問在得到提問后,快速做出了回答,為我列出了計算該問題所需要的方程式,還貼心地在后面備注上了方程式的由來。
而文心一言就顯得更加直接,回答了我的問題。
而在這兩個問題之外,我還讓它們兩個一起編寫了代碼、賞析了詩詞、撰寫了文章。總的來說,在面對用戶提出的問題時,通義千問與文心一言在絕大多數情況都可以給出較為正確的回答,在面對C端用戶的提問時,兩個產品顯示出了不相上下的實力。
而在C端的勢均力敵之下,阿里卻祭出了同類競品難以比擬的B端服務能力。
通義千問在C端用戶之外,專門針對企業用戶發出了邀請共測,企業可基于通義千問打造專屬大模型,在企業專屬的大模型空間中,既可以調動通義千問的全部能力,也可以結合企業自己的行業知識和應用場景,訓練自己的企業大模型。
具體而言,除了通用場景之外,企業由于業務特性的不同,對于大模型服務有特殊需求和要求,希望讓通用的大模型變成企業專屬的大模型,支撐企業各式各樣的應用與服務。
阿里云希望通過產品化的方式,滿足企業專屬大模型從生成到部署全生命周期的需求。
在發布會當天,阿里云就宣布將與OPPO安第斯智能云聯合打造OPPO大模型基礎設施,基于通義千問完成大模型的持續學習、精調及前端提示工程,未來建設服務于其海量終端用戶的AI服務。同時,中興通訊、吉利汽車、智己汽車、奇瑞新能源、毫末智行、太古可口可樂、波司登、掌閱科技等多家企業也表示,將與阿里云在大模型相關場景展開技術合作的探索和共創。
或許,在競爭激烈的C端之外,面向企業端的大模型構建能力,才是通義千問真正的優勢所在。
而相關專家也在交流中表示,通義千問將會在企業各自深耕的領域中為他們提供構建大模型方面的幫助,帶來更好的生態系統與商業模式。
二、大模型背后的算力之爭,誰占先機?
縱觀國內發布的大模型,可以發現,相對于國外尖端的AI企業來說,國內還像是蹣跚學步的孩童,在這條道路上剛剛起步。而在大模型發展的道路上,最重要的實際上還是最基礎的算力資源的多少與怎樣利用算力的能力,那么國內頂尖大模型企業在算力上的儲備幾何?
首先是近日同樣發布了大模型的商湯科技,在前段時間的交流中,商湯科技內部的相關專家對公司的算力情況進行了交流。
國內能拿到最尖端的顯卡是來自英偉達的A100 GPU,商湯科技在美國對華禁售之前,便提前囤積了上萬張A100芯片,是國內算力資源比較充足的廠商。
除了來自英偉達的顯卡之外,商湯還在采購國內的GPU,并且專家表示,早在去年以前,就已經在大裝置中適配了許多寒武紀與海光信息的GPU卡,但在當下商湯仍舊面臨著如何將國產GPU卡進行大模型訓練適配的問題。
在商湯之外,華為的盤古大模型也引起了眾人矚目,但在算力資源方面,華為卻略顯窘迫。
因為受到美國的長期制裁,華為只得使用全部國產的加速芯片,而目前昇騰系列最先進大幅使用的型號昇騰910,也只有A100 70%的性能,從長期來看,將會制約大模型的發展。
而算力的短缺也直接影響了華為的發展策略,選擇性地放棄了C端的發展,主攻B端工業大模型應用。
而說起算力資源儲備最多的企業,莫過于云時代中獨占鰲頭的阿里。
但從阿里云上的角度來看,當前云上至少擁有上萬片的A100 GPU,從整體來說,阿里云的算力資源至少能夠達到10萬片以上。如果繼續抬眼,從整個集團的算力資源來說,將會是阿里云5倍的這樣的一個量級。
而在英偉達的芯片之外,阿里云也擁有眾多國產化的GPU芯片,而最近的項目中,便選擇了寒武紀MLU370,其性能基本過關(A100的60-70%),檢測合格,廠商態度積極,愿意與阿里對接,并且已經用在了CV等小模型的訓練和推理上。
在2023年,阿里云算力資源的增速也將達到30%-50%。
得益于云時代的絕對領先,讓阿里擁有了遠超其他企業的算力資源,也讓其在AI時代里天生就占得了上風。
但是,動輒超千億參數的大模型研發,并不能靠簡單堆積GPU就能實現,這是囊括了底層算力、網絡、存儲、大數據、AI框架、AI模型等復雜技術的系統性工程,需要AI-云計算的全棧技術能力。
而阿里是全球少數在這幾個領域都有深度布局、長久積累的科技公司之一,也是為數不多擁有超萬億參數大模型研發經驗的機構。
在AI算法方面,阿里達摩院是國內最早啟動大模型研究的機構之一,2019年便開始投入大模型研發,在中文大模型領域一直處于引領地位,2021年阿里先后發布國內首個超百億參數的多模態大模型及語言大模型,此后還訓練實現了全球首個10萬億參數AI模型。
在智能算力方面,阿里建成了國內最大規模的智算中心“飛天智算平臺”,千卡并行效率達90%,自研網絡架構可對萬卡規模的AI集群提供無擁塞、高性能的集群通訊能力?;陲w天智算的阿里云深度學習平臺PAI,可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍,覆蓋全鏈路AI開發工具與大數據服務,深度支持了通義大模型的研發。
阿里云全棧AI技術體系,更是從機器學習平臺、大模型即服務、產業智能三個層面,不斷豐富AI服務,并通過全棧技術驅動千行百業的AI發展與應用。
可以說,阿里在云時代的成功,在一定程度上延續到了AI時代,與那些算力資源相對不足的競爭者來說,阿里在算力與技術底座方面,有著無可比擬的巨大優勢。
三、大模型帶來業務集合式飛躍
在擁有了算力資源與技術底座后,大模型能力若想要普惠大眾,觸達到每一個人,就需要應用層面的生態建設,而這,也正是眾多廠商“刺刀見紅”的戰場,眾多廠商也依據企業發展的不同,做出了不同的選擇。比如,華為盤古大模型,受算力資源不足與公司業務導向的影響,選擇了指向B端的打法。
在盤古大模型發布會上,華為沒有著墨于NLP模型,而是著重強調了CV大模型與科學計算大模型的應用范例。
盤古CV大模型主要應用于智能巡檢、智慧物流等場景。
例如,在與能源公司合作的盤古礦山大模型中案例中,礦井現場是一個40米長的采掘機,寬度僅2米左右,傳統相機很難一下子捕捉到全部畫面,只能用圖中的九宮格視頻畫面。而通過5G+AI全景視頻拼接綜采畫面卷,傳輸到地面,地面工作人員將來可以實現地面控制機器進行采礦,實現礦下無人少人安全作業。
而盤古氣象大模型,也在氣象預測方向上超過了傳統數值的計算方法。
盤古氣象大模型在氣象預報的關鍵要素和常用時間范圍上精度均超過當前最先進的預報方法,同時速度相比傳統方法提升 1000 倍以上。如在臺風路徑預測任務上,相比傳統數值氣象預報方法,盤古氣象大模型可以降低 20%以上的位置誤差。
而對阿里而言,其在國內領先的大模型能力與眾多的業務板塊,讓阿里大模型在各個領域都能一展拳腳。
阿里云智能集團CEO張勇在峰會上表示,阿里巴巴所有產品未來都將接入“通義千問”大模型,進行全面改造,包括天貓、釘釘、高德地圖、淘寶、優酷、盒馬等。
以阿里起家的電商賽道來說,大模型就有許多應用場景。對商家而言,大模型最切合實際的應用場景莫過于智能客服。隨著電商行業逐漸成熟,消費者對服務質量的要求日益提高,客服這個崗位有著極為巨大的降本增效需求。
而經過通義千問的改造后,能聽懂消費者的話、明白消費者訴求的聰明客服機器人也將上線,將基于機器學習、大數據、自然語言處理、語義分析和理解等多項人工智能技術,為消費者提供最優質的服務。
對于平臺而言,大模型可以有效提升用戶的購物體驗。比如,用戶可能有時不清楚自己的明確需求,但通過與AI導購員交流,可以得到相當多的指引信息以及購物清單,比如開一個生日party需要哪些方面的準備,化妝需要購買哪些工具等。
在電商場景之外,接入通義千問后的辦公場景,也將實現多項全新功能。
例如在釘釘文檔中,可借助通義千問自動配圖、創作文章、撰寫郵件、生成方案;在會議中,可以完成記錄、總結、生產待辦事項;甚至還能幫助總結未讀群聊信息中的要點……
可以說,無論是對B端的企業還是C端的用戶,只要有阿里系產品存在的地方,在接入通義千問后,其智能水平與易用水平,都將快速提升一個檔次。而對阿里來說,作為國內最大的商業集團之一,有了通義千問的加持,得到的提升將不會僅僅局限于某個業務線或是某個方向,而將是整體實力的飛躍。
寫在最后
AI大模型的浪潮,開啟了一個新的時代,將所有的互聯網廠商都重新拉到了同一起跑線上。在2023阿里云峰會上,阿里巴巴集團董事會主席兼CEO、阿里云智能集團CEO張勇也說出,“面對AI時代,所有產品都值得用大模型重做一次?!?/p>
而在一切應用重建后的AI時代里,核心競爭力究竟是什么?也成為了廠商們需要思考的首要問題。
在我看來,堅實的算力基礎與良好的用戶生態,將成為AI時代里成功的兩個必要條件。
而國內,誰擁有最多高端算力資源與強大的算法進化能力,在這場大模型之戰中,就有著其他企業無法比擬、得天獨厚的優勢。
作者:自己做電商的小兵,編輯:釗
來源公眾號:奇偶派(ID:jioupai),講述商業故事,厘清商業邏輯,探索商業模式
本文由人人都是產品經理合作媒體 @奇偶派 授權發布,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!