百“?!被鞈?/h2>
0 評論 3225 瀏覽 0 收藏 16 分鐘

目前,人工智能前沿的爭論之聲還未消散。一些業內人士認為,AI大模型最有價值的地方是通用性強,但現階段它能不能真的通用于千行百業呢?這還是一個值得爭論的問題。本文作者對AI大模型提出了一些見解和看法,推薦給對人工智能感興趣的童鞋們閱讀。

“面向AI時代,所有應用都值得用大模型重做一遍。”

4月11日的2023阿里云峰會上,阿里巴巴集團董事會主席兼首席執行官、阿里云智能集團首席執行官張勇的這句話其實有些給他人作注之嫌,APUS創始人李濤曾說過一句更提振人心的話:幾乎所有行業,都值得被人工智能重做一遍。

隨后,阿里云智能首席技術官周靖人正式宣布推出大語言模型“通義千問”。他介紹稱,通義千問是一個超大規模的語言模型,功能包括多輪對話、文案創作、邏輯推理、多模態理解、多語言支持,能夠跟人類進行多輪的交互,也融入了多模態的知識理解,且有非常強的文案創作能力,能夠續寫小說,編寫郵件等,可以極大增加我們的工作效率。

隨著阿里AI大模型——通義千問的正式亮相,以及百度、華為、360等互聯網頭部企業前后腳推出自己的AI大模型,屬于AI,又或者說是屬于AI大模型的時代到來。但究其根源,大模型在ChatGPT的破圈效應下引發大廠們小步快跑進場,也只是冷飯熱吃。

早在2018年,谷歌便提出超大規模預訓練語言模型BERT,2020年,OpenAI推出GPT-3超大規模語言訓練模型,參數達到1750億,用了大約兩年的時間,實現了模型規模從1億到上千億級的突破,并能實現作詩、聊天、生成代碼等功能。

2021年,國內大廠也感受到了大模型的東風,華為云發布盤古NLP超大規模預訓練語言模型和盤古α超大規模預訓練模型、阿里達摩院發布十萬億參數的多模態大模型M6、以及百度也推出了如今文心一言的前身——ERNIE 3.0 Titan。如果說大模型的元年,其實2021年可能更合適。

總的來說,這一階段的大模型還充滿著“等風口”的階段,只是彼時的AI大模型尚欠缺商業模式的落地支撐,例如盤古NLP模型在面世之初便確定了自己to B的定位,直至ChatGPT憑借出色的交互以及開放性測試在全球掀起AI狂潮。

于是大廠們紛紛撿起自己的復現成果,調用起云業務中閑置的算力,亦步亦趨地追趕,希望能夠后發先至。

一、泛濫的大模型

OpenAI為大家找到了產品落地之路,引發一眾大廠一哄而上。

本輪“狂飆”下的第一個玩家是百度,百度本身浸淫搜索領域、中文垂類知識多年,掌握大量高質量通識數據,而且早在2010年便成立了自然語言處理部,本就是大廠中最早探索AI的一批,如今也是最早推出了類GPT應用文心一言。

4月以來,大模型井噴,入場者接連發布大模型的新聞消息應接不暇。

4月9日,360在2023數字安全與發展高峰論壇上發布類GPT大模型“360智腦”,周鴻祎親切地稱其為“剛生出來的孩子”。4月10日,自學術圈走進商界的AI獨角獸商湯科技對外發布了“日日新SenseNova”大模型體系,推出自然語言處理、內容生成、自動化數據標注、自定義模型訓練等多種大模型及能力并提供實機演示。

4月11日,阿里在2023云峰會上發布“通義千問”大模型并向社會企業開放使用,邀請企業參與共創自己的大模型。發布會上,張勇在宣布將阿里系應用接入大模型重做時,炫富式地展示了阿里系那令人眼花繚亂的商業應用,完善的APP矩陣與數字商業積累顯然成為大模型訓練的基石。

緊隨其后的騰訊“混元”大模型與華為的“盤古”大模型,一個把守著豐富的社交場景與信息流數據,另一個也手握智能硬件的高頻流量,而且兩者都通過云服務的市場地位獲取了極富商業價值的數據資產。

無論好壞,即使是“剛生出來的孩子”也要“抱出來給大家看”,眾大廠趕鴨子上架式的密集發布大模型,怎么看都有點飛蛾撲火的意思。

首先,構建大模型是很難迅速產生商業價值的。參考大模型渴望復現的openAI,盡管在微軟的投資下,其公司估值越來越高,但至今仍未實現盈利。芯片、能耗、數據資產等剛性成本也將隨著入場者的增加水漲船高。在行業“乍暖還寒”、降本增效的當下,將寶貴的現金流投進AI的無底洞,未必是一個好主意。

其次,大模型并非通往強人工智能的唯一道路。隨著數據不斷增長,算力持續提升,優化手段越來越好,模型也會越來越大。無數人工神經元分層排列,而參數量描述了神經元之間連接強度的可調值。模型的預訓練就是在已知文本的基礎上不斷重復執行并調整這些參數,以便算法下次做得更好,也就是我們所說的“調教”。

只是堆砌再多文本,AI習得的語言模式也無法讓其真正誕生邏輯思維,模仿不了數學推理。目前亦步亦趨在ChatGPT3.5之后的大模型們也將遭遇前者的困境。既然不是為了AI功能性的升級,那么耗費海量算力與“鈔能力”的目的也顯而易見,ChatGPT為我們拉開了AI大模型商業化落地的大幕,緊隨其后上臺的人當然要賺上同樣的吆喝。

正如微軟向OpenAI投資100億美元,將GPT全面接入自家應用一樣,讓浩如江海的中小企業通過自己的大模型來打造屬于相應的中小模型,是OpenAI昭示的商業落地路徑。大模型的井噴是這條路徑的復現,遵循著相同范式——花大錢做“費力不討好”的大模型,爭取市場地位。

這一范式實際上也不新鮮。打個比方,在數字化時代下的應用需要一個操作系統,微軟憑借Windows占據PC頭把交椅,即使后來者創造了無數使用體驗更好的產品,也難以動搖微軟的地位,因為這些產品的開發都基于Windows這個操作系統。

而智能化時代同樣需要操作系統,在OpenAI進不了國門的前提下,市場自然會尋求替代品,如今的大模型之爭本質上是下一代操作系統之爭。面對當下國內大模型噴涌,APUS李濤認為,“所有人在爭大模型的本質,實際上是爭操作系統的話語權,一旦誰能控制,就會獲得最大的商業回報”。

在他看來,中小模型對應商業場景,因此中小企業應致力于此;大模型對應行業標準,獲取話語權意味著主導未來生態。

AI浪潮前,我們共同經歷數字化,平臺作為流量的集中入口,主宰移動互聯網商業的變現能力。AI浪潮下,我們共同經歷智能化,大模型作為操作系統,主宰云上的業務和應用。誰都想成為下一個谷歌和微軟,但過程想必不會輕松。

算力、場景、文本的堆砌歸根結底是一個錢字,飛蛾撲火中的玩家們有享受燒的過程的、有燃燒自己照亮他人的、當然也有向往光明的。

正如李開復所言:“AI 2.0時代已經到來,會誕生比移動互聯網大10倍的機會?!?/p>

二、大模型的主航道在哪?

More is different。

AI大模型或許還不是無所不能,但在要素的堆砌下,大模型無疑能兼容更多的場景和領域。如果說大模型的第一步是通用于各行各業,那么第二步飛躍便是在垂類場景中降本增效。

既然目標是星辰大海,玩家們手中怎能缺了惡魔果實?

算力是AI發展的基礎三要素之一,是訓練AI進行海量數據的重復多輪處理的能力。據OpenAI測算,2012年開始,全球AI訓練所用的計算量呈現指數增長,平均每3.43個月便會翻一倍,目前計算量已擴大30萬倍,遠超算力增長速度。GPT的迭代便足以直觀呈現算力需求的井噴,GPT-3模型參數量有1750億,是GPT-2的100余倍。下一代GPT-4模型的參數量雖未公布,但業內人士預測其參數量足有上萬億。

公開信息顯示,GPT-3大模型需要訓練355個GPU/年,假設企業以一個月為期限訓練自己的大模型,將需要4260個AI加速卡方可讓產品面世。而這只是參與游戲的“入場券”需求,更重要的是通用大模型在垂類場景中展現的效能,而效能源自于大模型在高價值文本下的不斷訓練。

換言之,誰手里掌握更多、更有價值、更普世的場景與數據,誰做出來的大模型更好。

首先我們得恭喜在移動互聯網時代中把握巨大流量入口的企業們,社交、電商、搜索等人們日常生活中不可避免的應用所產生的數據,具備讓大模型to C商業化落地的可能。其次我們還要恭喜數據庫廠商,各類垂直數據庫不可避免地成為大模型眼中的香餑餑,只是多個數據庫間不互通以及模型導入、存儲、使用等問題還有待解決方案。

三、大模型是唯一的正確道路?

AI模型一定是越大越好嗎?

知名期刊《Nature》就此議題采訪了多位專家,并發表了名為《In AI,is bigger always better?》的研究,一些科學家認為,更大的模型只是在回答訓練數據相關范圍內的查詢上變得更好,并不能獲得回答全新問題的能力。

人工智能前沿的爭論之聲未消,但目前的通用大模型并不能真的通用于千行百業。一位業內人士認為,大模型最有價值的地方是通用性強,例如可以支持數以萬計,甚至十萬計的小模型。

大模型雖好,卻是一門昂貴且需要耐心的事情。為了大模型的規模效應,巨量算力成本背后的芯片與電力消耗已然成為掣肘AI進一步發展的鎖鏈。而且以目前訓練大型語言模型所涉及的數據、計算能力和費用來看,只有擁有超大計算資源的公司才能做到。

以谷歌與柏林大學合作研發,用來和GPT3打對臺的PaLM為例,5400億的恐怖參數下,研究人員測算其訓練一次的成本便上千萬美元,谷歌自己在訓練PaLM的兩個月內便耗電3.4千兆瓦時,這相當于大約300個美國家庭一年的能源消耗。

即便谷歌稱其所耗能源構成有89%為清潔能源,但目前國內主流發電形式仍是火電和“看天吃飯”的水電。

芯片方面,由于目前國產自研芯片最高端水準的14nm芯片只能覆蓋云計算算力需求而無法覆蓋AI算力需求,大模型構建同樣面臨“卡脖子”問題。大模型算力需求的英偉達GPU芯片一方面成本高昂,單塊1萬美元到2萬美元的售價反映在大模型構建上,便是數十億美元。國內大模型玩家還能騰出多少閑置芯片來訓練大模型?例如阿里的存糧能給大模型勻多少量還是一件值得深究的事情。

再者是,目前的中國企業與個人并不是非大模型不可。即使忽視大模型真的面向千行百業后,在訓練上將產生的巨額功耗與成本,我們也不能忽視目前諸多垂類行業數據稀缺、邏輯難以被AI所理解模仿的現狀。

而且,程序員們一定知道多任務、多線程可是會互相打架的。按照張勇在阿里云峰會上提出的“用大模型重做各個應用”,用各行各業具有沖突性的數據訓練,不一定能提高垂類行業使用模型的效能。在參數猛增的情況下,精度未必能一直持續上漲,即使是Transformer架構,也具有它的極限。

相同大模型“賦能”之下的同質化人才同樣不具備競爭力,而是被AI覆蓋的“時代的眼淚”。相反,如果AI能成為個人的個性化化身,是放大自身能力的小模型,說不定還能在被大模型覆蓋的世界中殺出一條血路。

那么能不能用大模型對小模型蒸餾,讓大模型學習小模型的成果呢?目前這一做法面臨大小模型架構差異的問題,如何順暢互通還是未知數。

不論AI的未來是more is different還是less is more,通用大模型的“通用”二字還是要打上一個問號。

撰文:吳坤諺;編輯:王 潘,來源公眾號:光子星球(ID:TMTweb),細微之處,看見未來!

本文由人人都是產品經理合作媒體 @光子星球 授權發布,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App

評論
評論請登錄
  1. 目前還沒評論,等你發揮!