亚洲经典一区二区三区,亚洲精品无码久久久久去Q,亚洲黄片在线

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

“百模大戰”，接下來該戰什么？

腦極體

2023-11-22

0 評論 736 瀏覽 2 收藏

15 分鐘

AI大模型所掀起的熱潮正在國內的AI行業中翻涌著，而在這場“百模大戰”中，我們或許需要弄清楚一些問題，比如“百模大戰”里，不同的賽道都在戰什么能力。這篇文章里，作者便做了分析和解讀，一起來看。

這兩天AI圈最熱鬧的消息，應該就OpenAI高層內訌，標志性人物、原CEO Sam Altman被董事會解雇，數位科學家和高層離職。

關于“政變”的原因，坊間有很多傳言，比如商業化和非營利原則的矛盾。總之，事件相關者在輿論場拉扯，吃瓜群眾則瞪大了眼睛看戲。這場風波會給全球AI研發，尤其是大模型帶來什么影響，還是未知數。

有人做了一個梗圖，大模型廠商亂成一鍋粥，只有賣卡的英偉達穩坐釣魚臺。

任它天邊云卷云舒，可以肯定的是，中國的AI大模型在取得廣泛成就的基礎上，會繼續向前發展，釋放產業價值，并且不會一味照搬海外，尤其是OpenAI的模式。

帶著這份淡定，我們將目光聚焦在國產大模型，會發現“百模大戰”熱潮中，還缺乏對各類大模型全面、分層、真實的能力評估。

通用大模型、行業大模型，都在比拼參數規模，但訓練數據質量不確定，僅憑參數，行業客戶和用戶也難以選對適合的大模型。

那么看榜單呢？基準測試benchmark和標準化數據集，可以針對性調優，榜單無法反映實際應用效果差距。

而且大模型在不同任務場景下，表現的區分度很大。一位開發者說，“現在就是告訴你都有哪些大模型，實際效果還是得靠自己測測看”。

據中國信通院的數據顯示，目前的大模型測試方法和數據集已有200多個。想要一個個測過來，會給用戶帶來非常繁重的工作量。

“百模大戰”亂花漸欲迷人眼，那么，除了“跑分”打榜和參數“碾壓”，還有什么辦法來真實且有效地評判一個大模型的水平呢？

有必要來聊聊，“百模大戰”，不同賽道都在戰什么？

一、大模型，不看高分看高能

所謂“百模大戰”，并不是每個大模型都在做著同樣的事。其中，既有想做基座模型basemodle的通用大模型，如百度的文心、阿里的通義、騰訊的混元、華為的盤古、訊飛的星火、智譜的ChatGLM等，也有面向行業、場景的垂直大模型，目前在金融、教育、工業、傳媒、政務等多個領域都大量涌現。

不同賽道的大模型，其核心競爭力也不一樣。比如一味拼算法的打榜，對于行業大模型來說，可以作為一種宣傳手段和“炫技”，但實際效果才是用戶最關注的。

目前不少開發者反映，各類大模型都存在各自的問題。

1.基座模型，本身能力有限制。

提到通用大模型，大家可能第一時間想到的就是推理能力，這也是大模型基準測試的主要指標。但在實際應用中，尤其是文科類型任務，大家不會沒事出“腦筋急轉彎”來測試通用大模型的邏輯推理能力，而是更希望大模型在復雜任務和上下文長度上，有更可靠的表現。

比如寫一篇演講文稿，篇幅一長就開始胡說八道或泛泛而談，文本的采用率下降；為AIGC配字幕，不能整篇生成，還需要人工將文案切割成片；編寫一個程序，半路開始network error……這些都是實際應用中，大家比較關注的通用大模型的能力。

2.行業大模型，領域壁壘難翻越。

“百模大戰”進行到當下，很多行業開發者和企業都意識到，獨有的數據和場景，才是自己的護城河，開始打造定制化的大模型，而領域知識不夠，難以形成滿足某一領域需求的行業向產品。

比如大模型與行業知識不匹配、許多行業know-how還沒有知識化、傳統的知識圖譜與大模型的協同設計等，知識計算的能力不夠強，就無法真正撼動領域壁壘，讓大模型解決實際的業務問題。

3.有用性，ROI是個謎。

大模型的實際應用效果難以評估，其中一個主要原因，就是模型生成結果的有用性（采用率、可用率等指標），涉及大量多模態數據。

金融、醫藥、交通、城市等產業中，存在著大量多模態信息，比如客服電話的語音、醫學影像圖片、傳感器數據等，大語言模型必須具備多模態理解能力，將多模態信息與語言進行綜合分析處理，才能保證較高質量的輸出。

在實際任務中，上述三種問題可能會同時存在，要同時解決。

一位醫藥專家告訴我，在研發醫學影像的算法時，就需要基座大模型在預訓練階段就具備多模態理解能力、醫學影像知識，可以執行通用任務。同時，行業側還需要根據知識設計目標函數，在特征抽取、相似性度量、迭代優化算法等，都要貢獻好各自的知識，才可能訓練出一個對醫務工作者友好的領域大模型，不需要專業知識，也不需要建模，就能上手使用。

就像工業革命的開始，是因為瓦特改良了蒸汽機。在此之前，蒸汽機早已被發明出來了，但一直沒有解決大規模高可用的問題，大模型也是如此。

大模型產業化，必須從基準測試的“跑高分”，向可信賴的“高能力”進化。

二、百模大戰，究竟在戰哪些能力？

從高分到高能，讓大模型具有與行業結合的可行性，也讓“百模大戰”正在進入新的階段。

從產業實際需求來看，可用且有效的大模型，至少應該具備幾個核心能力：

1.長文能力。

大語言模型的技術特點，被認為是“鸚鵡學舌”，將輸入信號拼湊成有一定語法結構的句子，也就是文本補全能力。而大模型都有“幻覺”，上下文窗口的長度增加，邏輯幻覺就可能越嚴重，“鸚鵡學舌”開始變得吃力。

在很多垂直行業應用中，如金融、法律、財務、營銷等，長文檔的分析處理和生成能力是剛需。

在長文中保持邏輯的連貫性、合理性，考驗著大模型的綜合能力，比如對復雜語句的理解及記憶能力，生成的可靠性，這也是大模型走向產業化的核心。

目前，無論開源、閉源大模型，都將長文能力作為一個核心競爭力。比如流行的開源大模型Llama 2，就將上下文長度擴展至 128k，而基于LLaMA架構的零一萬物的Yi系列大模型，此前曾宣稱拿下了全球最長上下文窗口寶座，達到200K，可直接處理40萬漢字超長文本輸入。閉源大模型中，GPT-4 Turbo支持了比ChatGPT更長的上下文（128k tokens），百度的文心大模型通過對話增強，提升上下文理解能力。

2.知識能力。

大模型“大力出奇跡”的模式，忽略了模型準確感知和理解注入知識的能力，目前已經凸顯了很多問題。比如不理解領域知識，在實際業務中表現不佳，無法滿足ToB用戶的需求。因此，當歐美科技公司依然在執著追求更大參數時，百度、華為等國內大模型廠商，開始轉向了行業場景，將強業務知識引入文心、盤古的行業大模型之中，來提升大模型在行業任務中的應用效果。

具體是怎么做的呢？以“行業知識增強”為核心特色的文心，是在預訓練大模型的基礎上，進一步融合大規模知識圖譜，挖掘行業應用場景中大量存在的行業特色數據與知識，再結合行業專家的知識，從大規模知識和海量數據中融合學習，把知識內化至模型參數中。

當用戶輸入問題時，文心4.0會拆解回答問題所需的知識點，進而在搜索引擎、知識圖譜、數據庫中查找準確知識，再將知識組裝進Prompt送入大模型。另一方面，大模型還將對輸出結果進行反思，從生成結果總結知識點，進而通過以上方式進行確認驗證，對結果差錯進行修正。

目前來看，在同等參數規模下，知識增強的深度語意理解，效果大幅超越了純粹用深度學習的方法，推理效率更高，并且可解釋性更強，更符合產業對可信AI的需求。

目前，知識+大模型還有許多細節有待解決，比如知識體系的構建，知識的持續獲取，知識應用和推理等，這些問題的攻克都會給行業認知智能帶來重大機會。

3.多模態能力。

2022年我參加華為云AI院長峰會，一位科學家提到，大模型有一個問題，就是有很多符號領域，大模型根本就不理解。他認為，大模型是數據與知識雙輪驅動的，雙輪驅動是未來人工智能發展的重要模式。

前面我們說了知識能力的重要性，那么“數據”究竟拼的是什么呢？就是多模態能力。

把大模型應用到領域的時候，會發現問題非常多，根本達不到預期的效果。一個主要原因，大語言模型完全是基于語言的，而真實世界的復雜任務，有大量的數值、圖表、語音、視頻等多模態數據，數據的多模態特性增加了模型處理、建模和推理的復雜性。

一位醫療模型的開發者告訴我，醫療任務分析非常繁雜，數量級很多，有不同模態、病種，每一種模態有不同的診療任務，要把文本、圖像等多模態包容過來，而醫療領域非常缺少多模態的預訓練模型。

大模型要在實際業務中達到與人更接近的能力，也需要跨模態建立統一認知。

舉個例子，AIGC生成營銷活動物料，根據文字描述生成圖像、視頻，既要精確理解提示詞的語義，還要符合領域規范，不能出現不合規的素材，同時要控制生成內容的質量，保持跨模態的語義一致性。

國產大模型在多模態領域也做了很多差異化探索，除了大家熟悉的以文生圖，在醫療影像、遙感、抗體藥物、交通等領域，跨模態技術融合也在快速開展，未來會是基座大模型和行業大模型的亮點。