大模型戰爭:智能體成關鍵,刷榜風光不在
隨著2025年被視為智能體落地的元年,智能體技術正逐漸成為市場上的新熱點。這篇文章深入探討了智能體在實際應用中的關鍵作用,以及它們如何重塑商業模式和軟件架構。
智能體采購,正在成為市場熱點。
“如果說2023年項目中標主要圍繞智算中心、模型中臺建設,那么從今年下半年起,眾多客戶的招標內容全都轉向應用,且越來越細分。” 眾數信科聯合創始人汪中告訴數智前線,智能體開始走上臺前。
智能體已成為客戶、大模型企業以及各類服務商關注的核心故事。甚至一家企業能把智能體做好,就能越過大廠,成功中標。
對于大模型企業而言,智能體技術及工具鏈的支撐能力已成為基本要求。若在這方面表現欠佳,大概率難以與其他模型競爭。單純靠刷榜體現的優勢,如今已很難得到客戶認可。
不過,業界對于智能體的定義、涵蓋的具體內容,尚未達成共識。有人認為OpenAI 推出的 GPTs 是智能體;也有人認為,只有能調用工具的才算是智能體。從形式上說,不管對話機器人還是各種形式的大模型應用,從廣義上都屬于智能體范疇。
但有一點是業界公認的,那就是智能體必須能切實解決業務問題,至少在降本增效方面要有 10 倍、20 倍的提升,才能獲得客戶認可。因為業界越發意識到,大模型模式更難實現商業閉環,單純的燒錢模式基本難以為繼。
而業界這種認知,不僅重構了軟件架構,甚至在促使大模型生態企業重塑了商業模式。正如王堅博士所說,AI 不應被視為工具的革命,而應被當作革命的工具。
01 “客戶要求10倍~20倍效果”
“你說電商直播數字人好,那你就幫我賣東西。一單二三十元,我分你兩元?!睆氖律墒紸I虛擬人研發的中科深智CTO宋健告訴數智前線。在電商領域,今年客戶在購買工具時變得格外謹慎,他們更傾向于按照效果付費,采用分潤或CPS(按銷售付費)模式。宋健預測,到明年,他們的直播電商數字人客戶可能 100% 都會采用這種模式。
“國內外智能體存在很大差異。國外可能仍類似于傳統 SaaS 模式,只是利用智能體重構了以往的軟件架構。” 宋健表示,國內的情況則更為激進一些,在一些競爭激烈的行業,比如電商領域,不僅重構了軟件架構,還重塑了商業模式。
這是因為客戶關注的是智能體能否切實解決問題。“無論是降低成本還是提高效率,綜合起來至少要有 10 倍、20 倍的提升才行?!?宋健進一步解釋道。
“客戶現在對大模型技術已經祛魅了。”眾數信科汪中向數智前線坦言,這些客戶從之前單純的基礎性采購,轉變為以應用效果為導向,要求智能體在降本、提效或拓展新業務方面創造價值。
“客戶不關心你是怎么實現的,只要看效果?!蓖糁姓f。目前行業內的采購模式通常是,技術廠商先迅速為客戶進行一個 PoC(概念驗證)場景驗證,雖然語料范圍可能較小,交互形式也較為單一,但要證明能夠完成客戶場景中的業務邏輯,并運用客戶專屬的業務知識。之后,客戶才會啟動采購流程。當然,他們也愿意為這些創新投入一定成本。
眾數信科最近做的一個PoC是氣象部門的緊急預警方案助手。廈門每年都會遭受臺風侵襲,氣象部門預測后,需要向港務局、城管等多個部門發送應急通知。這些應急報告原來需要4個專家花費3個小時才能完成。PoC的演示效果顯示,借助助手,只需1位專家1小時就能完成,效率大約提升了12倍。
在另一個案例中,原本無法實現的事情,現在成為了可能。
在高校學生培養計劃中,存在大量評測維度。如果依靠現有的編程技術,針對上萬乃至數萬學生,只能進行一些通用評測,很難實現個性化定制。在這個案例中,針對課堂環節,多個智能體協同合作,實現了創新。例如,有的智能體負責轉錄授課語音,有的進行授課水平的分析對比;有的生成隨堂小測試卷,有的現場批改試卷;還有的針對每個學生的薄弱點,進一步推薦學習材料…… 因此,在學生評價系統中,新增了多個評測維度。
“每一步背后都有智能體的支撐?!?汪中總結道,隨著基礎模型能力的發展,智能體的能力和形態更為豐富,已經初步具備協同的基礎。汪中說,他們在實踐中認識到,每個智能體都要扮演一個人類的社會角色,進行社會化分工并有產出,進而有可能形成群體智慧。智能體不再是單一的工具,未來也不僅僅是單個超級智能體的出現。
為了達到這樣的狀態,智能體需要具備三個主要特征:能夠進行交流和理解;依據反饋和結果進行反思和自我規劃;與外部能力單元,如業務系統、其他智能體、工具級應用等進行互動和協同。
在智能體落地應用過程中,客戶從購買產品向購買服務的轉變趨勢愈發顯著。智能體與以往信息技術的不同之處在于,它需要持續優化和調整,而目前客戶完全依靠自身力量實現這一點,還存在難度。汪中發現,以規模在200萬元左右的項目為例,后續每年服務費的占比已從傳統信息化項目的 10%~15% 提升到 25%~30%。
而在競爭更為激烈的電商領域,變化更是翻天覆地。宋健注意到,電商直播數字人的迭代速度已經以天計。一旦從銷售工具轉變為提供服務,涉及的環節會變得極為繁雜。例如,需要密切關注平臺的各種規則及其調整變化;之前那種研發、產品和業務相互分離的模式已經行不通了,現在必須協同作戰,技術人員要深入一線,每天查看數據、分析運營情況,進行優化迭代;當優化措施不再奏效時,要果斷更換產品、調整客戶群體?!癈PS 模式的優勢就在于,各方更容易達成共識?!?/p>
02 生態全都動起來了
在智能體的落地巨變中,雖然大廠仍是當下的主要推動者,但人們認為,由于智能體更看重對客戶需求的響應,未來行業智能體的產出來源主要將是兩類玩家:
一類是有AI原生能力的服務商。另一類則是行業傳統信息化服務商。智能體的落地并非易事,核心技能有業務場景遴選、知識萃取、智能體訓練和編排。如果不了解業務場景以及大模型的能力邊界,那么在技術響應、經驗和效率上就會非常低。這需要人工智能人士和業務人士的雙向奔赴。
而大廠在這一過程中,將扮演生態鏈普及角色。百度、阿里、字節、騰訊等大廠均推出了一站式智能體開發平臺。他們走的是標準路線,目的是降低智能體落地門檻、應用廣度和深度。比如,無論百度、智譜還是浪潮云,最近發布的新品,都在關注用智能體接管手機等設備的能力,實現一些擬人化操作。
“大家目前都在基于自身大模型,構建整體的智能體生態?!盜DC中國高級分析師楊雯告訴數智前線,差異在于各家應用場景、數據積累不同,發力的優先場景和方向選擇也有所不同。業界觀察,這些企業在智能體支撐策略上差異也較大:
業界反饋,百度生態布局上覆蓋較全,有基礎模型,APP builder、Agent builder平臺,也有對應的硬件如一體機,可直接在客戶機房中部署。百度也支撐聯合方案開發,定制化產品適配。業界分析,這與李彥宏號召業界不卷模型、卷應用有關。
一些人士建議,千帆平臺可以加強除文心之外的商業化模型納管,并支持更多常見互聯網服務的插件開發。
在智能體方面,今年11月,百度推出工具流Agent。“Agent去年一出來特別火,但很快一盆冷水潑下來,大家發現很難用起來。我們的客戶里,90%是RAG,10%是Agent?!鼻Х獳ppBuilder產品負責人朱廣翔告訴數智前線。因為要完成一個企業級任務,可能需要幾步甚至更多,如果每一步準確率是95%,多步驟下來,衰減將非??臁K鼪]辦法支撐長思考和推理。采用工作流方式,專家把流程描述好,Agent就會穩定很多,會更加落地。
阿里的通義千問模型能力在國內較強、反饋好,其開源模型在業界應用較多。阿里更多通過云端形態支撐應用,私有化支撐較少。這可能與阿里云的“AI驅動、公共云優先”戰略有關。在智能體產品方面,阿里通義實驗室新推出了自適應規劃的多模態檢索智能體OmniSearch,能模擬人類,將復雜問題逐步拆解進行智能檢索規劃。
字節目前在大力推廣扣子私有化部署產品,即今年8月推出的HiAgent企業專屬AI應用創新平臺。與年初打響大模型價格戰異曲同工,這次仍通過價格戰,搶占市場。不過,它目前還不搭配模型,即字節豆包模型還沒有私有化;不做應用,沒有硬件,嘗試基于HiAgent平臺教會客戶去搭建Agent應用。它的打法和支撐條件還有待體系化,這與其剛剛啟動大模型私有化業務線不無關系。
而騰訊在智能體上的布局,也和其在大模型落地上優先賦能自身產品矩陣的“全家桶”策略類似,更加關注與自身擁有龐大流量的自家產品的結合。比如今年9月,騰訊元器上線的新功能,就支持公眾號運營者自主打造專屬智能體應用,在公眾號內提供陪伴、互動、答疑、知識交流等智能化功能,目的是提升用戶體驗和公私域運營效率。
除了大廠,“AI六小虎”的智譜AI最近不斷更新智能體技術。智譜的優勢在于科研能力較強,一些開發者反饋,其模型的某些性能,超過了通義千問。但目前生態方面的支持還有待加強。
在前不久召開的智譜Agent OpenDay上,智譜CEO張鵬表示,Agent可以看作是大模型通用操作系統的雛形,理論上,可以將其推廣到手機端、PC端、車端等各類智能設備上,實現基于大模型的互聯互通。
“將來的智能體,一定是跨系統操作的,這是0跟1的區別,而不是60分和70分的區別?!币晃毁Y深行業人士觀察,跨系統、跨App的能力,目前已成為兵家必爭之地。
中國電信在今年9月開始智能體平臺的開發,近期展出了星辰智能體應用平臺。中國電信相關人士告訴數智前線,目前針對政企的標桿項目正在打造之中。
雖然大廠動作不斷,但業界期望他們支撐智能體的速度要更快?!澳壳暗乃俣葻o法跟上廣泛的客戶需求。更多業務邏輯沒有充分體現,也就是客戶專屬知識與大模型技術的結合問題,這也是業界在落地上非常關注的。這側面說明,大模型企業向客戶方向靠攏,尚需一個過程。
03 智能體,何時爆發?
智能體的大方向已成,但何時能夠真正爆發?
多位行業人士均向數智前線表示,這很大程度取決于模型能力的發展及市場教育進程。
“我們有一個簡單判斷,GPT5什么時候能出來,會是一個很直觀的對標時間點?!北姅敌趴坡摵蟿撌既送糁姓f。
智譜AutoGLM 技術負責人劉瀟也告訴數智前線,去年智能體還只能滿足用戶10%-20%的預期,用戶就不太愿意買賬,今年達到了50%-60%,一些用戶開始意識到這件事情有用,而當智能體能滿足用戶70%-80%的預期時,應用鋪開的速度將非??臁K袛啻竽P湍芰_標大概還需半年。
中科深智CTO宋健則表達了不一樣的觀點。他認為,Agent要真正爆發,必須真的滲透到行業里頭,但To b鏈條的爆發,“明年應該還到不了特別大的規模”。
IDC中國高級分析師楊雯也告訴數智前線,于B端來說,若無法徹底解決大模型的幻覺問題,達到100%的精準度,大規模應用仍然難以實現。智能體爆發,預計可能要1至1.5年時間。
“目前而言,智能體仍處于市場混戰階段,距離成為終極入口標準還有一定的路程。”楊雯說。
但不可否認的是,面向這一確定的方向,處在智能體爆發前夕的玩家們,無一例外,都在通過各種工程化的能力和一系列技術,彌補模型能力不足,提前搶占先機。
“我們測試過大量基礎模型,它們的Function Call能力在10個工具里去選,還是比較準的,一旦超過10個,準確度就大幅衰減,但在實際的應用場景中,執行步驟大概率都超過了10個,為了更好的實現業務可控性,我們首創了基于狀態機的智能體workflow(工作流),在保證智能體自規劃、自治性能力不受影響的前提下,實現業務的精準可控?!蓖糁姓f。
智譜劉瀟也透露,他們正通過更好的強化學習策略,讓智能體能夠執行更長的步驟操作。
業界目前也都在研究工作流?!罢驗橛辛斯ぷ髁?,我們發現雖然只增加了一層,但是Agent的落地增長就非常快,能看到很快到兩成?!卑俣戎鞆V翔說,預測明后兩年,Agent會逐漸超過RAG應用,因為RAG場景較少,只是問答;但Agent可以實現客服、營銷、企業調度、一站式平臺,天花板更高。
有行業人士認為,智能體的應用可以至少分為從低到高三個應用層級,目前市場上已經出現不少初級應用和中級應用,高級應用則還需進一步實現。
比如豆包、kimi、文小言等,被認為可以看作是最為初級的智能體。它們具備簡單的語言交互和任務理解能力,聽得懂人話,能夠根據指令,去執行一些簡單的操作。“目前絕大多數的智能體是單智能體的初級應用,包括很多GPTs,能夠簡單的做問答等任務執行?!盜DC楊雯說。
中級應用還要更深一層,展現形式已經脫離單純的Chatbot形態,不再僅僅是對話框模式,規劃能力和復雜度也進一步提升,使用的工具不再是聯網搜索、天氣查詢等簡單插件,而是需要有對應場景內的專業插件和能力,能完成更復雜的場景任務。
“比如智能客服,就是非常典型的一個Agent應用,比以前可能會有10倍甚至20倍的一個變化,現在我們接到的很多電話,其實都是新的Agent打出來的,你跟它聊半天,可能還以為它是個真人?!彼谓≌f,而且,與傳統客服相比,軟件設計也變得更加簡便。
“第三個級別,也是我們現在在努力去實現的。它除了更豐富的交互形態,能夠完成復雜任務,還會額外再增加兩個標簽?!蓖糁懈嬖V數智前線。
其一是能夠了解場景背后的業務邏輯和知識脈絡?!八赡懿辉倌敲赐ㄓ茫膶I性更強。而如果沒有,它還會主動去尋求這些行業知識的支撐?!?/p>
其二,從插件和工具的使用能力上來說,它能夠讀懂現有的業務系統,將現有的業務系統作為其能力插件來源的一部分,而不再只能使用為它定制的插件。
汪中舉例說,他們正在與船舶貨運公司進行港務調度助手的研發試點,在他看來就是一種高級應用。
一艘船靠岸后,往往需要進行卸貨、轉運、洗艙、船員登記、物資補給等大量工作,原來這些工作主要靠人工去安排和調度,再登記進入車輛管理系統、補給管理系統等對應的若干個系統里,給到對應的執行單位執行。而現在,客戶提出,希望用AI智能體來幫助現場員工,在繁雜的信息流和工作流中,由智能體進行初步的信息收集、分析、業務建議,成為現場員工的“數字同事”。
當然,更高級的應用,仍然有賴于模型能力和工程化能力的提升。
撰文|趙艷秋 周享玥????????????????????????????????????????????????????????????? 編輯|?;??????????????????????????????
本文由人人都是產品經理作者【數智前線】,微信公眾號:【數智前線】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!