從WAIC2024看人工智能三大趨勢:智能體、具身智能、算力風暴

0 評論 1857 瀏覽 8 收藏 19 分鐘

隨著2024年世界人工智能大會(WAIC2024)的召開,我們得以窺見人工智能領域的三大趨勢:AI智能體的興起、人形機器人商用的臨近,以及國產算力的突破。這些趨勢不僅標志著技術進步的新里程碑,也預示著人工智能將如何深刻地影響我們的未來。

短短10天內,上海連續舉辦兩個全球性重要展會——世界移動通信大會(MWCS2024)和世界人工智能大會(WAIC2024),無論瓢潑大雨還是烈日當空,AI都在魔都掀起一陣科技“颶風”。

馮·諾伊曼說:“技術的不斷加速進步,將會引發人類歷史上某個關鍵的奇點?!睆?018年首屆世界人工智能大會拂曉初現的“人工智能新紀元”曙光,到如今第七屆WAIC的召開,我們已然佇立在奇點的門檻之上,比以往任何時候都更貼近那個改寫歷史的瞬間。

透過WAIC2024的透鏡,我們清晰看到AI的三大趨勢。

趨勢一:“百模大戰”第二幕,大模型應用元年開卷AI Agent

與一年前的WAIC相比,今年的“百模大戰”名副其實,中國電信的“星辰”、阿里的“通義”、百度的“文心”、騰訊的“混元”、商湯科技的“日日新”、云知聲的“山?!薄⑷斯ぶ悄軐嶒炇业摹皶薄瓗缀趺總€展臺都有自己的“大模型”。

在“卷”了一年參數量級、可支持上下文token數、推理價格等等之后,AI Agent(AI助理/AI智能體)拉開了“百模大戰”的第二幕。

今年入選WAIC鎮館之寶的支付寶智能助理,便是一款基于螞蟻集團百靈大模型研發的AI Agent,用戶在支付寶首頁下拉就能喚起“小助理”,問一問就能獲得出行、健康、政務、金融等領域超8000項數字生活服務。

“同門師兄”阿里云的“通義for everyone”則集成通義大模型全棧能力,以通義千問最新基礎模型為基座,整合通義實驗室前沿的文生圖、智能編碼、文檔解析、音視頻理解、視覺生成等能力,最終形成一個All in one的全能AI助手。

在“騰訊元器”展區,參會嘉賓可以通過添加提示詞、插件、知識庫等自由創建智能體(AI Agent),也可以在智能體商店選擇、使用智能體,以滿足不同場景下的需求。

除了這些針對個人用戶的“AI 助手”,作為大模型從通用走向垂直應用的重要“抓手”,AI Agent也出現在各類行業大模型中。

“為B端客戶打造一個AI Agent的過程,更像是一個打通企業流程、全面治理數據、重塑業務架構的契機。”中國電信大模型首席專家劉敬謙告訴《IT時報》記者,只有深入理解行業特性和場景需求,才能打造出真正實用的AI Agent,實現技術的有效落地。

與微軟在Windows 11中創建的Copilot(助手)不同,AI Agent更強調服務的協同性以及對自然語言的認知程度。

OpenAI對AI Agent的定義是以大語言模型(LLM)為大腦驅動,具有自主理解、感知、規劃、記憶和使用工具的能力,能自動化執行復雜任務的智能體。它具有獨立思考和行動能力,不僅能夠處理信息,還能根據環境變化自主學習和適應,以實現特定的目標或解決特定的問題。

不久前蘋果剛剛發布的“Apple Intelligence”,便是一個整合操作系統、軟件、模型和數據,強化對應用場景的理解,深刻洞察用戶需求的AI Agent。

第一個為AI Agent歡呼的大佬是比爾·蓋茨。早在1995年出版的《未來之路》一書中,他便描述過這種可以理解用戶自然語言并根據對用戶的了解完成多種任務的Agent,但直到ChatGPT橫空出世,才讓他看到了真正可實用AI Agent出現的可能。

在比爾·蓋茨看來,AI Agent將徹底顛覆人與機器的交互方式。可預見的未來是:智能手機上都會有一個AI Agent,它將集合手機中所有數據,滿足用戶隨時隨地的需求;它將是企業的“AI程序員”,協助開發人員完成從編碼、測試、升級應用到故障排查、安全掃描和修復、優化云資源等繁瑣重復的工作;或者是公司的“數據分析員”,自動匯集分析企業所有數據,挖掘數據金礦價值,員工則只要用自然語言與AI Agent對話,便可以獲得相關業務數據和答案,例如公司政策、產品信息、業務結果、代碼庫、人員等。

螞蟻集團董事長兼CEO井賢棟也在本屆人工智能大會上表示,如同移動互聯網時代App是典型應用一樣,在人工智能時代,智能體將成為新的應用范式,為用戶帶來服務代際的升級,而專業智能體是大模型落地產業的有效路徑。醫療、教育、金融、制造、交通、農業等各行業領域,未來都有可能依據自己的場景和特有經驗、規則、數據等等,生成數以百萬量級的智能體,形成龐大生態。

然而,并不是所有的AI Agent都天然擁有強大的能力。AIGC時代,每個企業都不想錯過紅利,但每個企業也都在問:AIGC究竟能給自己帶來什么?讓生成式人工智能應用和助手真正發揮作用,它們必須了解組織的數據、客戶、運營和業務,但如今的許多助手都無法輕松個性化,而且它們的設計也無法滿足公司所需的數據隱私和安全要求。

事實上,AI Agent高度依賴基座大模型的能力、貫通整個企業體系架構的工程能力、研發者對行業的理解以及高質量的數據支撐,以上任何一個條件缺失,都有可能使AI Agent只是看起來很美好,實際使用中卻因為不夠“專業”,導致應用無法落地。

“應用是未來大模型決戰的主要戰場,”在騰訊云副總裁、騰訊優圖實驗室負責人吳運聲看來,目前幾乎所有大模型廠商都在智能體領域做進一步技術嘗試,模型以落地、實用為先,大模型的研發應用必須關注和解決具體業務場景,關注可用性和性價比。

趨勢二:具身智能扎堆繁榮,人形機器人進入商用前期

今年WAIC的鎮館之寶做了一道“大菜”——“十八金剛 人形機器人先鋒陣列”,網羅了中電科、復旦大學、達闥、傅利葉、鈦虎、星動紀元、卓益得、開普勒、宇樹等18個國內領先的機器人產品,著實讓觀眾體驗了一回什么叫“具身智能元年”。來自主辦方的數據顯示,本屆大會合計展出的人形機器人超過25款。

1950年,“計算機之父”圖靈(Alan Turing)在他的論文中首次提出“具身智能”概念。嚴格意義上,機器人、工業機器人、擬態機器狗、智能網聯車,都是“身”,但人形依然是人類接受度最高的機器人形態。

從硬件條件上看,不少人形機器人已經具備相當高的肢體靈敏度。比如,人形機器人(上海)有限公司自主研發人形機器人“青龍”,身高185cm、體重80kg、全身多達43個主動自由度,手指可以輕拿輕放杯子,即便是柔軟的面包,也能在抓起時保證面包外形的完整性。

上海開普勒探索機器人有限公司的通用人形機器人,身高175cm,體重70kg,全身具備40個關節自由度、80多個傳感器,具備復雜地形行走、智能規避障礙等多種功能。

國家地方共建人形機器人創新中心總經理許彬一直有一種略帶激進的看法:具身智能是通往通用人工智能的必由之路,而且只有人形機器人才能實現通用人工智能,核心邏輯是人類社會存在的所有數據,都是為了讓人類更好地生存和發展,所有對世界的理解、認知和情感的數據,都是基于人體產生,而貓或魚等其它生物本體,不可能感知到人類世界的各個方面。

至少在現階段,具身智能尚不完全具備對物理世界的認知和交互能力,尤其是目前類GPT模式的大模型,在用于具身智能時,效果并不理想。

一家國產人形機器人創始人透露,之前曾將GPT-4V的圖像接口接入機器人,但大模型對物體的空間認知能力非常差,而且“記憶力”只有一秒。全球人工智能頂級科學家李飛飛也認為,大模型不具備知覺,參數再多也不行。

“我們需要構建一種‘知識+數據’驅動的智能模型,”中國工程院院士、同濟大學校長鄭慶華創新性地提出“知識森林”理論,將大模型中的碎片化知識與人類已有的知識鏈融合,從而生成具有可解釋推理的問題求解機制。

上海人工智能實驗室主任、首席科學家周伯文也認為,具身智能絕不僅僅是大模型加機器人的應用,而是大模型接收物理世界的反饋從而進化,“光靠看書或看視頻,永遠學不會游泳,你得親身扎到水里才能學會。大模型得通過機器人,扎進現實世界,才能真正理解物理世界?!?/p>

世界模型是當前具身智能領域最熱門的詞語。人工智能實驗室構建了“軟硬虛實”一體的機器人訓練場——浦源·桃源,同時攻關具身智能的“大腦”與“小腦”。“浦源·桃源”是首個城市級具身智能數字訓練場,構建了集場景數據、工具鏈、具身模型評測三位一體的開源具身智能研究平臺。作為大模型與機器人的連接層,涵蓋89種功能性場景、超10萬高質量可交互數據,有望解決領域內數據匱乏、評測困難的問題。  

在大腦方面,人工智能實驗室通過具身智能體自身狀態認知、復雜任務分解分配、底層技能協同控制三方面創新,實現了大模型驅動的無人機、機械臂、機器狗三種異構智能體協同。在小腦方面,通過GPU高性能并行仿真和強化學習,可以高效實現機器人在真實世界里快速學習,并完成高難度動作,現在單卡1小時的訓練就能實現真實世界380天的訓練效果。

盡管完美匹配智能本體的世界模型還未出現,但具身智能近兩年的發展已經遠超從業者預期。

不久前,特斯拉CEO馬斯克在年度股東大會上表示,特斯拉將于2025年開始“限量生產”Optimus(擎天柱)人形機器人,明年特斯拉將有上千臺在運行的Optimus機器人。達闥更是在現場預售起具身智能人形機器人XR4,價格39.9萬元起。

宇樹科技CEO王興興認為,最遲明年年底之前,全球范圍內一定會出現比人跑得快的人形機器人,“比如說100米跑進10秒,在體育項目和文藝演出上,人形機器人比做家務應該更得心應手?!?/p>

許彬對技術的迭代速度樂觀地判斷道,未來3~5年,人形機器人可以在一些工廠智能制造產線運行,未來5~10年可以在家庭服務等場景運用。

趨勢三:多路徑破局“鐵幕”,國產算力“春意浮動”

由AI帶來的算力風暴,還有被美方拉下的“科技鐵幕”,使算力芯片成為近幾年WAIC上備受關注的焦點。

2022年WAIC期間,更是正面遭遇美國宣布對華斷供英偉達高端芯片。如今,兩年過去,當美國不斷收緊芯片政策時,國產算力開始顯露出一絲春天的綠意。

“從今年開始,萬卡將是AI模型訓練主戰場的標配?!?月3日,國產芯片廠商摩爾線程創始人兼CEO張建中宣布,夸娥(KUAE)智算集群解決方案向萬卡萬P萬億參數通用算力集群升級,以全功能GPU為底座,打造能承載萬卡規模、具備萬P級浮點運算能力的國產通用加速計算平臺,為萬億參數級別的大模型訓練提供平臺。

截至目前,至少已有兩家國產芯片廠商實現了單池萬卡集群的能力,為我國自主可控的AI大模型攻堅建立了關鍵基礎設施。

新型異構算力架構也在嘗試解決算力規?;y題。無問芯穹推出的千卡規模異構芯片混訓平臺,采用“MxN”方案,M層是大模型,N層是各種國內外芯片,可以通過算子優化、自動編譯、不同芯片耦合等技術一鍵部署模型,支持Baichuan2、ChatGLM3、Llama2、Qwen系列等20多個模型,在AMD、華為昇騰、天數智芯、沐曦、摩爾線程、NVIDIA等六種異構芯片上混合訓練,算力利用率最高達97.6%。

無問芯穹希望解決國內AI領域存在的“生態豎井”難題,雖然不同芯片組成的算力構成了集群,但在生態邏輯上,整個軟件棧并不能夠很好地協調和打通。無問芯穹構建的是一個AI Native基礎設施,可以適配中國獨特的多模型、多芯片生態格局,將多種異構算力構建成大系統,快速完成大模型的訓練和推理。

受限于芯片禁令,國內在單池超大規模集群建設上面臨困境,只有幾個互聯網大廠和電信運營商有芯片儲備和技術能力,而根據大模型的Scaling Law(尺度定律),至少在現有路徑上,更多的算力才能造就更多的智能涌現。

電信運營商也開始尋找另外的方向,以網強算?!拔覀円呀浽趯嶒炇覍崿F了百公里內的并池計算?!眲⒕粗t告訴記者,為了突破單池算力限制,中國電信正在嘗試利用400G/800G的超高寬帶將兩個位于不同區域的實驗室,無損高速連接起來,同一個預訓練任務可以同步部署在兩個相隔百公里的實驗室里,而且連續訓練時長與在同一個物理數據中心內訓練相當,“下一步,我們還將在京滬兩個單池萬卡群間進行超高速直連測試”。

一旦實驗成功,將大大緩解國產大模型的“算力焦慮”。GPT-4模型有2萬億參數和8萬億token,10000顆英偉達H100,需要訓練三個月,換成最新的超級芯片BX200,10000顆芯片只需要10天。而受限于產能,目前能夠穩定供貨萬卡以上的國產芯片并不多。如果數據中心間網速能夠幾乎等同于數據中心內部高速互聯,此前全國各地零散建設的地方智算中心,將可被有效利用。

多路徑破局“鐵幕”的嘗試,讓國產算力和國產大模型的春天悄然而至。

作者:IT時報記者 郝俊慧

編輯:孫妍

本文由人人都是產品經理作者【IT時報】,微信公眾號:【IT時報】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!