摸著石頭過河的具身智能公司,正在尋求“確定性”
在種種不確定因素之下,對(duì)于具身智能,唯一可以確定的是,其未來巨大的市場(chǎng)空間。從紛紛入局的科技巨頭、創(chuàng)業(yè)公司的市場(chǎng)現(xiàn)狀即可窺見一二。而類比到自動(dòng)駕駛,其也是拋開層層迷霧后才得以在今天看見曙光。?
相信,于具身智能而言,站在如今大模型和自動(dòng)駕駛的臂膀上,其成熟期將來得更快。?
“具身智能注定會(huì)成為最具價(jià)值的AI應(yīng)用,未來還可能會(huì)改變我們與科技的交互方式。”
2024年5月,英國自動(dòng)駕駛獨(dú)角獸Wayve完成了10.5億美元C輪融資,這也是英國史上最大規(guī)模的AI融資,本次融資方除了老股東微軟,還有新入局的軟銀集團(tuán)和英偉達(dá)。值得注意的是,上述正是Wayve聯(lián)合創(chuàng)始人兼CEO在完成融資當(dāng)天寫下的一句話。
令人好奇的是,為什么一家自動(dòng)駕駛公司要在融資當(dāng)天提到具身智能,甚至還極為看好?不僅如此,仔細(xì)研究融資方還能發(fā)現(xiàn),在不少具身智能公司里,都有英偉達(dá)的身影,比如年初的Figure。
實(shí)際上,從自動(dòng)駕駛到具身智能,每一個(gè)前沿AI領(lǐng)域都少不了英偉達(dá)的參與。那么,自動(dòng)駕駛與具身智能究竟有何關(guān)系?
如果說,“自動(dòng)駕駛的存在是取代司機(jī),那么具身智能的存在就是替代整個(gè)人類?!碑?dāng)然,這只是跟隨如今互聯(lián)網(wǎng)風(fēng)格的一種狹隘理解。自動(dòng)駕駛與具身智能的真正相似之處是,從技術(shù)到底層邏輯的相似。而一種更好的理解則是,既然2024是自動(dòng)駕駛的商業(yè)化元年,那么同樣地,它也見證了具身智能的“元年”。
據(jù)南方都市報(bào)統(tǒng)計(jì),從2023下半年至今,與具身智能概念相關(guān)的公司,已有12家實(shí)現(xiàn)融資。而更夸張的是,華為天才少年“稚暉君”辭職后創(chuàng)立的智元機(jī)器人,過去一年時(shí)間就完成6輪融資,估值一路飆升至70億元。
具身智能賽道的瘋狂還不止于此,從馬斯克到AI知名學(xué)者李飛飛,從英偉達(dá)、OpenAI甚至到國內(nèi)幾乎所有互聯(lián)網(wǎng)大廠,全部紛紛涌入具身智能賽道,用腳投票一致看好這個(gè)如今AI大模型加持下的機(jī)器人產(chǎn)業(yè)。
然而,這個(gè)看起來波濤的賽道,如今真的如此光明嗎?擺在它前方的,究竟是何種機(jī)遇和挑戰(zhàn)?
一、2024,機(jī)器人開始有了人的“身體”
回溯過去70多年人工智能的歷史長河中,有幾個(gè)極為關(guān)鍵的標(biāo)志性事件,其中一件就發(fā)生在70年代的日本。1964年,日本早稻田大學(xué)教授加藤一郎開始潛心研究人工下肢 ,五年時(shí)間,世界上第一個(gè)雙足機(jī)器人WABOT-1誕生。
這個(gè)當(dāng)時(shí)行走一步要45秒,步伐也僅有10厘米左右的機(jī)器人馬上就引起了全世界的轟動(dòng),要知道,彼時(shí)的人工智能才剛剛起步,從操控到感知,一切都還處于探索初期。因此,WABOT-1的問世則也標(biāo)志著整個(gè)人工智能發(fā)展史上的一個(gè)重要里程碑。
不僅如此,世界上第一個(gè)雙足機(jī)器人在日本誕生后,對(duì)于抓住了先機(jī)的日本,汽車和電子制造業(yè)的崛起也隨之而來。而在機(jī)器人領(lǐng)域,日本更是占據(jù)了整個(gè)機(jī)器人產(chǎn)業(yè)的半壁江山。
盡管早在70年代人形機(jī)器人就有了“雛形”,然而從自然語言到操控、感知、決策等等人工智能領(lǐng)域的關(guān)鍵性技術(shù)都未有突破,這也導(dǎo)致在過去很長一段時(shí)間,關(guān)于人形機(jī)器人的發(fā)展也不得不按下暫停鍵。
而此后的機(jī)器人領(lǐng)域則開始圍繞著“非人形”機(jī)器人展開,比如工業(yè)場(chǎng)景里常見的機(jī)械臂。可以說,由“ABB、庫卡KUKA、發(fā)那科FANUC和安川電機(jī)YASKAWA”組成的機(jī)器人“四大家族”,地位至今都難以撼動(dòng)。
如果說當(dāng)年,世界上第一個(gè)人形機(jī)器人的誕生對(duì)后續(xù)的人工智能發(fā)展,發(fā)揮了至關(guān)重要的作用;那么今天,人工智能領(lǐng)域的重大突破,同時(shí)也讓停滯不前的“人形機(jī)器人”產(chǎn)業(yè)重新 找回屬于自己的光環(huán)。
據(jù)不完全統(tǒng)計(jì),在AI大模型風(fēng)口上的2023年,單單是以“人形機(jī)器人”或“具身智能”概念入局的創(chuàng)業(yè)公司就有24家;而到了今年,截至2024年8月,這條賽道共聚集了29家創(chuàng)業(yè)公司。
在這其中,不僅有一年內(nèi)連續(xù)融資6次,估值達(dá)70億人民幣的智元機(jī)器人,更有不少被阿里、騰訊、華為、美團(tuán)等“選中”的初創(chuàng)公司。
而在過去這一年,資本的瘋狂也再一次證明了人形機(jī)器人的“覺醒”:據(jù)IT桔子統(tǒng)計(jì),2023年中國一級(jí)市場(chǎng)機(jī)器人行業(yè)融資金額達(dá)240億元,單筆十億元量級(jí)以上投資事件約4起。
在2024年世界人工智 能大會(huì)上,一場(chǎng)“人形機(jī)器人盛宴”讓其火熱程度更加具像化。
而與此同時(shí),在海外,這場(chǎng)盛宴則要更為壯觀,從特斯拉的“擎天柱”(Optimus)到今年3月刷屏的Figure AI,再到英偉達(dá)的人形機(jī)器人通用基礎(chǔ)模型GR00T,可以說,對(duì)于這些逐夢(mèng)AI的硅谷科技企業(yè)而言,它們對(duì)人形機(jī)器人的追逐和野心,以及害怕錯(cuò)過(FOMO)的焦慮,無一不暴露在這場(chǎng)盛宴之下。
同樣地,作為走在AI前沿的國內(nèi)科技企業(yè),也并沒有人想錯(cuò)過入局人形機(jī)器人的最佳時(shí)間點(diǎn)。
對(duì)此,一些自身有大模型能力的科技大廠,選擇的是投資,并以大模型賦能機(jī)器人的方式入局這一新賽道,如華為、百度、騰訊、阿里、字節(jié);甚至一些有硬件研發(fā)基礎(chǔ)的企業(yè)不惜重金自研入局,如科大訊飛、小米。
而另一些更聚焦實(shí)際場(chǎng)景的科技企業(yè)則是用投資的方式,更垂直、也更有針對(duì)性地為特定場(chǎng)景打造屬于他們的人形機(jī)器人,如美團(tuán)、小米。
2023年,有鹿機(jī)器人聯(lián)合阿里云通義千問共同發(fā)布了具身智能大模型LPLM-10B;同年12月29日,人形機(jī)器人第一股“優(yōu)必選”正式登陸港交所,騰訊成為優(yōu)必選最大機(jī)構(gòu)股東。而就在最近,北京銀河通用機(jī)器人有限公司也完成了7億元的天使輪融資,其中投資方就包括了美團(tuán)。
上述種種信號(hào)都在表明,在科技企業(yè)、創(chuàng)業(yè)公司、老牌機(jī)器人廠商等等參與者的合力之 下,人形機(jī)器人正在一步步走向產(chǎn)業(yè),走向有著千家萬戶的現(xiàn)實(shí)世界。
二、通用機(jī)器人之前:人形機(jī)器人的形態(tài)之爭(zhēng)
從1970年的世界首個(gè)人形機(jī)器人到以機(jī)器人四大家族為首的非人形機(jī)器人,再到今天重新覺醒的人形機(jī) 器人,為什么一有“機(jī)會(huì)”就會(huì)發(fā)展人形機(jī)器人?而機(jī)器人又為何必須是“人形”?人形機(jī)器人的魅力究竟在哪?
對(duì)此,產(chǎn)業(yè)各界都給出了不同的解釋。更為感性的說法是,機(jī)器人的形態(tài)越像人,就越符合大眾對(duì)機(jī)器人的幻想,這也是為什么科幻電影中的機(jī)器人大多都與真人無異。
但如果站在更為理性和客觀的角度,機(jī)器人之所以是人形,實(shí)際上是為了更符合人類對(duì)一個(gè)全能、通用機(jī)器人的期待。UniX AI創(chuàng)始人兼CEO楊豐瑜告訴產(chǎn)業(yè)家,“我更愿意將人形機(jī)器人稱之為通用的具身智能機(jī)器人。當(dāng)機(jī)器人進(jìn)入到L5階段,只需一個(gè)通用的機(jī)器人即可完成掃地、洗衣服、取快遞等全部家務(wù)?!?/p>
因此,一個(gè)更好的理解便是,無論是目前的人形機(jī)器人,還是具身智能,他們都是為了走向未來的通用機(jī)器人。而至于機(jī)器人的形態(tài),究竟是人形還是非人形,是雙足還是輪式,目前業(yè)界可以分為三個(gè)派別,分別是激進(jìn)派、溫和派和保守派。
首先是身為激進(jìn)派的馬斯克,在6月的特斯拉股東大會(huì)上,其宣稱將于明年量產(chǎn)1000臺(tái)雙足人形機(jī)器人Optimus。
相比之下,國內(nèi)一眾機(jī)器人創(chuàng)業(yè)者則較為溫和。比如,銀河通用所發(fā)布的GALBOT就是一個(gè)身高173CM的輪式雙臂人形機(jī)器人,再比如,上半年剛成立的UniX AI,已發(fā)布并即將量產(chǎn)的Wanda也同樣是輪式雙臂機(jī)器人;而與此同時(shí),據(jù)產(chǎn)業(yè)家了解,雙方公司都在默默研發(fā)雙足人形機(jī)器人,并正在著手解決相關(guān)技術(shù)難題。
而對(duì)于機(jī)器人的形態(tài)問題,也有不少“保守派”不認(rèn)可或不看好雙足。
在這其中,最為典型的兩個(gè)代表,一個(gè)是獵戶星空,其董事長兼CEO傅盛認(rèn)為,“雙足機(jī)器人目前很難成功商業(yè)化,如果落地到產(chǎn)線上工作,沒有三五年根本不可能?!绷硪粋€(gè)則是知名人形機(jī)器人公司Sanctuary AI,其創(chuàng)始人Geordie Rise則是最近在X平臺(tái)上發(fā)文稱,“幾乎所有工作都更適合在有輪子的環(huán)境下完成”,甚至又補(bǔ)充道,“雙足人形機(jī)器人是愚蠢的”。
然而,在如今這場(chǎng)機(jī)器人的形態(tài)之爭(zhēng)下,無論是雙足還是輪式,大家的終點(diǎn)都只有一個(gè),即通 用機(jī)器人。
三、從技術(shù)路線到場(chǎng)景,具身智能企業(yè)“摸著石頭過河”
簡(jiǎn)單來理解通用機(jī)器人,就是既會(huì)做飯、洗衣服,又會(huì)打掃衛(wèi)生、取快遞,而這也就意味著機(jī)器人需要能夠更 好地掌握真實(shí)的物理世界。
“在此之前,上一代的機(jī)器人并沒有環(huán)境感知能力,其單純依靠外圍設(shè)備的節(jié)拍信號(hào)驅(qū)動(dòng)來執(zhí)行固定運(yùn)動(dòng),也沒有智能可言;而未來的人形機(jī)器人則一定是具身大模型+通用的人形機(jī)器人,兩者缺一不可?!便y河通用向產(chǎn)業(yè)家表示。
而這也就詮釋了為什么具身智能,或人形機(jī)器人的風(fēng)口出現(xiàn)在如今大模型的浪潮之下。
從整個(gè)人工智能的發(fā)展角度來看,AI大模型為機(jī)器人領(lǐng)域所帶來的是更強(qiáng)大的感知能力。 在銀河通用看來,這種強(qiáng)感知能力是建立在“大參數(shù)模型和巨量數(shù)據(jù)展現(xiàn)出來的智能,它能將長任務(wù)拆解成短任務(wù),再將短任務(wù)拆解成機(jī)器人的運(yùn)動(dòng)”。
在機(jī)器人領(lǐng)域,一個(gè)最大的難點(diǎn)便是缺乏與物理世界的真實(shí)數(shù)據(jù),而得不到這些數(shù)據(jù),就無從對(duì)機(jī)器人進(jìn)行訓(xùn)練;即使是互聯(lián)網(wǎng)上得到的信息,在過去也很難根據(jù)這些信息進(jìn)行擴(kuò)展,并使機(jī)器人更好地理解世界。
而大模型則很好地解決了這一問題。在楊豐瑜看來,如今的大語言模型已經(jīng)實(shí)現(xiàn)了視覺語言上的智能涌現(xiàn),這就意味著,通過互聯(lián)網(wǎng)上的數(shù)據(jù),機(jī)器人的感知已經(jīng)出現(xiàn)了相當(dāng)強(qiáng)的泛化,因此能夠更好地理解真實(shí)的物理世界。
實(shí)際上,除了具身智能,被大模型隨之帶火的還有自動(dòng)駕駛。像開篇提到的英國自動(dòng)駕駛獨(dú)角獸Wayve在融資當(dāng)天,不惜花大量筆墨描繪了一個(gè)屬于“具身智能”的未來,類似的言論也同樣出現(xiàn)在不少機(jī)器人公司的內(nèi)部。
其中,銀河通用在對(duì)具身智能的詮釋中就提到,“具身智能是一個(gè)相對(duì)寬泛的概念,像自動(dòng)駕駛、掃地機(jī)器人,嚴(yán)格意義上來說都屬于具身智能,當(dāng)然也包括我們今天在做的擁有具身大模型,能主動(dòng)干活的人形機(jī)器人。”
此外,關(guān)于自動(dòng)駕駛與具身智能的相似性,UniX AI創(chuàng)始人楊豐瑜則進(jìn)行了更具象的類比,“如今的具身智能,其實(shí)更像2015、2016年的自動(dòng)駕駛,仍然處于缺少真實(shí)數(shù)據(jù)的階段。而如果以L0-L5幾個(gè)階段來詮釋,目前大多數(shù)具身智能公司都在L0到L4的過程中,而到真正的L5則還有一段距離。具體而言,L4狀態(tài)指大多數(shù)場(chǎng)景下,機(jī)器人可以完成某個(gè)指定動(dòng)作;而L5則指任意場(chǎng)景下,機(jī)器人可以完成某一動(dòng)作。現(xiàn)階段,大家所缺少的便是真實(shí)數(shù)據(jù)。”
但自動(dòng)駕駛和具身智能也都各有各的難點(diǎn),前者的難點(diǎn)在于安全性,而后者的難點(diǎn)則在于數(shù)據(jù)獲取。
為解決具身智能目前的種種挑戰(zhàn),目前市面上不同企業(yè)內(nèi)部的技術(shù)路線都各不相同。從具身智能公司的創(chuàng)始團(tuán)隊(duì)背景就得以窺見,從大廠機(jī)器人實(shí)驗(yàn)室到智駕公司,甚至連從AI頂尖院校畢業(yè)的創(chuàng)業(yè)者都來自不同科系,可以說,在這個(gè)仍發(fā)展初期的具身智能賽道上,各路大神在各顯神通。
無法達(dá)成共識(shí)的還不僅是技術(shù)路線,對(duì)于機(jī)器人的落地場(chǎng)景,尤其是未來走向通用機(jī)器人的人形機(jī)器人,究竟誰能更快地實(shí)現(xiàn)商業(yè)化,或哪些更適合當(dāng)下的具身智能機(jī)器人?目前都還并沒有定論。
“目前整個(gè)行業(yè),大家都還處于摸索PMF的階段,很難說B端和C端哪條路更容易或有利于商業(yè)化?!睏钬S瑜向產(chǎn)業(yè)家說到。
的確如此,如果說在過去非人形機(jī)器人階段,商業(yè)化較為成熟的場(chǎng)景是生活服務(wù)、智能倉儲(chǔ)和智能制造。那么對(duì)于如今的具身智能的人形機(jī)器人階段,則既有面向B端的,也有從C端入手的。
比如,具身智能公司UniX AI即將發(fā)布的輪式雙臂機(jī)器人Wanda面向的就是家庭場(chǎng)景。而之所以先選擇C端,有幾方面考慮。在楊豐瑜看來,首先,針對(duì)具身智能缺乏真實(shí)數(shù)據(jù)的特點(diǎn),如果能用脫敏處理從用戶端獲取更廣泛的真實(shí)數(shù)據(jù),從而形成數(shù)據(jù)飛輪,從這一角度來講則可以極大地增強(qiáng)機(jī)器人的泛化能力。
然而,對(duì)于處于發(fā)展初期的當(dāng)下,究竟何種場(chǎng)景更有利于具身智能發(fā)展還是未知數(shù),因此UniX也并沒有完全將場(chǎng)景限定在C端。另一方面,相較于B端“強(qiáng)替代”的場(chǎng)景,C端的容錯(cuò)率也更高。
通常來講,在B端,企業(yè)選擇是否要大規(guī)模使用某類機(jī)器人則要根據(jù)人工成本進(jìn)行對(duì)比,因此這也決定了B端更復(fù)雜的商業(yè)邏輯。
然而,毋庸置疑的是,從機(jī)器人產(chǎn)品本身出發(fā),不同于C端場(chǎng)景,B端場(chǎng)景并不會(huì)如此多樣化。與此同時(shí),這也意味著,在缺乏數(shù)據(jù)的當(dāng)下,B端機(jī)器人的技術(shù)難度也相對(duì)較低。
對(duì)此,目前不少具身智能公司都選擇從toB出發(fā)。最為代表的則是銀河通用,在他們看來,“現(xiàn)階段先落地在B端場(chǎng)景是更好的選擇,當(dāng)技術(shù)積累到一定的程度,再推動(dòng)其走進(jìn)家庭?!睋?jù)銀河通用機(jī)器人透露,目前GALBOT計(jì)劃在商超、車廠、工業(yè)、物流、科研等領(lǐng)域進(jìn)行更深入的場(chǎng)景驗(yàn)證和應(yīng)用落地。
可以看到,從相差各異的技術(shù)路線,到難決高下的落地場(chǎng)景,如今具身智能企業(yè)都正在探尋更適合自己的路。
四、人形機(jī)器人的「確定性」在哪?
英國自動(dòng)駕駛獨(dú)角獸Wayve之所以成立自動(dòng)駕駛公司,其更深層次的意義實(shí)際上是實(shí)現(xiàn)“具身智能”的愿景。
“從理論上,如果說自動(dòng)駕駛的感知和決策已經(jīng)達(dá)到成熟,那么具身智能的技術(shù)成熟度也沒有問題?!本呱碇悄茴I(lǐng)域的某業(yè)內(nèi)人士告訴產(chǎn)業(yè)家。
但如果說,2024是自動(dòng)駕駛的商業(yè)化元年,那么,具身智能的“確定性”又在哪?
目前看來,從機(jī)器人形態(tài)到技術(shù)路線,從落地場(chǎng)景再到商業(yè)模式,關(guān)于具身智能的一切似乎都充滿了不確定性。
甚至更夸張地講,在過去很長一段時(shí)間,究竟什么是人形機(jī)器人,什么是通用機(jī)器人?又該如何定義具身智能?概念都還并不清晰。而實(shí)際上,業(yè)界人士對(duì)具身智能不同定義的背后,反映的正是各家技術(shù)路線的差異。
比如有些企業(yè)將具身智能定義為需要與物理世界交互的智能體,而有些則將其定義為一具屬于AI的身體。而這兩者的區(qū)別就在于,前者更注重?cái)?shù)據(jù)獲取,后者則更注重AI或大模型技術(shù)的積累。
而如果拋開現(xiàn)實(shí)層面的阻礙去談理想。具身智能的未來是面向通用機(jī)器人。但如今,我們距離通用機(jī)器人究竟有多遠(yuǎn)?
如果用L0-L5做類比,在上文中提到,UniX AI創(chuàng)始人楊豐瑜認(rèn)為,如今的具身智能機(jī)器人正在接近L4階段的過程中。而真正的通用機(jī)器人則是L5階段。
根據(jù)全球頂級(jí)對(duì)沖基金Coatue近日發(fā)布的一篇關(guān)于“具身智能”的報(bào)告《The Path to General-Purpose Robots》(通往通用機(jī)器人之路),如果將具身智能的階段與自動(dòng)駕駛的階段做類比,“過去無人駕駛汽車從L1到L2花了大約20年,而從L2到現(xiàn)在的L4只用了不到10年;那么人型機(jī)器人從L1到L2用了大約50年,從L2到L4預(yù)計(jì)只 需要不到5年。”
最后,從商業(yè)化周期來看,擺在具身智能企業(yè) 面前的,也不只有技術(shù)及數(shù)據(jù)獲取障礙,單從研發(fā)周期和研發(fā)成本以及硬件成本來算,具身智能的商業(yè)化之路也同樣充滿了不確定。
五源資本董事總經(jīng)理Peter將目前的通用機(jī)器人比作1980年的PC。早在機(jī)器人還未出現(xiàn)在大眾視野時(shí),Peter就已為這條賽道灑下了希望的種子。但多年來的投資經(jīng)驗(yàn)依然告訴Peter,“目前的通用機(jī)器人很難,商業(yè)化也遙遙無期”。
Peter認(rèn)為,這條賽道上的商業(yè)化標(biāo)準(zhǔn)并不像其他賽道,動(dòng)輒年銷量幾個(gè)億,對(duì)于機(jī)器人賽道而言,100萬臺(tái)就足以稱之為商業(yè)化標(biāo)準(zhǔn)。然而國內(nèi)能達(dá)到這個(gè)標(biāo)準(zhǔn)的并不多。
然而,在種種不確定因素之下,在具身智能領(lǐng)域,唯一可以確定的是,其未來巨大的市場(chǎng)空間。對(duì)此,從紛紛入局的科技巨頭、創(chuàng)業(yè)公司的市場(chǎng)現(xiàn)狀即可窺見一二。
要記得,過去幾年的自動(dòng)駕駛也是拋開層層迷霧,才得以在今天看見曙光。
而對(duì)于如今的具身智能領(lǐng)域而言,從目前“各顯神通”的技術(shù)路線來看,很難確定具身智能未來的周期會(huì)如何發(fā)展。但有一點(diǎn)可以確定,站在如今大模型和自動(dòng)駕駛的臂膀上,具身智能的成熟期將來得更快。
作者|思杭
編輯|皮爺
本文由人人都是產(chǎn)品經(jīng)理作者【產(chǎn)業(yè)家】,微信公眾號(hào):【產(chǎn)業(yè)家】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!