通義千問跳科目三,關(guān)AI電商啥事?

0 評(píng)論 3763 瀏覽 5 收藏 11 分鐘

2023年,AI大模型幾乎顛覆了我們的生活,科目三不動(dòng)也能跳,一張照片即能生成視頻,它又是如何與電商結(jié)合的呢?就讓我們一起來看看吧!

海底撈的小哥們,為了科目三,崴了多少腳。

但是千算萬算,沒有算到在通義千問悄悄上線的“全民舞王”的助攻下,只需要一張照片,人人都可以科目三。

以現(xiàn)在大模型的“姿勢(shì)水平”,文字生成文字,文字生成圖片對(duì)它而言已經(jīng)變成了“小兒科”,不管大家在排行榜上競(jìng)爭(zhēng)得如何激烈,真正的競(jìng)爭(zhēng),其實(shí)已經(jīng)到了跨模態(tài)生成領(lǐng)域——“全民舞王”的圖片生成視頻是這樣,讓馬斯克和扎克伯格等知名外國(guó)人在視頻里說中文也是這樣。

而且,“全民舞王”依托的Animate Anyone大模型,已經(jīng)不止停留在“玩具”層面上。結(jié)合阿里云最新的Outfit Anyone“一鍵試衣”大模型,未來我們?cè)谔詫氋I衣服,上傳一張照片就能看到動(dòng)態(tài)的上身效果視頻,已經(jīng)不再遙遠(yuǎn)。

阿里心心念念的“AI電商”,如今又多了一張拼圖。

一、國(guó)外已經(jīng)火了三個(gè)月

科目三之所以成為“現(xiàn)象級(jí)”舞蹈,并不是因?yàn)樗趪?guó)內(nèi)短視頻平臺(tái)有多么“火”,因?yàn)槲辶昵暗纳鐣?huì)搖已經(jīng)做到了這一點(diǎn)——而是它能不能成為文化輸出的一個(gè)符號(hào),進(jìn)而獲得登堂入室的門票。

單論結(jié)果,科目三現(xiàn)在早就走出了短視頻平臺(tái),還被做進(jìn)了游戲,走上了國(guó)際化大舞臺(tái)。

譬如在去年12月9日的世界體育舞蹈大賽上,世界冠軍克里斯蒂娜和幾位舞者一起展示了國(guó)標(biāo)版“科目三”;騰訊上線剛一個(gè)月的“正版合家歡派對(duì)游戲”《元夢(mèng)之星》里面,老壺也發(fā)現(xiàn)了角色專屬的“科目三”表情動(dòng)作。

再到如今的“全能舞王”,只需在通義千問app里面上傳一張全身照片,再等待10分鐘左右,就能生成一段10秒左右的跳舞短視頻。

進(jìn)入“全民舞王”的模板區(qū),有DJ慢搖、只想對(duì)你說“愛你”、鬼步舞、蒙古舞、科目三、劃槳步等12種熱門舞蹈的模塊可以選。雖然可以選的有很多,但就流量和關(guān)注度而言,科目三自然是毫無疑問的C位。

捋一捋時(shí)間線也能發(fā)現(xiàn),國(guó)外短視頻達(dá)人開始“病毒式傳播”科目三的時(shí)間點(diǎn),恰好是在去年10-11月份左右。差不多在同一時(shí)期,阿里云旗下團(tuán)隊(duì)就發(fā)布了“全能舞王”相關(guān)的大模型技術(shù)文檔。

要知道,科目三這個(gè)舞種不同于一般手勢(shì)舞,是需要一定的舞蹈基礎(chǔ)和四肢協(xié)調(diào)性的。換句話說,在國(guó)外也并非所有人都能輕松駕馭。

但阿里云發(fā)布的這篇論文,則通過“Animate Anyone”的模型,將固定的角色圖像轉(zhuǎn)化為特定姿勢(shì)序列控制的動(dòng)畫視頻,換句話說,之前一點(diǎn)舞蹈基礎(chǔ)都沒有的人,現(xiàn)在可以通過這個(gè)模型,開局只需一張圖,就能為所有舞蹈小白,提供了在短視頻領(lǐng)域“走上舞臺(tái)”的可能。

也因此,這條介紹“Animate Anyone”的推文在發(fā)布不到一個(gè)月,就斬獲了超過5000萬的點(diǎn)擊,也就不足為奇了。

二、讓圖片跳起“科目三”

在“Animate Anyone”出現(xiàn)之前,從靜態(tài)圖像到動(dòng)態(tài)視頻的合成,仍然有很多“坎”需要過,

首先是細(xì)節(jié)一致性。舉個(gè)例子就是,現(xiàn)在市面上的AI圖片或者文字生成視頻,很多時(shí)候主體之外的圖像會(huì)出現(xiàn)局部變形、細(xì)節(jié)模糊和幀數(shù)不可控的問題,這些都會(huì)影響視頻生成的質(zhì)量。

再比如動(dòng)作控制和連貫性。因?yàn)橐曨l如果要商用,視頻里人物的動(dòng)作是需要保證可控性的。如果是AI生成,則主要通過預(yù)先輸入的動(dòng)作序列來控制角色動(dòng)作。但在目前AI視頻的角色動(dòng)作,還無法完全靠prompt精準(zhǔn)控制。

在圖片生成文字的過程中,還需處理的是圖像到視頻的轉(zhuǎn)換過程,并且需要保證這個(gè)過程中,圖像的空間與時(shí)間一致性。

在此之前,諸如stable Diffusion、midjourney等AIGC產(chǎn)品雖然已經(jīng)初步具備了文生圖和圖生圖、圖生視頻等跨模態(tài)生成能力,但在AI生成視頻領(lǐng)域,前面提到的問題仍然沒有得到解決。

“Animate Anyone”則在很大程度上,對(duì)前述相關(guān)問題作出了改進(jìn)。首先團(tuán)隊(duì)通過名為“ReferenceNet”的輔助模型,用來捕捉參考圖像的空間細(xì)節(jié),這保證了角色每一幀外觀細(xì)節(jié)的一致性;

其次,團(tuán)隊(duì)使用了一種高效的Pose Guider姿態(tài)引導(dǎo)器,這讓角色的運(yùn)動(dòng)姿勢(shì)得到了有效控制,體現(xiàn)在視頻中,則是讓視頻角色按設(shè)定好的姿勢(shì)進(jìn)行運(yùn)動(dòng),并具備穩(wěn)定的過渡,保證連續(xù)性和流暢性;

此前AI生成的視頻細(xì)節(jié)為何不可控,很大程度上是因?yàn)槊恳粠臅r(shí)間關(guān)系不夠緊密,很多細(xì)節(jié)沒辦法保留到下一幀。在“Animate Anyone”的模型里,則通過一個(gè)時(shí)序生成模塊來保證多個(gè)視頻幀之間的關(guān)系,很多高分辨率的細(xì)節(jié)得以全程保留。

通義千問跳科目三,關(guān)AI電商啥事?

通義千問跳科目三,關(guān)AI電商啥事?

即便是解決了這么多技術(shù)難題,單看目前“全能舞王”的生成效果,也與真人上鏡有一定的差距。譬如生成的舞蹈節(jié)奏是平均的,但現(xiàn)實(shí)音樂大多數(shù)都是快慢分布。這讓“科目三”的生成效果不可避免打了折扣。

但與一眾大模型前輩相比,“Animate Anyone”已經(jīng)把最重要的形象一致性和姿態(tài)穩(wěn)定、多幀關(guān)系控制等關(guān)鍵問題搞定,在圖生視頻賽道上,已經(jīng)完成10-60+分的突破。

三、AI電商的另一塊拼圖?

圖生視頻從10分到60分,意味著什么?

意味著它不僅可以完整保留人臉、身材比例、服裝細(xì)節(jié)和背景信息,同時(shí)還能對(duì)生成的動(dòng)作做精準(zhǔn)控制,且在技術(shù)上生成的視頻長(zhǎng)度不受限制。與Gen2、Pika等文本生成視頻的產(chǎn)品比, AnimateAnyone更聚焦人本身。

也就是說,起碼在圖生視頻這一塊,“Animate Anyone”已經(jīng)將AI視頻從“玩具”變成了“可初步商用”。再加上阿里近期發(fā)布的“Outfit Anyone”,用戶可以僅僅用服飾的平鋪圖,就可以實(shí)現(xiàn)上下裝的試穿。

如果與二者結(jié)合。用戶不僅可以通過上傳一張照片,試穿自己心儀的大多數(shù)服裝,而且可以通過動(dòng)態(tài)動(dòng)畫,直接預(yù)覽它的上身效果。與其說淘寶模特因?yàn)锳I失業(yè),不如說AI讓所有人都可以成為自己的模特。

當(dāng)然,“Animate Anyone”能夠應(yīng)用的地方也不止于此,很多游戲開發(fā)人員大可使用這種算法,將靜態(tài)的游戲角色圖像轉(zhuǎn)換為具有不同動(dòng)作和姿勢(shì)的動(dòng)畫角色,以此實(shí)現(xiàn)同一款素材的多次復(fù)用,并增加對(duì)應(yīng)角色的沉浸感和可信度。

而大家在淘寶買東西,最怕的是什么?就是“賣家秀”和“買家秀”的差異所帶來的低可信度。但在自己的AI化身成為淘寶模特之后,這個(gè)顧慮很大程度上會(huì)被打消,交易中最重要的信任成本也因此消失。

還記得在拼多多市值剛剛超越阿里巴巴的時(shí)候,馬云老師除了表示對(duì)拼多多的祝賀,還專門提到了“AI電商”的概念:“AI電商時(shí)代剛剛開始,對(duì)誰都是機(jī)會(huì),也是挑戰(zhàn)?!?/strong>

在價(jià)格和交易環(huán)節(jié),它可能是基于AI驅(qū)動(dòng)的實(shí)時(shí)比價(jià),助力消費(fèi)者買到自己最心儀的產(chǎn)品;在服務(wù)和體驗(yàn)環(huán)節(jié),它有可能是更優(yōu)質(zhì)的數(shù)字人售后和更身臨其境的購(gòu)物體驗(yàn)。

能替用戶試穿衣服的“AI模特”不過只是服裝品類體驗(yàn)的一小步,但就整個(gè)阿里AI電商的戰(zhàn)略而言,它可能是無數(shù)基礎(chǔ)拼圖的其中一塊,但也是極為重要的一塊。

作者:老壺,監(jiān)制:大曼

來源公眾號(hào):智商稅研究中心(ID:gh_c55b3561ece1),塵世套路深,我替你踩坑!

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @智商稅研究中心 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!