智能剪輯功能調研報告:詳解抖音的音樂卡點模式

1 評論 11651 瀏覽 57 收藏 14 分鐘

本文通過對市面上智能剪輯功能進行體驗,挖掘不同產品的功能模式,還原產品的邏輯和結構,并通過競品對比分析,總結了智能剪輯功能的迭代方向。

01 調研背景

1. 什么是智能剪輯?

傳統的視頻剪輯,需要人工進行大量后期處理工作,包括手動剪輯、拼接、選擇音樂、增加轉場、調色、字幕等,門檻較高,且耗時費力。

而智能剪輯則使得整個剪輯過程更加智能化、標準化、簡單化,可顯著降低創作門檻,提升普通創作者的創作意愿和創作能力。

市面上主流短視頻產品已經普遍開發了智能剪輯功能,其中核心優化了以下三個關鍵環節:

(1)判斷素材的類型,智能組合剪輯;

(2)智能匹配音樂,結合智能剪輯,可生成音樂卡點視頻;

(3)智能增加動效,包括轉場、特效、濾鏡等豐富效果。

2. 為什么要做智能剪輯?

先上結論:智能剪輯功能可以有效降低普通用戶的生產門檻,幫助用戶進行低成本地剪輯。

首先,說一下為什么主流的短視頻產品中有智能剪輯功能,而制作長視頻的專業剪輯軟件基本沒有這個功能。

一是因為用戶的正向選擇,使用專業剪輯軟件的用戶整體上有一定的制作能力,而日常使用短視頻APP用戶的制作能力普遍偏低,更適合使用輕量的智能剪輯功能。

二是載體本身的原因,長視頻更多是敘事結構,適合講故事,前后邏輯關系緊密,需要結合人的思考和創意,而機器智能暫時無法通過聲音、文字、圖像等素材理解其邏輯。

但是短視頻則要自由得多,偏個人向主題的也較多,比如自拍、旅游、美食等等,不需要復雜的剪輯。

其次,再看一下智能剪輯功能對短視頻產品本身的收益。

對短視頻產品來說,絕大部分用戶是消費者,只有少部分用戶是生產者,消費者們會去消費生產者們創作的內容,消費者們雖然有一定的創作意愿,但創作能力較弱,消費者轉變為生產者的成本也較高。

即便是UGC生態的短視頻產品,也會逐漸從UGC發展為PGC,中間態就是所謂的UPGC。

在這個過程中,大量普通用戶生產的低質量、低價值內容會被篩選掉,而專業用戶生產的高質量、高價值內容會獲得更多曝光,到最后,我們在短視頻產品中看到的就基本是專業用戶生產的內容了。

那為什么還要做針對普通消費者或者說尾部生產者的智能剪輯呢?

因為普通用戶依舊存在生產需求,有一定的生產意愿,會拍攝旅游、美食或者記錄重要的生活事件等等,而制作視頻后常常會發布在朋友圈、微博、抖音、快手等社交網絡中,或者直接分享給自己的家人朋友。

也就是說生產視頻需求的背后,本質是社交需求。

這和消費視頻完全是兩個邏輯,幫助頭部創作者進行生產,是為了普通消費者有內容可看,但激勵并幫助普通用戶生產內容,則是促進用戶使用產品的一個重要手段,同時可以豐富UGC生態,最終涌現出專業生產者。

總結一下:

(1)目標用戶:尾部生產者,典型特征是低粉、無固定創作主題、作品偏個人向。

(2)使用場景:拍攝旅游、美食或者記錄重要的生活事件后,想要做一個短視頻分享到自己的社交網絡,但是專業的視頻剪輯軟件太復雜,不太會用,也沒有時間去琢磨。

(3)滿足需求:表面滿足了小白化制作短視頻的需求,本質是滿足了社交需求、炫耀心理。

02 調研目標

了解市面競品智能剪輯功能的優劣,并結合實際的業務場景與技術能力,輸出可落地的產品方案。

03 調研詳情

1. 競品速覽

頭部競品:抖音、快手

腰部競品:微視、VUE、美拍、小影

跨域競品:大疆、Quik

根據上表的概覽,會發現【智能剪輯】功能的核心要素有三個:剪裁、音樂和視覺。

首先,算法會對素材內容進行分析,識別素材的場景,然后匹配對應的音樂和動效。

每個音樂都會有相應的節拍點,根據節拍點,會對每段素材剪裁為一定的播放長度,然后拼接在一起。

這里會出現另一個問題,就是怎么找到每段素材中的高質量精彩片段?

因此也需要借助算法,識別和篩選素材中的精彩片段進行合理剪裁。

而視覺效果包括轉場特效、畫面裝飾、濾鏡、貼紙等,也需要識別素材的對應場景進行匹配。

通過上述的分析會發現,根據剪裁、音樂、動效三者之間的關系,市面上主流的【智能剪裁】功能的模式有三種:

(1)【音樂可選+無動效】:音樂根據素材進行匹配和推薦,可手動切換,素材會根據音樂再次剪裁,無轉場、頁面裝飾等視覺效果,典型代表是抖音;

(2)【音樂固定+動效固定】:音樂和動效綁定,兩者都是固定的,不能組合,也就是集成為“模板”,每個模板的剪裁也是固定的,此時需要用戶自己手動選擇模板,典型代表是微視;

(3)【音樂可選+動效可選】:音樂根據素材進行匹配和推薦,可手動切換,素材會根據音樂再次剪裁,同時轉場、頁面裝飾等視覺效果集成為統一風格的“主題”,可進行切換,典型代表是快手和VUE。

2. 核心競品詳述

根據以上分析,音樂智能匹配和視頻精彩片段智能選取,這兩個關鍵環節主要依靠算法解決,對于用戶而言相當于黑盒。

而另一個關鍵點,怎么依靠音樂節拍點劃分素材的長度,則有規律可循,因此,下文將針對抖音的音樂卡點模式進行簡單實驗,推測其智能剪裁規則。

整體分為三個環節:導入素材、制作流程、發布。

導入素材:可同時導入圖片和視頻,素材總數的上限是35。

制作流程:默認音樂卡點模式,會根據匹配的音樂,對素材進行裁剪,也可以手動調整素材片段的順序,但是因為每個音樂的卡點位置是固定的,因此每個素材片段剪裁的長度也是固定的,只能調整每段素材剪裁的位置。

舉個例子,我上傳了4段視頻,基于匹配的音樂自動剪裁后,4段素材分別的長度為:5.6s、4.4s、4.4s、5.6s。

現在我將第4段素材(有人像)的位置從第4個位置移動到第2個位置,然后第4段視頻(有人像)的長度從5.6s轉變為4.4s,也就是說根據素材的數量會計算音樂卡點的位置,分配相同數量的位置,每個位置的長度是固定的。

接下來,將通過簡單實驗,歸納總結其裁剪規則。

在此次簡單實驗中,通過將素材總時長逐漸增加,從3秒到890秒,我們可以看到以下規律:

(1)素材數量>=2時,才能進入【音樂卡點】模式;

(2)素材總時長30秒左右是臨界點

  1. 總時長在30秒以下的素材,裁剪后保留的比例為55%~60%;
  2. 總時長在30秒以上、50秒以下的素材,裁剪后保留的時長逐漸貼近20秒,保留的時長不再有大幅的增加;
  3. 總時長在50秒以下的素材,裁剪后保留的時長穩定在20秒左右,因此保留的比例會迅速下跌;

(3)抖音導入素材的限制是,每段素材必須大于1秒,且素材的總數量不能超過35個;

  1. 通過實驗可以看到,剪裁后的總時長上限為20秒,在最多35段素材的情況下,平均每段素材剪裁后的長度為0.57秒,因此可見”35“基本接近了維持視頻最終效果的極限,素材數量再增多,將會影響視頻效果;
  2. 隨著素材數量和素材時長的增加,每段素材剪裁后的時長將逐漸接近1秒,直至1秒以下,因此需要限制每段素材必須大于1秒。

04 結論與方案

本次報告通過對市面競品的掃描,總結歸納了市面上主流【智能剪輯】功能的三種模式:

(1)【音樂可選+無動效】:音樂根據素材進行匹配和推薦,可手動切換,素材會根據音樂再次剪裁,無轉場、頁面裝飾等視覺效果,典型代表是抖音;

(2)【音樂固定+動效固定】:音樂和動效綁定,兩者都是固定的,不能組合,也就是集成為“模板”,每個模板的剪裁也是固定的,此時需要用戶自己手動選擇模板,典型代表是快手、微視;

(3)【音樂可選+動效可選】:音樂根據素材進行匹配和推薦,可手動切換,素材會根據音樂再次剪裁,同時轉場、頁面裝飾等視覺效果集成為統一風格的“主題”,可進行切換,典型代表是VUE。

并針對抖音的音樂卡點模式進行了拆解,通過實驗推測其智能剪裁的規則:

(1)總時長在30秒以下的素材,裁剪后保留的比例為55%~60%;

(2)總時長在30秒以上的素材,裁剪后保留的時長逐漸貼近20秒;

(3)導入的每段素材必須大于1秒,且導入的素材總數量不能超過35個,這樣才能保證最終的視覺效果。

但是只了解其規則是不夠的,需要能夠輸出為可落地的方案才有價值。

接下來,我將結合多個競品的功能亮點,并刪繁就簡,初步策劃足夠簡單、足夠好用的【智能剪輯】功能。

  1. 建議采用【音樂可選+動效可選】的模式,即根據上傳的素材進行場景識別,智能匹配音樂和相關的視覺主題。
  2. 素材需根據所匹配的音樂進行智能裁剪,用戶手動更換音樂,需再次裁剪。
  3. 視覺主題則采用通用樣式,包括通用性的頁面裝飾、濾鏡和轉場特效,用戶可手動更換,對素材剪裁沒有影響。
  4. 用戶手動剪裁素材或調整素材順序需要客戶端的渲染能力,成本較高,可考慮在后續迭代。

 

 

本文由 @岳小魚 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 更多產品思考,歡迎關注微信公眾號,搜索:岳小魚

    來自浙江 回復