我用Suno給你寫了首歌

0 評論 3775 瀏覽 4 收藏 18 分鐘

ChatGPT爆火之后,大家才知道生成式AI原來如此強大。Sora消息一出,文生視頻的強悍能力更是讓人眼前一亮。但文生音頻,一直以來都沒有多少聲音,是因為沒有代表性的產(chǎn)品嗎?這篇文章,我們就來給大家普及一下相關知識。

我對生成式AI特別感興趣。

這個領域涵蓋文本、圖片、聲音、視頻和3D模型五個方面。我猜你也聽說過,甚至用過一些;對我來說,音樂很重要,因為每天差不多有1/12的時間都在聽歌。

去年5月,有件事特別火。

有人用AI技術(shù)翻唱一首孫燕姿的歌曲,不少人聽完后表示,唱的跟本人一樣好聽,本人還在社交媒體上表達說:擁抱AI,人類比不過AI,做好自己就行。

緊接著一個月內(nèi)容,市面冒出來上千首用AI技術(shù)翻唱的歌,這些歌橫跨了幾十年的流行音樂。

當時,我還研究一陣。發(fā)現(xiàn)這些歌曲用音色替換的技術(shù)制作而成,該技術(shù)基于so-vits-svc開源項目開發(fā),門檻非常低,你要感興趣,也能學會。

但后來,由于工作關系加上下半年AIGC(AI生成內(nèi)容)技術(shù)爆炸式發(fā)展,我的興趣點也就跟著轉(zhuǎn)移了。不過,最近發(fā)現(xiàn),AI音樂技術(shù)又有了新的進步。

01

進步在哪呢?

以前用so-vits-svc工具時,要懂一些基礎、且專業(yè)知識。

像怎么采集音頻、編輯波形、把人聲伴奏分開,以及音頻訓練推理技巧等,這些是處理和生成音頻文件必要的基礎。

如果你要用自己的聲音來做歌曲,得先上傳幾段自己的聲音,讓系統(tǒng)學習。這個所謂“訓練”過程會電腦顯卡負荷很大,通常持續(xù)好幾個小時。

過程中,還會用到一些插件。

比如有8種不同的編碼器,每種都適用于不同的情景,有些插件不提供預先訓練的模型,你還得自己訓練一番;所以,看似簡單的步驟對小白來說,也有點復雜。

現(xiàn)在不一樣了。

3月22日,位于美國加州舊金山的一家人工智能公司Anthropic,他們開發(fā)的音頻軟件Suno AI進行一次重大升級,幾個簡短文字,一閃而過的靈感,立馬變成一首歌曲。

Suno AI的官網(wǎng):https://app.suno.ai/

可以先用谷歌注冊一個賬號,然后點擊右上角的“make a song”按鈕,接下來點擊“create”,就能進入創(chuàng)作頁面了。

目前官網(wǎng)上,有很多用戶上傳了他們用AI創(chuàng)作的歌曲,可以隨便聽聽,其中不少華人創(chuàng)作的。

●Pic?https://app.suno.ai官網(wǎng)

比如:

有一首是用“中國傳統(tǒng)民樂、慢板、空靈、天使之音”幾個關鍵詞生成的全新版本《水調(diào)歌頭(明月幾時有)》(和我們熟悉的《但愿人長久》不一樣的版本)。

還有一首用“歌劇”這個提示詞創(chuàng)作的《宮保雞丁》,歌詞,居然是一整套宮保雞丁的菜譜,簡直不要太離譜。

suno有免費模式可以使用,每日贈送50積分,而每次生成都會一起生成2首歌,每首歌小耗5積分,性價比比較高。

也有專業(yè)計劃和尊貴計劃,前者8美金/月;附帶2500積分(500首歌曲);后者24美金/月,附增10,000 個積分(2.000 首歌曲)。

如果不是專業(yè)選手使用,免費的玩玩還可以,對了,我特別找了下,國內(nèi)有個網(wǎng)站跟它挺像,功能差不多,還能免費試用,不過,如果要充值,得注意真假。

目前suno ai創(chuàng)作模式有兩種:

1. 半自動模式?

只要提供一些簡單的信息,比如,你想要的音樂風格、描述和氛圍等關鍵詞,然后點擊“創(chuàng)建”,剩下的交給AI來完成,它能把歌詞曲調(diào)都幫你弄好。

2. 自定義模式

這個模式下,你可以詳細輸入想要的歌詞、音樂類型、風格和氛圍等,AI會根據(jù)這些信息來為你創(chuàng)作歌曲。過程也比較快,基本上幾秒鐘就能完成。

而且,在創(chuàng)作頁面如果開啟了Instrumental(器樂)選項,它還會為你制作一首不含歌詞的純音樂;個人而言,我更喜歡自定義模式。

02

問題來了:很多人說我不會寫歌詞流派怎么辦?

也不用擔心,用AI工具生成歌詞后再給Suno,這樣效果會更好。我總結(jié)了一下,一首歌曲的有效提示詞包括四個因素,分別是音樂風格、情緒、樂器,以及節(jié)奏。

什么是音樂風格呢?

比如,通俗易懂的流行風(Pop)、強調(diào)節(jié)奏的搖滾風(Rock)、即興演奏爵士風(Jazz)、歐洲傳統(tǒng)巴洛克的浪漫古典風(Classical)。

以及電子風(Electronic)、嘻哈音樂(Hip Hop/Rap)、R&B(Rhythm and Blues)、鄉(xiāng)村音樂(Country)、民謠音樂(Folk)等等。

情緒你應該知道,是歡快、悲傷、浪漫還是激動人心的?樂器方面,你傾向于鋼琴、吉他、小提琴還是鼓?至于節(jié)奏,有快節(jié)奏、慢節(jié)奏適中的節(jié)奏等等。

舉幾個例子:

  • 如果你想要一首活力四射的流行電子舞曲,就跟AI說,我想寫一首歡快、流行、電子、舞曲、快節(jié)奏的歌曲;
  • 假如你想要一首溫柔又浪漫的古典鋼琴曲,那就告訴AI,你想要一首浪漫、古典、用鋼琴彈奏的,而且節(jié)奏要慢的曲子。
  • 如果你想聽一首讓人陷入深思的悲傷爵士薩克斯曲,就用這些關鍵詞:憂郁、爵士、薩克斯風、即興演奏,節(jié)奏保持在中等。

對于那種能讓人熱血沸騰的搖滾吉他曲,你可以這么說:我想要一首充滿激情的搖滾歌,用電吉他彈奏,節(jié)奏要快;而如果你希望聽到一首暖心的民謠木吉他曲,那就描述成:想聽一首溫馨的民謠,用木吉他演奏,風格輕柔。

……

你可以自由地混搭各種音樂風格,像電子即興演奏、鋼琴土嗨這樣的組合,只有想不到?jīng)]有做不到,寫的越詳細,生成的越精準,

你還可以選擇直接在Suno上填入這些關鍵詞,或利用AI工具,先生成好,然后把結(jié)果復制粘貼進去,這樣,也能輕松創(chuàng)作出符合你想法的音樂了。

至于歌詞上,目前支持隨機生成和自己填寫。

隨機生成是系統(tǒng)自帶,自己填寫顧名思義,是寫好再給它,我最近這幾天一直讓AI幫我寫詞。

想快速形成,就用「角色扮演」。基礎prompt是這樣:

想象你是個音樂天才,在音樂界深耕了20年。譜曲和寫詞是你的專業(yè),現(xiàn)在,我希望你能當作曲家,用中文來創(chuàng)作。

我們要的風格是流行而且有治愈感的,就像周杰倫的《稻香》那樣,你給我寫一段歌詞。

當它給完之后,你還可以說:你可以做得更好。歌詞要有節(jié)奏感,要能感受到情感波動,既美又簡潔,避免用那些聽起來像口號的詞句。

第二個方法也相對簡單,即「仿寫」。

原創(chuàng)要自己設定情節(jié)并總結(jié),然后投喂給AI,讓AI按照自己的設定去寫;仿寫是模仿對標歌曲的內(nèi)容大綱、寫作風格、語言特色等。

你可以說,幫我寫一個歌詞,類似于李榮浩的《老街》,或者某某的什么歌。對了,也許原歌詞所對應的歌曲是流行風,你也可以投喂給Suno,讓它生成搖滾風,也不是不可以。

目前多次體驗來看,它生成和模仿歌曲還是有區(qū)別的。

第三個方法是,先建立一個大致結(jié)構(gòu)框架。

一首完整的歌曲,它由前奏、詩句(或稱為節(jié))、副歌、橋段、尾奏五個部分組成,有點像寫小說時會有的開場、發(fā)展、高潮和結(jié)尾四個環(huán)節(jié)。

劃分結(jié)構(gòu)后,按部就班地展開創(chuàng)作。這個過程中,你可以采用各種不同的技巧,比如押韻法。押韻法本身就有很多種形式,包括不限于ABAB、AABB、ABBA、ABCA等模式。

除押韻法以及增加歌詞的韻律節(jié)奏感外,還可以要求AI多增加一些技巧,以及情感深度在里面,比如,用描述法,或者比喻,反復疊唱,以及具體抽象的結(jié)合等。

所以,AI寫歌詞本身和AI進行其他領域的創(chuàng)作底層相似,唯一區(qū)別在于,一旦你理解了一些特定領域?qū)I(yè)術(shù)語,掌握它的難度就會大大降低。

不過,目前這個平臺最多只能生成兩分鐘的歌曲,你給的詞過多,后面也未必能用上,但也不要擔心,它提供了一個連續(xù)創(chuàng)作功能。

你可以選擇一首歌的任何部分,繼續(xù)創(chuàng)作接下來的部分,然后把它們組合起來,就能突破兩分鐘的限制,創(chuàng)作出一首完整的歌曲。

03

生成音樂后你可以以下載(視頻,音頻)分享,也可以選擇公開。

看起來是不是蠻爽的??

說回Suno這個平臺,官方宣稱目前不少知名藝術(shù)家在用,但主要用戶群體依然是沒有經(jīng)驗的普通人。的確,最新v3版本在音樂質(zhì)量、使用提示詞上都有明顯提升。

而且,這一版本他們還搞了AI音樂水印系統(tǒng),如此也能保護用戶作品不被抄襲,防止別人濫用平臺上的音樂去分發(fā),目前我已經(jīng)看到不少人用AI音樂開始賺錢了。

雖然這聽起來不錯,但我作為一個深度AI使用者,和深度聽歌人士,還是想說幾個問題,或幾個特性。

一方面,平臺簡單提示詞的確很棒,AI有更多自由度,但同時也意味著我們控制得少了,有時候,我給的提示詞AI可能不會完全按照原意去寫歌詞。

另一方面在功能上,雖然我不是專業(yè)音樂人,但覺得AI音樂應該有一些基礎、或?qū)I(yè)功能,比如像音色克隆、轉(zhuǎn)midi、分軌等。

轉(zhuǎn)midi和分軌技術(shù)上比較難,但音色克?。⊿VC)相對容易些,已有的開源模型也在不斷進化,稍作調(diào)整就能集成進去,這也意味著用戶只要上傳一段自己的聲音,就能定制一首歌,這肯定會吸引不少人付費。

這好比美顏相機的「美顏功能」,你不能總「一鍵美顏」,還要增加一些大眼睛、瘦臉、磨皮等功能。

我用so-vits-svc時不同,它部分插件看似全英文比較麻煩,但可以訓練人聲,還可以變換歌曲場景等等,所以,從專業(yè)角度來看,Suno更像一鍋出的大雜燴。

雖然還不夠完美,有點粗糙,但不可否認,這種工業(yè)化生產(chǎn)的音樂,已經(jīng)占據(jù)了視頻和流媒體平臺大部分的流量。

換句話說,就質(zhì)量而言,現(xiàn)在AI生成的好音樂已經(jīng)可以媲美一般的音樂創(chuàng)作者了,盡管對于我們不熟悉的音樂流派來說,可能還是聽不出太多門道。

目前Suno AI官網(wǎng)沒有公開技術(shù)文檔,我也不清楚模型結(jié)構(gòu),但可以看出,v3版本在支持中文方面比上一版進步很多,盡管偶爾會有電音;不過,模型迭代是必要的,畢竟遵循AI領域的一個通用規(guī)律即:模型越大,效果越好。

04

你聽說了嗎?

國內(nèi)昆侖萬維推出了「天工AI」搜索后,國外,AI搜索初創(chuàng)公司Perplexity AI一飛沖天。

Perplexity AI的創(chuàng)始人說,他對Suno這家公司很有信心,覺得它有潛力成為下一個AI領域的重磅玩家。

我特意去了解了下這家公司,原來Suno四個創(chuàng)始人之前在劍橋一個叫Kensho Technologies的公司共事的,他們中有兩個是業(yè)余音樂愛好者。

他們在Kensho的時,主要開發(fā)一種AI技術(shù),用來把上市公司的電話會議內(nèi)容轉(zhuǎn)錄下來;后來,他們發(fā)現(xiàn)雖然AI在圖像和文本生成方面搞出了不少大動作,音頻這塊卻相對冷清。于是,就萌生了自己搞點動靜的念頭。

盡管有人說他們在炒作,但實不可否認,他們的產(chǎn)品更新快,音質(zhì)也挺好的;就連Perplexity AI的老板都說,現(xiàn)在他聽歌更傾向于用Suno而不是Spotify。

從個人使用角度來說,我自己這一周一直在用,我并不關注它到底是否炒作,或者割韭菜,至少它滿足了我的「耳感」,讓我愿意去嘗試這些新奇的東西。

我覺得,未來個人創(chuàng)作音樂的熱潮會跟寫作一樣,爆發(fā)式增長,市場角色已經(jīng)從單純的供給方轉(zhuǎn)變?yōu)榱斯┬桦p方互動,這意味著更多人可以參與到創(chuàng)作中來,甚至出現(xiàn)共創(chuàng)的模式。

在國內(nèi),音頻AI領域也有不少實力派玩家,比如科大訊飛、騰訊音樂娛樂集團(TME)、網(wǎng)易云音樂等,它們在AI音樂上的嘗試雖然步伐稍顯緩慢,但也在穩(wěn)步前進。

根據(jù)Suno的一個創(chuàng)始人所說,高質(zhì)量音頻采樣率一般是44kHz或48kHz,意味著每秒要處理48000個數(shù)據(jù)點,音樂生成面臨的一個挑戰(zhàn)是,不像文字那樣可以離散處理,音頻數(shù)據(jù)處理要復雜得多。

所以,看似文生圖模型大爆發(fā),但在音視頻這塊,類似產(chǎn)品還只是剛剛起步,或者說它們根本不一樣,真心希望國內(nèi)企業(yè)能夠加快發(fā)展步伐,推出更多像Suno這樣的創(chuàng)新產(chǎn)品。

總結(jié)而言:

好玩,有趣。

音樂界也終將被AI改變命運,只有親身體驗過,你才會驚嘆于自己竟能成為一名音樂家??烊ピ囋嚢伞?/p>

專欄作家

王智遠,公眾號:王智遠,暢銷書《復利思維》作者,人人都是產(chǎn)品經(jīng)理專欄作家?;ヂ?lián)網(wǎng)學者,左手科技互聯(lián)網(wǎng),右手個體認知成長。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!