音頻、大腦與人工智能產品初探
隨著大模型對的發展,AI技術在音頻、視頻上都已經開始得到廣泛的應用。這篇文章,作者給大家分享了音頻的一些基礎知識,以及人工智能與音頻技術結合,如何賦能腦科學產品進行探討。
在人類五感中,聽覺扮演著至關重要的角色。它不僅讓我們欣賞美妙的音樂,感受大自然的聲音,還幫助我們與他人溝通,獲取信息。聽覺與大腦之間密不可分。
現實中有部分人聽到不同的聲音身體會有過敏反應,聲波在一定程度上可以影響人們的身體反應。我們知道,當一個物體振動時,它會導致周圍介質(如空氣、水或固體)中的粒子產生振動。這些振動的粒子將能量傳遞給相鄰的粒子,形成一個振動的傳播鏈,即聲波。
音頻是聲音的頻率范圍,通常指的是人類可以聽到的聲音頻率范圍,大約從20赫茲到20,000赫茲。這個范圍內的聲波當被耳朵捕捉并傳達到大腦時,會被識別為聲音。由于聲波也是一種能量傳播方式,因此我們通過耳朵捕捉到的聲波,會以能量的方式傳輸至我們的大腦,從而轉化為可識別的音頻。
在本文中,我們將人可以聽到的各種聲音都歸入音頻討論的范圍,通過聲波種類的介紹,構成原理,聲波與音頻的關系,音頻的屬性與相關參數,音頻與大腦的相互作用以及人工智能與音頻技術結合,如何賦能腦科學產品進行探討。
一、聲波基礎
1. 波的種類
我們知道,波是一種傳播的擾動;是一種通過介質傳遞能量的方式。不同的波在不同的介質中傳播,如:聲波、機械波和水波等。
聲音是由物體振動產生的波動現象,通過介質(如空氣、水等)傳播。根據振動方式的不同,聲波可以分為縱波和橫波。
縱波是沿著波的傳播方向進行的壓縮和稀疏交替的過程,而橫波則是沿著與傳播方向垂直的方向進行的左右擺動。聲波的頻率決定了音調的高低,振幅決定了音量的大小,而波形則決定了音色的特點。
著名科學家們,如伽利略·伽利萊、羅伯特·波義耳和艾薩克·牛頓,都在“波”這一領域有了自己的發現,但直到18世紀達朗貝(d’Alembert)推導出了波動方程,才使得這一領域變得清晰,從而可以解釋波動現象。
聲音的產生來自于振動產生的聲波。通常而言,波的種類分為縱波和橫波。以質點為參照:
- 質點被擾動的方向與波傳播的方向平行形成的波就是縱波。
- 質點被擾動的方向與波傳播的方向垂直形成的波就是橫波。
2. 波的屬性
波的屬性主要包括波長、頻率、振幅、波形、速度和能量。波的這些屬性不僅定義了波的特性,而且它們相互之間通過數學關系緊密相連。理解這些基本的屬性和公式對于探索和利用波在不同領域(如聲學、光學、量子物理等)中的應用至關重要。
(1)頻率(f,Frequency)
單位時間內,通過某一固定點的完整波形的數量。它反映了波的時間周期性,通常以赫茲(Hz)為單位。在聲波中,頻率決定了聲音的音調高低。
公式:f = 1 / T
其中,T 是波的周期,即一個完整的波形通過一個點所需的時間。
(2)波長(λ,Lambda)
具有相同相位的兩個點之間的距離,或者說是波在一個周期內傳播的距離,以米(m)為單位。波長與頻率成反比,即波長越長,頻率越低,反之亦然。
公式:λ = v / f
其中,v 是波速,f 是波的頻率。
(3)振幅(A,Amplitude)
波的峰值,是波的振動強度的量度,它表示質點離開平衡位置的最大距離。在聲波中,振幅與音量感覺的強度相關;在光波中,振幅與亮度相關。在聲波中,振幅決定了聲音的音量大小。
公式:A = ψmax
其中,ψmax 是波的最大位移或偏移。
(4)波形(Waveform)
波形是指波的形狀,特別是隨時間或空間的變化方式。常見的波形有正弦波、方波、三角波等。波形決定了波的特性和應用。
(5)速度(v,Velocity)
波速是指波的傳播速度,它取決于介質的性質。在固體中波速通常比在液體和氣體中快。
公式:v = λf波速是波長和頻率的乘積。
(6)能量(E,Energy)
波的能量與其振幅的平方成正比。在物理學中,波的能量是傳遞能量的量度,尤其是在研究聲波和光波時尤為重要。
公式:E ∝ A^2能量與振幅的平方成正比。
二、音頻基礎
1. 音頻理論
音頻是指聲波的頻率范圍,通常用赫茲(Hz)表示。人類的聽覺范圍大約在20Hz至20kHz之間,這意味著我們可以聽到這個頻率范圍內的聲音。音頻的屬性包括音調(高低音)、音量(大?。⒁羯ㄌ厣┑?,這些屬性可以通過相關參數來衡量,如頻率、振幅、波形等。
音頻技術,作為現代科技領域中的一個重要分支,其理論基礎涉及聲學、物理學、電子學及信號處理等多個方面。在實際應用中,音頻技術廣泛應用于通信、娛樂、醫療等各個領域,對人類社會的發展起到了重要的推動作用。
聲學是音頻技術的理論基礎之一。聲學主要研究聲波的產生、傳播和接收過程,以及聲波與介質之間的相互作用。聲波是一種機械波,由物體的振動引起,通過介質(如空氣、水等)進行傳播。
聲波的頻率、振幅和波形是描述聲波特征的三個重要參數。頻率是指單位時間內振動的次數,單位為赫茲(Hz)。振幅是指振動的幅度,即聲波能量的大小。波形則是指振動的形態,如正弦波、方波等。
物理學是另一個與音頻技術密切相關的領域。物理學中的許多原理和定律都可以用于解釋聲波的行為和特性。
例如,牛頓第三定律描述了作用力和反作用力的關系,這在分析揚聲器的工作原理時非常有用。再比如,歐姆定律描述了電流、電壓和電阻之間的關系,這對于理解音頻電路的設計和分析具有重要意義。
電子學則是音頻技術中不可或缺的一部分。電子學主要研究電子在導體中的運動規律及其應用。在音頻技術中,電子學主要用于音頻信號的放大、濾波和處理等。
例如,在音頻放大器中,電子學的原理被用于將微弱的音頻信號進行放大,以驅動揚聲器發出聲音。
信號處理是音頻技術中的一個關鍵步驟。信號處理主要包括信號的采集、分析和處理等環節。在信號采集階段,麥克風等設備將聲音轉化為電信號;在信號分析階段,通過對電信號的分析提取聲音的特征和信息;在信號處理階段,根據需求對電信號進行處理,如降噪、均衡等。
基于音頻理論對音頻信號處理的目的是提高音頻信號的質量和可懂度,以滿足不同應用場景的需求。
2. 音頻參數
對于本文而言,我們希望基于AI(Artificial Intelligence,人工智能)可以實時生成適用于每個人的大腦音頻,這就需要使用到數字音頻技術。
音頻的基本參數對于音頻的生成、編輯和播放都至關重要。我們從采樣率、幀、采樣個數、編碼、音高、音量、音色和音長,這幾個參數進行簡要說明。
(1)采樣率
定義:采樣率是指每秒鐘采樣的次數,用于將模擬信號轉換為數字信號。
公式:采樣率(f_s)= 1 / T 其中T是采樣間隔。
案例:CD音質的標準采樣率為44.1 kHz,意味著每秒鐘記錄44100個樣本。
(2)幀
定義:在音頻處理中,幀是一段短時間內的音頻樣本集合,用于音頻編碼和解碼。
案例:當使用MP3格式編碼時,音頻通常被分成多個幀,每個幀包含一定數量的采樣,并添加了用于錯誤檢測和糾正的額外數據。
(3)采樣個數
定義:采樣個數是指在一個特定時間段內的樣本數量。
案例:如果采樣率為44.1 kHz,那么一秒鐘的音頻包含44100個樣本。
(4)編碼
定義:編碼是將模擬音頻信號轉換成數字信號的過程,常用的格式包括PCM、MP3、AAC等。
案例:MP3是一種流行的有損壓縮格式,它通過舍棄人耳不易察覺的音頻信息來減少文件大小。
(5)音高
定義:音高是聲音的頻率,以赫茲(Hz)計量。
公式:f = 音高
案例:A4音符的標準音高為440 Hz,這意味著它的波形每秒鐘振動440次。
(6)音量
定義:音量是聲音的響度,與聲波的振幅相關。
公式:L = 20 * log10(p/p0) 其中L是聲壓級(分貝),p是測量聲壓,p0是參考聲壓。
案例:對話的典型錄音音量約為-20 dB,而音樂會則可能在+4 dB左右。
(7)音色
定義:音色是由音頻波形的形狀決定的,它區分了具有相同音高和音量的兩個不同的聲音。
案例:鋼琴和小提琴即使演奏相同音高的音符,它們的音色也明顯不同,因為波形的形狀和諧波內容不同。
(8)音長
定義:音長是音符持續的時間長度。
公式:T = 音長
案例:在音樂制作中,調整音符的持續時間可以影響節奏和旋律的感覺。
音頻的參數決定了音頻的質量和特性,我們掌握了基本的音頻參數,接下來可以根據腦科學產品的特性,為用戶提供實時可定制化的音頻,用戶可利用產品功能DIY(Do It Yourself,自己動手)自己喜歡的音頻文件,從而達到產品生成的音頻適用于不同的用戶偏好。
三、音頻與大腦
1. 關聯關系
當我們聽到聲音時,聲波首先被耳朵捕捉到,然后通過聽神經傳遞給大腦進行處理。大腦對音頻的處理涉及到多個區域,如顳葉、額葉和頂葉等。
研究表明,音樂可以刺激大腦產生多巴胺,這是一種與愉悅感相關的神經遞質。此外,音頻還可以影響我們的情緒、記憶和認知能力。
聽音樂能夠刺激多巴胺、皮質醇的分泌。這類物質能夠調節情緒,降低抑郁,提高睡眠質量。通過一定的音樂訓練還可廣泛提升人們各方面的學習和記憶能力。
例如,柔和的音樂可以幫助我們放松,激昂的音樂可以激發斗志,而某些音頻還可以改善睡眠質量、提高注意力等。
人類大腦對音頻的感知與處理是一個復雜而精密的過程,涉及多個學科領域的知識,如神經科學、心理學、生物學和物理學等。從聲音傳入耳朵的那一刻起,到大腦最終對其解讀和做出反應,整個流程展現了人類聽覺系統的奇妙之處。
首先,當聲波到達人耳時,它首先通過外耳道進入,然后觸動鼓膜。鼓膜的振動通過中耳的三個小耳骨——錘骨、砧骨和鐙骨——傳遞到內耳。這些振動使內耳的耳蝸中的液體移動,進而刺激位于耳蝸內部的毛細胞。毛細胞是感覺聲音的關鍵細胞,它們將振動轉換成神經信號,通過聽神經傳送到大腦。
(1)公式:F = ma
這里F代表力,m代表質量,a代表加速度。這個公式雖然直接來自牛頓的第二定律,但它對于理解聲音如何通過振動傳遞到我們的內耳具有參考價值。
一旦音頻信號作為電脈沖到達大腦,它會分裂成多條路徑,分別通往負責不同聽覺處理的大腦區域。這些區域包括聽覺皮層和丘腦等。不同的大腦區域會處理音調(頻率)、音量(振幅)、音色(波形)以及聲音的定位和時長等不同屬性。
具體來說,音調的感知主要由大腦的顳葉進行處理。音量的感知則涉及到大腦的多個區域,包括聽覺皮層和額葉。音色的識別則需要更高層次的認知處理,往往牽涉到大腦的頂葉和前額葉區域。
(2)公式:F = 2 / T
此公式用于計算音頻信號的頻率(F),其中T是周期的持續時間。這表明大腦處理的是周期性的振動信號,并將其轉換為我們感知到的具體音調。
大腦不僅處理這些音頻屬性,還會存儲與聲音相關的記憶,以及生成對聲音的情感反應。例如,一段熟悉的旋律可能會喚起特定的記憶,而某種聲音的音色可能會引發特定的情緒反應。
2. 相關研究
全球有很多音頻對大腦的影響相關研究的論文和應用案例。
在天津醫科大學生物醫學工程學院《An aberrant link between gamma oscillation and functional connectivity in Aβ(1–42)-mediated memory deficits in rats》這篇論文中,研究發現γ振蕩和記憶缺陷之間的關系。
對照組的γ振蕩和功能連接在工作記憶過程中增強,功能連接的峰值出現在γ振蕩的峰值之前,表明功能連接和γ振蕩之間存在精確的時間聯系。然而,Aβ組的γ振蕩和功能連接較弱,功能連接與γ振蕩之間的聯系異常。間接證明γ振蕩對阿爾茨海默病 (AD) 的恢復有一定作用。也就意味著,音頻對提認知水平有一定積極影響。
在Department of Neuroscience, Canadian Centre for Behavioural Neuroscience, University of Lethbridge的《Neural oscillations and brain stimulation in Alzheimer’s disease》這篇學術論文中,研究證實衰老與認知處理和大腦神經生理學的改變有關。
雖然遺忘性輕度認知障礙 (aMCI) 的主要癥狀是記憶問題比同齡和同教育程度的正常情況更嚴重,但阿爾茨海默病 (AD) 患者除了記憶功能障礙外,還表現出其他認知領域的障礙。生理衰老的靜息狀態腦電圖 (rsEEG) 研究表明,低頻振蕩功率整體增加,α 活動減少和減慢。
然而,慢速振蕩的增強和快速振蕩的減少以及大腦功能連接的中斷是 AD 中 rsEEG 的主要變化。最近的嚙齒動物研究也支持人類證據,即與年齡和 AD 相關的靜息狀態腦振蕩變化,以及通過伽馬波段刺激的腦刺激技術具有神經保護作用。也就意味著40Hz的音頻可以改善AD患者的認知障礙和記憶障礙。
在麻省理工和哈佛學者發表在nature上的《Gamma frequency entrainment attenuates amyloid load and modifies microglia》論文研究顯示,γ振蕩與高級認知功能和感覺反應相關。40Hz的γ振蕩可以減少小鼠大腦中的淀粉樣蛋白,并誘導小膠質細胞形態變化相關的基因表達,促進大腦的神經保護反應。
這一研究提供了對γ振蕩在神經系統疾病中作用的新見解。表明在阿爾茨海默病早期階段,γ振蕩的減少可能是一種早期生物標志物。通過光遺傳學技術刺激特定的中間神經元可以降低有害的Aβ蛋白水平。
這不僅為理解γ振蕩在健康和疾病狀態下的作用提供了新的視角,而且為阿爾茨海默病的治療干預提供了潛在的新途徑。此外,研究中開發的非侵入性40赫茲光閃爍方案為未來臨床應用提供了一種可能的方法,這種方法可能會減緩或預防阿爾茨海默病的進展。也就意味著可以通過音頻誘導大腦的神經保護反應,來保護腦部健康。
四、AI賦能
1. 腦電波
在認知科學和神經生物學中,理解這些腦電波的頻率和振幅變化對研究大腦的功能狀態至關重要。例如,通過觀察β波和γ波的變化,研究者可以探索認知負荷對大腦活動的影響。當人們進行思維密集型任務時,γ波的活動通常會增加,顯示大腦在積極地處理信息。
腦電波是大腦神經元活動的總體電信號表現,通常按照頻率范圍分為幾種類型,各類型與不同的大腦狀態和認知活動相關聯。
(1)δ波(Delta Waves)
- 頻率:0.5 – 4 Hz
- 出現時段:深睡眠階段
- 功能:與深度休息和恢復有關,也關聯于愈合和再生過程。
(2)θ波(Theta Waves)
- 頻率:4 – 8 Hz
- 出現時段:冥想、淺睡眠或清醒時的放松狀態
- 功能:與創造力、感知和夢境相關,也可能涉及記憶的形成。
(3)α波(Alpha Waves)
- 頻率:8 – 13 Hz
- 出現時段:放松、閉眼休息時
- 功能:代表大腦處于放松、平靜狀態,有助于減少壓力和提高專注力。
(4)β波(Beta Waves)
- 頻率:13 – 30 Hz
- 出現時段:日常警覺狀態、思考和工作
- 功能:與集中注意力、分析和解決問題相關,是意識清醒和忙碌狀態的標志。
(5)γ波(Gamma Waves)
- 頻率:30 – 100 Hz
- 出現時段:處理復雜任務、學習新信息
- 功能:與知覺、問題解決、記憶、學習和意識有關,是大腦進行高層次信息處理的關鍵指標。
腦電波的分析還用于診斷和治療各種神經系統疾病。例如,異常的β波活動可能表明焦慮或過度的精神活動,而調節α波可以幫助緩解壓力和改善放松狀態。
腦電波提供了一種監測和理解大腦活動的有效方式,通過分析不同頻率的腦電波,科學家可以更好地理解大腦在不同狀態下的工作方式,從而為改善認知健康和治療神經性疾病提供重要的依據。
2. 產品應用
隨著人工智能(AI)技術的迅速發展,其在音頻技術領域的應用也日益廣泛。在腦科學領域,人工智能與音頻技術的結合更是為研究和應用帶來了新的可能性。
例如,通過分析大腦對音頻的反應,可以更好地理解大腦的功能和機制;利用音頻刺激來干預大腦活動,可以輔助治療一些神經系統疾?。粚⒁纛l技術應用于腦機接口,可以實現人腦與外部設備的直接交互等。
在本文中,我們結合聲波和音頻的基礎理論,以及音頻與大腦目前的相關研究成果,已經非常明確音頻會對大腦產生影響。結合AI的賦能,使得未來通過音頻對大腦相關疾?。ㄈ纾鹤蚤]癥、抑郁癥、焦慮癥、阿爾茲海默癥等)的預防與康復成為可能。
目前有許一些基于音頻的腦科學相關產品,很多都是基于白噪聲原理,通過對現場音頻采集實現音頻制作,需要耗費大量的時間、人力和物力,也無法根據用戶偏好實時生成音頻。
AI的出現,結合大模型技術,可以實時生成并且以多種形式生成用戶喜歡的音頻??梢曰谝纛l參數,用戶實時調整,也可以通過對用戶文本、圖形、語音的輸入,生成實時音頻。
作者目前基于以上理念,進行了此類產品的初步探索,完成了基本產品的框架。具體產品樣例,可訪問http://sleep.jjyc.org 希望搭建一個音頻、腦科學與人工智能相結合的平臺?;谝纛l對大腦的正向影響展開理論和實戰研究。
五、結語
本文探討了音頻技術及其與大腦相互作用的多方面內容。介紹了聲波的基本物理屬性,如波長、頻率、振幅、波形、速度和能量,并通過公式展示這些屬性之間的關系?;谝纛l理論,討論了音頻的屬性(音調、音量、音色等)以及它們如何通過相關參數進行衡量。
在技術層面,通過聲學、電子學和信號處理基本原理的結合,解釋了音頻技術在通信、娛樂和醫療等領域的應用。提出了一種基于AI技術的腦科學產品概念,該產品能夠利用大模型技術實時生成個性化音頻,以適應不同用戶的需求。
我們對音頻與大腦之間的關聯進行探討,如音樂對大腦的刺激作用、大腦如何處理音頻信號,以及特定音頻如何影響情緒、記憶和認知能力。通過引用相關研究和案例,證實音頻技術在改善認知功能、治療神經性疾病方面的潛力。
結合AI技術和音頻理論的腦科學產品將會有非常闊的應用前景,特別是在腦電波的研究和應用領域。隨著技術的進步,未來音頻產品有望在提高生活質量、促進健康和康復方面發揮更大的作用。
最后,非常希望喜歡腦科學與AI相結合的產品愛好者們探討交流,同時非常歡迎對這個產品方向感興趣的投資人進行初期產品投資。感謝大家閱讀!
專欄作家
王佳亮,微信公眾號:佳佳原創。人人都是產品經理專欄作家,年度優秀作者。《產品經理知識?!纷髡?。中國計算機學會高級會員(CCF Senior Member)。專注于互聯網產品、金融產品、人工智能產品的設計理念分享。
本文原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
省流:說了一堆廢話