關于深度殘差收縮網絡,你需要知道這幾點
深度殘差收縮網絡是什么?為什么提出這個概念?它的核心步驟是什么?文章圍繞深度殘差收縮網絡的相關研究,對這個問題進行了回答,與大家分享。
深度殘差網絡ResNet獲得了2016年CVPR會議的最佳論文獎,截至目前,在谷歌學術上的引用量已經達到了38295次。
深度殘差收縮網絡是深度殘差網絡的一種新穎的改進版本,其實是深度殘差網絡、注意力機制和軟閾值函數(shù)的深度集成。
在一定程度上,深度殘差收縮網絡的工作原理,可以理解為:通過注意力機制注意到不重要的特征,通過軟閾值函數(shù)將它們置為零;或者說,通過注意力機制注意到重要的特征,將它們保留下來,從而加強深度神經網絡從含噪聲信號中提取有用特征的能力。
01 提出深度殘差收縮網絡的動機是什么呢?
首先,在對樣本進行分類的時候,樣本中不可避免地會有一些噪聲,就像高斯噪聲、粉色噪聲、拉普拉斯噪聲等。更廣義地講,樣本中很可能包含著與當前分類任務無關的信息,這些信息也可以理解為噪聲。這些噪聲可能會對分類效果產生不利的影響。(軟閾值化是許多信號降噪算法中的一個關鍵步驟)
舉例來說,在馬路邊聊天的時候,聊天的聲音里就可能會混雜車輛的鳴笛聲、車輪聲等等。當對這些聲音信號進行語音識別的時候,識別效果不可避免地會受到鳴笛聲、車輪聲的影響。
從深度學習的角度來講,這些鳴笛聲、車輪聲所對應的特征,就應該在深度神經網絡內部被刪除掉,以避免對語音識別的效果造成影響。
其次,即使是同一個樣本集,各個樣本的噪聲量也往往是不同的。(這和注意力機制有相通之處;以一個圖像樣本集為例,各張圖片中目標物體所在的位置可能是不同的;注意力機制可以針對每一張圖片,注意到目標物體所在的位置)
例如,當訓練貓狗分類器的時候,對于標簽為“狗”的5張圖像,第1張圖像可能同時包含著狗和老鼠,第2張圖像可能同時包含著狗和鵝,第3張圖像可能同時包含著狗和雞,第4張圖像可能同時包含著狗和驢,第5張圖像可能同時包含著狗和鴨子。
我們在訓練貓狗分類器的時候,就不可避免地會受到老鼠、鵝、雞、驢和鴨子等無關物體的干擾,造成分類準確率下降。如果我們能夠注意到這些無關的老鼠、鵝、雞、驢和鴨子,將它們所對應的特征刪除掉,就有可能提高貓狗分類器的準確率。
02 軟閾值化是很多降噪算法的核心步驟
軟閾值化,是很多信號降噪算法的核心步驟,將絕對值小于某個閾值的特征刪除掉,將絕對值大于這個閾值的特征朝著零的方向進行收縮。它可以通過以下公式來實現(xiàn):
軟閾值化的輸出對于輸入的導數(shù)為:
由上可知,軟閾值化的導數(shù)要么是1,要么是0。這個性質是和ReLU激活函數(shù)是相同的。因此,軟閾值化也能夠減小深度學習算法遭遇梯度彌散和梯度爆炸的風險。
在軟閾值化函數(shù)中,閾值的設置必須符合兩個的條件: 第一,閾值是正數(shù);第二,閾值不能大于輸入信號的最大值,否則輸出會全部為零。
同時,閾值最好還能符合第三個條件:每個樣本應該根據(jù)自身的噪聲含量,有著自己獨立的閾值。
這是因為,很多樣本的噪聲含量經常是不同的。例如經常會有這種情況,在同一個樣本集里面,樣本A所含噪聲較少,樣本B所含噪聲較多。那么,如果是在降噪算法里進行軟閾值化的時候,樣本A就應該采用較大的閾值,樣本B就應該采用較小的閾值。
在深度神經網絡中,雖然這些特征和閾值失去了明確的物理意義,但是基本的道理還是相通的。也就是說,每個樣本應該根據(jù)自身的噪聲含量,有著自己獨立的閾值。
03 注意力機制
注意力機制在計算機視覺領域是比較容易理解的。動物的視覺系統(tǒng)可以快速掃描全部區(qū)域,發(fā)現(xiàn)目標物體,進而將注意力集中在目標物體上,以提取更多的細節(jié),同時抑制無關信息。具體請參照注意力機制方面的文章。
Squeeze-and-Excitation Network(SENet)是一種較新的注意力機制下的深度學習方法。 在不同的樣本中,不同的特征通道,在分類任務中的貢獻大小,往往是不同的。SENet采用一個小型的子網絡,獲得一組權重,進而將這組權重與各個通道的特征分別相乘,以調整各個通道特征的大小。
這個過程,就可以認為是在施加不同大小的注意力在各個特征通道上。
在這種方式下,每一個樣本,都會有自己獨立的一組權重。換言之,任意的兩個樣本,它們的權重,都是不一樣的。在SENet中,獲得權重的具體路徑是,“全局池化→全連接層→ReLU函數(shù)→全連接層→Sigmoid函數(shù)”。
04 深度注意力機制下的軟閾值化
深度殘差收縮網絡借鑒了上述SENet的子網絡結構,以實現(xiàn)注意力機制下的軟閾值化。通過藍色框內的子網絡,就可以學習得到一組閾值,對各個特征通道進行軟閾值化。
在這個子網絡中,首先對輸入特征圖的所有特征,求它們的絕對值。然后經過全局均值池化和平均,獲得一個特征,記為A。在另一條路徑中,全局均值池化之后的特征圖,被輸入到一個小型的全連接網絡。這個全連接網絡以Sigmoid函數(shù)作為最后一層,將輸出歸一化到0和1之間,獲得一個系數(shù),記為α。最終的閾值可以表示為α×A。
因此,閾值就是,一個0和1之間的數(shù)字×特征圖的絕對值的平均。通過這種方式,保證了閾值為正,而且不會太大。
而且,不同的樣本就有了不同的閾值。因此,在一定程度上,可以理解成一種特殊的注意力機制:注意到與當前任務無關的特征,通過軟閾值化,將它們置為零;或者說,注意到與當前任務有關的特征,將它們保留下來。
最后,堆疊一定數(shù)量的基本模塊以及卷積層、批標準化、激活函數(shù)、全局均值池化以及全連接輸出層等,就得到了完整的深度殘差收縮網絡。
05 深度殘差收縮網絡或許有更廣泛的通用性
深度殘差收縮網絡事實上是一種通用的特征學習方法。這是因為很多特征學習的任務中,樣本中或多或少都會包含一些噪聲,以及不相關的信息。這些噪聲和不相關的信息,有可能會對特征學習的效果造成影響。例如說:
在圖片分類的時候,如果圖片同時包含著很多其他的物體,那么這些物體就可以被理解成“噪聲”;深度殘差收縮網絡或許能夠借助注意力機制,注意到這些“噪聲”,然后借助軟閾值化,將這些“噪聲”所對應的特征置為零,就有可能提高圖像分類的準確率。
在語音識別的時候,如果在聲音較為嘈雜的環(huán)境里,比如在馬路邊、工廠車間里聊天的時候,深度殘差收縮網絡也許可以提高語音識別的準確率,或者給出了一種能夠提高語音識別準確率的思路。
#論文網址#
本文由 @日月之行 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!