線性整流函數

整流線性單位函數（Rectified Linear Unit, ReLU），又稱修正線性單元，是一種類神經網絡中常用的激勵函數（activation function），通常指代以斜坡函數及其變種為代表的非線性函數。

比較常用的線性整流函數有斜坡函數 $f(x)=\max(0,x)$ ，以及帶泄露整流函數（Leaky ReLU），其中 $x$ 為神經元（Neuron）的輸入。線性整流被認為有一定的生物學原理^[1]，並且由於在實踐中通常有着比其他常用激勵函數（譬如邏輯函數）更好的效果，而被如今的深度神經網絡廣泛使用於諸如圖像辨識等電腦視覺人工智能領域^[1]。

定義[編輯]

通常意義下，線性整流函數指代數學中的斜坡函數，即

f(x)=\max(0,x)

而在神經網絡中，線性整流作為神經元的啟用功能，定義了該神經元線上性變換 $\mathbf {w} ^{T}\mathbf {x} +b$ 之後的非線性輸出結果。換言之，對於進入神經元的來自上一層神經網絡的輸入向量 $x$ ，使用線性整流啟用功能的神經元會輸出

\max(0,\mathbf {w} ^{T}\mathbf {x} +b)

至下一層神經元或作為整個神經網絡的輸出（取決現神經元在網絡結構中所處位置）。

變種[編輯]

線性整流函數在基於斜坡函數的基礎上有其他同樣被廣泛應用於深度學習的變種，譬如帶泄露線性整流（Leaky ReLU）^[2]，帶泄露隨機線性整流（Randomized Leaky ReLU）^[3]，以及噪聲線性整流（Noisy ReLU）^[4].

帶泄露線性整流[編輯]

在輸入值 $x$ 為負的時候，帶泄露線性整流函數（Leaky ReLU）的梯度為一個常數 $\lambda \in (0,1)$ ，而不是0。在輸入值為正的時候，帶泄露線性整流函數和普通斜坡函數保持一致。換言之，

f(x)={\begin{cases}x&{\mbox{if }}x>0\\\lambda x&{\mbox{if }}x\leq 0\end{cases}}

在深度學習中，如果設定 $\lambda$ 為一個可通過反向傳播演算法（Backpropagation）學習的變數，那麼帶泄露線性整流又被稱為參數線性整流（Parametric ReLU）^[5]。

帶泄露隨機線性整流[編輯]

帶泄露隨機線性整流（Randomized Leaky ReLU, RReLU）最早是在Kaggle全美數據科學大賽（NDSB）中被首先提出並使用的。相比於普通帶泄露線性整流函數，帶泄露隨機線性整流在負輸入值段的函數梯度 $\lambda$ 是一個取自連續性均勻分佈 $U(l,u)$ 概率模型的隨機變數，即

f(x)={\begin{cases}x&{\mbox{if }}x>0\\\lambda x&{\mbox{if }}x\leq 0\end{cases}}

其中 $\lambda \sim U(l,u),l<u$ 且 $l,u\in [0,1)$ 。

噪聲線性整流[編輯]

噪聲線性整流（Noisy ReLU）是修正線性單元在考慮高斯噪聲的基礎上進行改進的變種啟用功能。對於神經元的輸入值 $x$ ，噪聲線性整流加上了一定程度的正態分佈的不確定性，即

f(x)=\max(0,x+Y)

其中隨機變數 $Y\sim {\mathcal {N}}(0,\sigma (x))$ 。目前，噪聲線性整流函數在受限玻爾茲曼機（Restricted Boltzmann Machine）在電腦圖學的應用中取得了比較好的成果^[4]。

優勢[編輯]

相比於傳統的神經網絡啟用功能，諸如邏輯函數（Logistic sigmoid）和tanh等雙曲函數，線性整流函數有着以下幾方面的優勢：

仿生物學原理：相關大腦方面的研究表明生物神經元的訊息編碼通常是比較分散及稀疏的^[6]。通常情況下，大腦中在同一時間大概只有1%-4%的神經元處於活躍狀態。使用線性修正以及正規化（regularization）可以對機器神經網絡中神經元的活躍度（即輸出為正值）進行除錯；相比之下，邏輯函數在輸入為0時達到 ${\frac {1}{2}}$ ，即已經是半飽和的穩定狀態，不夠符合實際生物學對模擬神經網絡的期望^[1]。不過需要指出的是，一般情況下，在一個使用修正線性單元（即線性整流）的神經網絡中大概有50%的神經元處於啟用態^[1]。

更加有效率的梯度下降以及反向傳播：避免了梯度爆炸和梯度消失問題

簡化計算過程：沒有了其他複雜啟用功能中諸如指數函數的影響；同時活躍度的分散性使得神經網絡整體計算成本下降

參考資料[編輯]

^ ^1.0 ^1.1 ^1.2 ^1.3 Xavier Glorot, Antoine Bordes and Yoshua Bengio. Deep sparse rectifier neural networks (PDF). AISTATS. 2011 [2016-09-28]. （原始內容 (PDF)存檔於2016-12-13）.
^ Andrew L. Maas, Awni Y. Hannum and Andrew Y. Ng. Rectified Nonlinearities Improve Neural Network Acoustic Models (PDF). ICML. 2013 [2019-07-29]. （原始內容 (PDF)存檔於2021-01-10）.
^ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu. Empirical Evaluation of Rectified Activations in Convolution Network. 2015. arXiv:1505.00853v2 . cite arXiv模板填寫了不支援的參數 (幫助)
^ ^4.0 ^4.1 Vinod Nair and Geoffrey Hinton. Rectified linear units improve restricted Boltzmann machines (PDF). ICML. 2010. （原始內容 (PDF)存檔於2014-03-24）.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification. 2015. arXiv:1502.01852v1 . cite arXiv模板填寫了不支援的參數 (幫助)
^ David Attwell and Simon B. Laughlin. An energy budget for signaling in the grey matter of the brain. JCBFM. 2001 [2016-09-28]. （原始內容存檔於2016-09-08）.

外部連結[編輯]

Quora: What is special about rectifier neural units used in NN learning?

[glorot2011-1] 1.0 ^1.1 ^1.2 ^1.3 Xavier Glorot, Antoine Bordes and Yoshua Bengio. Deep sparse rectifier neural networks (PDF). AISTATS. 2011 [2016-09-28]. （原始內容 (PDF)存檔於2016-12-13）.

[leakyrelu-2] Andrew L. Maas, Awni Y. Hannum and Andrew Y. Ng. Rectified Nonlinearities Improve Neural Network Acoustic Models (PDF). ICML. 2013 [2019-07-29]. （原始內容 (PDF)存檔於2021-01-10）.

[randomizedleakyrelu-3] Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu. Empirical Evaluation of Rectified Activations in Convolution Network. 2015. arXiv:1505.00853v2 . cite arXiv模板填寫了不支援的參數 (幫助)

[nair2010-4] 4.0 ^4.1 Vinod Nair and Geoffrey Hinton. Rectified linear units improve restricted Boltzmann machines (PDF). ICML. 2010. （原始內容 (PDF)存檔於2014-03-24）.

[parametricrelu-5] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification. 2015. arXiv:1502.01852v1 . cite arXiv模板填寫了不支援的參數 (幫助)

[brainresearch-6] David Attwell and Simon B. Laughlin. An energy budget for signaling in the grey matter of the brain. JCBFM. 2001 [2016-09-28]. （原始內容存檔於2016-09-08）.

[1]

[2]

[3]

[4]

[5]

[6]