形式如下:
relu 公式
-----stepped sigmoid
------- softplus function
------- Rel function
其中 -------- sigmoid
下面解釋上述公式中的softplus,Noisy ReLU.
softplus 函數與ReLU函數接近,但比較平滑, 同ReLU壹樣是單邊抑制,有寬廣的接受域(0,+inf), 但是由於指數運算,對數運算計算量大的原因,而不太被人使用.並且從壹些人的使用經驗來看(Glorot et al.(2011a)),效果也並不比ReLU好.
softplus的導數恰好是sigmoid函數
ReLU的稀疏性
Leaky ReLU
當?<0時,?(?)=,其中?非常小,這樣可以避免在?<0時,不能夠學習的情況:
稱為Parametric Rectifier(PReLU)將 ? 作為可學習的參數.
當 ? 從高斯分布中隨機產生時稱為Random Rectifier(RReLU)
當固定為?=0.01時,是Leaky ReLU。
優點:
是個常識或可訓練的參數。Swish 具備有下界、平滑、非單調的特性。
Swish在深層模型上的效果優於 ReLU。
例如,僅僅使用 Swish 單元替換 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分類準確率提高 0.9%,Inception-ResNet-v 的分類準確率提高 0.6%。
導數
當 = 0
Swish變為線性函數
在 , Swish變為 relu:f(x) = 2max(0,x)
所以Swish函數可以看做是介於線性函數與relu函數之間的平滑函數
Maxout可以看做是在深度學習網絡中加入壹層激活函數層,包含壹個參數k.這壹層相比ReLU,sigmoid等,其特殊之處在於增加了k個神經元,然後輸出激活值最大的值.
我們常見的隱含層節點輸出:
在maxout網絡中,其隱含層節點的輸出表達式為