swish

形式如下:

relu 公式

-----stepped sigmoid

------- softplus function

------- Rel function

其中 -------- sigmoid

下面解釋上述公式中的softplus,Noisy ReLU.

softplus 函數與ReLU函數接近,但比較平滑, 同ReLU壹樣是單邊抑制,有寬廣的接受域(0,+inf), 但是由於指數運算,對數運算計算量大的原因,而不太被人使用.並且從壹些人的使用經驗來看(Glorot et al.(2011a)),效果也並不比ReLU好.

softplus的導數恰好是sigmoid函數

ReLU的稀疏性

Leaky ReLU

當?<0時,?(?)=,其中?非常小,這樣可以避免在?<0時,不能夠學習的情況：

稱為Parametric Rectifier(PReLU)將 ? 作為可學習的參數.

當 ? 從高斯分布中隨機產生時稱為Random Rectifier（RReLU）

當固定為?=0.01時,是Leaky ReLU。

優點:

是個常識或可訓練的參數。Swish 具備有下界、平滑、非單調的特性。

Swish在深層模型上的效果優於 ReLU。

例如，僅僅使用 Swish 單元替換 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分類準確率提高 0.9%，Inception-ResNet-v 的分類準確率提高 0.6%。

導數

當 = 0

Swish變為線性函數

在 , Swish變為 relu：f(x) = 2max(0,x)

所以Swish函數可以看做是介於線性函數與relu函數之間的平滑函數

Maxout可以看做是在深度學習網絡中加入壹層激活函數層,包含壹個參數k.這壹層相比ReLU,sigmoid等,其特殊之處在於增加了k個神經元,然後輸出激活值最大的值.

我們常見的隱含層節點輸出：

在maxout網絡中，其隱含層節點的輸出表達式為