1. 梯度下降法(Gradient Descent)
梯度下降法是最早最簡單,也是最為常用的最優化方法。梯度下降法實現簡單,當目標函數是凸函數時,梯度下降法的解是全局解。壹般情況下,其解不保證是全局最優解,梯度下降法的速度也未必是最快的。 梯度下降法的優化思想是用當前位置負梯度方向作為搜索方向,因為該方向為當前位置的最快下降方向,所以也被稱為是”最速下降法“。最速下降法越接近目標值,步長越小,前進越慢。
梯度下降 法的缺點:
(1)靠近極小值時收斂速度減慢;
(2)直線搜索時可能會產生壹些問題;
(3)可能會“之字形”地下降。
在機器學習中,基於基本的梯度下降法發展了兩種梯度下降方法,分別為隨機梯度下降法和批量梯度下降法。
比如對壹個線性回歸(Linear Logistics)模型,假設下面的h(x)是要擬合的函數,J( )為損失函數, 是參數,要叠代求解的值,求解出來了那最終要擬合的函數h( )就出來了。其中m是訓練集的樣本個數,n是特征的個數。
1)批量梯度下降法(Batch Gradient Descent,BGD)
(1)將J( )對 求偏導,得到每個theta對應的的梯度:
(2)由於是要最小化風險函數,所以按每個參數 的梯度負方向,來更新每個 :
(3)從上面公式可以註意到,它得到的是壹個全局最優解,但是每叠代壹步,都要用到訓練集所有的數據,如果m很大,那麽可想而知這種方法的叠代速度會相當的慢。所以,這就引入了另外壹種方法——隨機梯度下降。
對於批量梯度下降法,樣本個數m,x為n維向量,壹次叠代需要把m個樣本全部帶入計算,叠代壹次計算量為m*n2。
2)隨機梯度下降(Stochastic Gradient Descent,SGD)
(1)上面的風險函數可以寫成如下這種形式,損失函數對應的是訓練集中每個樣本的粒度,而上面批量梯度下降對應的是所有的訓練樣本:
(2)每個樣本的損失函數,對 求偏導得到對應梯度,來更新 :
(3)隨機梯度下降是通過每個樣本來叠代更新壹次,如果樣本量很大的情況(例如幾十萬),那麽可能只用其中幾萬條或者幾千條的樣本,就已經將
叠代到最優解了,對比上面的批量梯度下降,叠代壹次需要用到十幾萬訓練樣本,壹次叠代不可能最優,如果叠代10次的話就需要遍歷訓練樣本10次。但是,SGD伴隨的壹個問題是噪音較BGD要多,使得SGD並不是每次叠代都向著整體最優化方向。
隨機梯度下降每次叠代只使用壹個樣本,叠代壹次計算量為n2,當樣本個數m很大的時候,隨機梯度下降叠代壹次的速度要遠高於批量梯度下降方法。 兩者的關系可以這樣理解:隨機梯度下降方法以損失很小的壹部分精確度和增加壹定數量的叠代次數為代價,換取了總體的優化效率的提升。增加的叠代次數遠遠小於樣本的數量。
對批量梯度下降法和隨機梯度下降法的總結:
批量梯度下降---最小化所有訓練樣本的損失函數,使得最終求解的是全局的最優解,即求解的參數是使得風險函數最小,但是對於大規模樣本問題效率低下。
隨機梯度下降---最小化每條樣本的損失函數,雖然不是每次叠代得到的損失函數都向著全局最優方向, 但是大的整體的方向是向全局最優解的,最終的結果往往是在全局最優解附近,適用於大規模訓練樣本情況。
2. 牛頓法和擬牛頓法(Newton's method &?Quasi-Newton Methods)
1)牛頓法(Newton's method)
牛頓法是壹種在實數域和復數域上近似求解方程的方法。方法使用函數 f? ( x )的泰勒級數的前面幾項來尋找方程 f? ( x ) = 0的根。牛頓法最大的特點就在於它的收斂速度很快。
具體步驟:
首先,選擇壹個接近函數 f? ( x )零點的x0,計算相應的 f? ( x 0)和切線斜率 f ?'? ( x 0)(這裏 f '? 表示函數 f ? 的導數)。然後我們計算穿過點( x 0, f ? ( x 0))並且斜率為 f? '( x 0)的直線和 x? 軸的交點的 x 坐標,也就是求如下方程的解:
我們將新求得的點的 x? 坐標命名為 x 1,通常 x 1會比 x 0更接近方程 f ? ( x ) = 0的解。因此我們現在可以利用 x 1開始下壹輪叠代。叠代公式可化簡為如下所示:
已經證明,如果 f ? '是連續的,並且待求的零點 x 是孤立的,那麽在零點 x 周圍存在壹個區域,只要初始值 x 0位於這個鄰近區域內,那麽牛頓法必定收斂。 並且,如果 f ? ' ( x )不為0, 那麽牛頓法將具有平方收斂的性能. 粗略的說,這意味著每叠代壹次,牛頓法結果的有效數字將增加壹倍。下圖為壹個牛頓法執行過程的例子。
由於牛頓法是基於當前位置的切線來確定下壹次的位置,所以牛頓法又被很形象地稱為是"切線法"。
關於牛頓法和梯度下降法的效率對比:
從本質上去看,牛頓法是二階收斂,梯度下降是壹階收斂,所以牛頓法就更快。如果更通俗地說的話,比如妳想找壹條最短的路徑走到壹個盆地的最底部,梯度下降法每次只從妳當前所處位置選壹個坡度最大的方向走壹步,牛頓法在選擇方向時,不僅會考慮坡度是否夠大,還會考慮妳走了壹步之後,坡度是否會變得更大。所以,可以說牛頓法比梯度下降法看得更遠壹點,能更快地走到最底部。(牛頓法目光更加長遠,所以少走彎路;相對而言,梯度下降法只考慮了局部的最優,沒有全局思想。)
根據wiki上的解釋,從幾何上說,牛頓法就是用壹個二次曲面去擬合妳當前所處位置的局部曲面,而梯度下降法是用壹個平面去擬合當前的局部曲面,通常情況下,二次曲面的擬合會比平面更好,所以牛頓法選擇的下降路徑會更符合真實的最優下降路徑。
註:紅色的牛頓法的叠代路徑,綠色的是梯度下降法的叠代路徑。
牛頓法的優缺點總結:
優點:二階收斂,收斂速度快;
缺點:牛頓法是壹種叠代算法,每壹步都需要求解目標函數的Hessian矩陣的逆矩陣,計算比較復雜。
2)擬牛頓法(Quasi-Newton Methods)
擬牛頓法是求解非線性優化問題最有效的方法之壹,於20世紀50年代由美國Argonne國家實驗室的物理學家W.C.Davidon所提出來。Davidon設計的這種算法在當時看來是非線性優化領域最具創造性的發明之壹。不久R. Fletcher和M. J. D. Powell證實了這種新的算法遠比其他方法快速和可靠,使得非線性優化這門學科在壹夜之間突飛猛進。
擬牛頓法的本質思想是改善牛頓法每次需要求解復雜的Hessian矩陣的逆矩陣的缺陷,它使用正定矩陣來近似Hessian矩陣的逆,從而簡化了運算的復雜度。 擬牛頓法和最速下降法壹樣只要求每壹步叠代時知道目標函數的梯度。通過測量梯度的變化,構造壹個目標函數的模型使之足以產生超線性收斂性。這類方法大大優於最速下降法,尤其對於困難的問題。另外,因為擬牛頓法不需要二階導數的信息,所以有時比牛頓法更為有效。如今,優化軟件中包含了大量的擬牛頓算法用來解決無約束,約束,和大規模的優化問題。
具體步驟:
擬牛頓法的基本思想如下。首先構造目標函數在當前叠代xk的二次模型:
這裏Bk是壹個對稱正定矩陣,於是我們取這個二次模型的最優解作為搜索方向,並且得到新的叠代點:
其中我們要求步長ak 滿足Wolfe條件。這樣的叠代與牛頓法類似,區別就在於用近似的Hesse矩陣Bk 代替真實的Hesse矩陣。所以擬牛頓法最關鍵的地方就是每壹步叠代中矩陣Bk的更新。現在假設得到壹個新的叠代xk+1,並得到壹個新的二次模型:
我們盡可能地利用上壹步的信息來選取Bk。具體地,我們要求
從而得到
這個公式被稱為割線方程。常用的擬牛頓法有DFP算法和BFGS算法。
原文鏈接: [Math] 常見的幾種最優化方法 - Poll的筆記 - 博客園