bootstrap方法是從大小為n的原始訓練數據集DD中隨機選擇n個樣本點組成壹個新的訓練集,這個選擇過程獨立重復B次,然後用這B個數據集對模型統計量進行估計(如均值、方差等)。由於原始數據集的大小就是n,所以這B個新的訓練集中不可避免的會存在重復的樣本。
統計量的估計值定義為獨立的B個訓練集上的估計值θbθb的平均:
boosting:
boosting依次訓練k個子分類器,最終的分類結果由這些子分類器投票決定。
首先從大小為n的原始訓練數據集中隨機選取n1n1個樣本訓練出第壹個分類器,記為C1C1,然後構造第二個分類器C2C2的訓練集D2D2,要求:D2D2中壹半樣本能被C1C1正確分類,而另壹半樣本被C1C1錯分。
接著繼續構造第三個分類器C3C3的訓練集D3D3,要求:C1C1、C2C2對D3D3中樣本的分類結果不同。剩余的子分類器按照類似的思路進行訓練。
boosting構造新訓練集的主要原則是使用最富信息的樣本。
更多Python相關技術文章,請訪問Python教程欄目進行學習!以上就是小編分享的關於boosting和bootstrap區別的詳細內容希望對大家有所幫助,更多有關python教程請關註環球青藤其它相關文章!