古詩詞大全網 - 成語用法 - 機器學習模型設計的五個要素

機器學習模型設計的五個要素

機器學習模型設計的五個要素

數據可能是無用的,但數據中包含的信息是有用的,可以減少不確定性。數據中的信息量決定了算法的上限。

數據鏈是整個模型建立過程中工作量最大的地方,從埋點、日誌上報、清理存儲到特征項目、用戶畫像、對象畫像,都被認為是最沒有價值,也是最重要的地方。這壹塊跟要解決的問題和選擇的模型有很大關系,需要具體分析。以個性化為例談談特征工程中的信息損失:

我們模型的目的是預測未來——“學習過去,但永遠不知道未來”,並進壹步預測每個人的未來,實時預測每個人的未來。為了做好這壹點,對過去、對用戶、對物品越了解,首先需要收集用戶的行為(何時、何地、如何、做什麽、到什麽程度),然後進行歸因,找出影響用戶點擊的因素,構建用戶興趣圖譜,最後在此基礎上進行預測。

在這個過程中,每壹個環節都會有信息損失,有些是沒有收集到的,比如用戶當時的環境和心情;收集了壹部分,暫時沒辦法用。比如電商領域的用戶直接感知到的是壹張圖片,點與否很大程度上取決於這張圖片。這部分信息在深度學習之前很難使用;有壹部分是收集起來使用的,但是處理方法造成的損失,比如時間窗有多長,特征分散成多少段等等。

初期先搞“量”,再搞“率”,應該是最快出成果的方式

#2 f(x)

f(x)的設計主要集中在參數數量和結構兩個方向的創新。這兩個參數決定了算法的學習能力。從數據中挖掘信息的能力(信息利用率)是類似於“天賦”和“潛力”的東西,用來衡量這個模型有多聰明。相應的,上面的{x,y}就是妳經歷了多少事情。妳經歷的越多,妳越聰明,妳就越會體會到。

模型復雜性-VC維度

參數數量代表模型的復雜程度,壹般用VC維來衡量。VC維度越大,模型越復雜,學習能力越強。當數據量比較小時,高VC維的模型比低VC維的模型差,但這只是故事的壹部分;有了更多的數據,我們會發現低VC維模型的效果已經上不去了,而高VC維模型還在上升。這時,高VC維模型可以對低VC維模型說:妳考了90分是因為妳的實力在那裏,我考了100分是因為體量只有100分。

當然,VC維度並不是越高越好,而是要和問題的復雜程度相匹配:

-如果模型設計比實際簡單,模型表達能力不夠,偏高;將會生成;

-如果模型設計比實際情況復雜,模型容易過擬合,導致方差高;;而且模型越復雜,樣本量越大,DL容易出現上億個樣本。

模型結構

模型結構需要解決的是參數如何組合,可以是“平面”、“三維”,甚至是“時間軸”。不同的模型結構有自己獨特的屬性,可以捕獲不同的數據模式。讓我們來看三個典型的模型:

LR:

只能學習線性信息,通過人工特征工程提高非線性擬合能力

MLR:

與lr相比,lr的表達能力更強。LR對所有用戶和項目使用壹組參數,mlr可以讓每個細分市場都有自己的參數:

-男生和女生的行為模式不同,所以訓練兩個模型,壹個男生壹個女生,不要享受參數。

-服裝行業不同於3C行業,所以培養兩個模特,壹個服裝,壹個3C,享受無參數。

在這條路的盡頭,妳可以為所有人訓練出壹個模型,這才是真正的“個性化”!

調頻:

自動進行特征相交並挖掘非線性信息

DL:

它可以任意精度逼近任意連續函數,意思是“都在裏面了,有什麽需要自己找”,不想費事做假設推導公式的時候就去找。

#3目標

目標函數是在做壹件事之前設定壹個小目標,這個小目標決定了我們接下來要往哪個方向走。總的來說,既好又簡單;有很多標準方法可以選擇,創新空間不大,但是自己做壹個損失函數聽起來不錯,等著大牛吧。

損失函數:rmse/logloss/hinge/...懲罰項:l 1/L2/l 21/水滴/重量下降/...

P(模型|數據)= P(數據|模型)* P(模型)/P(數據)—& gt;對數(d|m) +對數(m)

#4優化

有了目標,模型設計夠聰明,不學或者學的方法不對,又是壹個“傷害鐘勇”的悲劇。這裏要解決的問題是如何更快更好地學習。拋開貝葉斯方法,大致可以分為兩類:

達爾文主義的

啟發式算法,模仿達爾文進化論,通過適應度函數進行“物競天擇,適者生存”的優化,有代表性的有:遺傳算法GA、粒子群優化PSO、蟻群算法AA;適用於解決復雜、指數規模、高維、大空間等特征問題,如物流路徑問題;問題是收斂慢,工業上很少用。

拉馬克的

拉馬克進化論,獲得性遺傳,直接修飾基因(W);比較有代表性的分為兩類:

-新加坡元變體(新加坡元/內斯特羅夫/阿達格拉德/rms prop/亞當/...)

-牛頓變量(牛頓/lbfgs/...)

#5評估

如何做好模特沒有統壹的標準。壹個部署在網上的模型,或多或少會涉及到多方利益。以個性化場景為例,涉及到用戶、供應商/內容生產者、產品運營之間的博弈。壹般來說,“三好模式”應滿足以下三個層次:

算法級別:準確性、覆蓋率、auc、對數損失...公司級別:收入、ctr、cvr...用戶層面:用戶體驗、滿意度、驚喜。...

#0模型的優化

拆解之後,模型優化的思路也很清晰:

想要長胖,首先要有東西吃;其次要會吃,不挑食什麽都能吃;最後,消化更好

用壹個公式總結:模型效果∝數據信息量x算法信息利用率。

壹方面擴大“信息量”,做好用戶畫像和物體畫像,利用圖片/文字等難以量化的數據;另壹方面,提高f(x)提高“信息利用率”,挖掘以前挖不到的規則;

但在大數據初期,效果主要來自第壹個方面。