決策樹(Decision Tree)常用於研究類別歸屬和預測關系的模型,比如是否抽煙、是否喝酒、年齡、體重等4項個人特征可能會影響到‘是否患癌癥’,上述4項個人特征稱作‘特征’,也即自變量(影響因素X),‘是否患癌癥’稱為‘標簽’,也即因變量(被影響項Y)。決策樹模型時,其可首先對年齡進行劃分,比如以70歲為界,年齡大於70歲時,可能更容易歸類為‘患癌癥’,接著對體重進行劃分,比如大於50公斤為界,大於50公斤時更可能劃分為‘患癌癥’,依次循環下去,特征之間的邏輯組合後(比如年齡大於70歲,體重大於50公斤),會對應到是否患癌癥這壹標簽上。
決策樹是壹種預測模型,為讓其有著良好的預測能力,因此通常需要將數據分為兩組,分別是訓練數據和測試數據。訓練數據用於建立模型使用,即建立特征組合與標簽之間的對應關系,得到這樣的對應關系後(模型後),然後使用測試數據用來驗證當前模型的優劣。通常情況下,訓練數據和測試數據的比例通常為9:1,8:2,7:3,6:4或者5:5(比如9:1時指所有數據中90%作為訓練模型使用,余下10%作為測試模型好壞使用)。具體比例情況似研究數據量而定無固定標準,如果研究數據較少,比如僅幾百條數據,可考慮將70%或者60%,甚至50%的數據用於訓練,余下數據用於測試。上述中包括模型構建和模型預測兩項,如果訓練數據得到的模型優秀,此時可考慮將其進行保存並且部署出去使用(此為計算機工程中應用,SPSSAU暫不提供);除此之外,當決策樹模型構建完成後可進行預測,比如新來壹個病人,他是否會患癌癥及患癌癥的可能性有多高。
決策樹模型可用於特征質量判斷,比如上述是否抽煙、是否喝酒、年齡、體重等4項,該四項對於‘是否患癌癥’的預測作用重要性大小可以進行排名用於篩選出最有用的特征項。
決策樹模型的構建時,需要對參數進行設置,其目的在於構建良好的模型(良好模型的標準通常為:訓練數據得到的模型評估結果良好,並且測試數據時評估結果良好)。需要特別註意壹點是:訓練數據模型評估結果可能很好(甚至準確率等各項指標為100%),但是在測試數據上評估結果確很糟糕,此種情況稱為‘過擬合’。因而在實際研究數據中,需要特別註意此種情況。模型的構建時通常情況下參數設置越復雜,其會帶來訓練數據的模型評估結果越好,但測試效果卻很糟糕,因而在決策樹構建時,需要特別註意參數的相關設置,接下來會使用案例數據進行相關說明。
決策樹模型的原理上,其第1步是找出最優的特征和其分割點,比如影響是否患癌癥的特征最可能是年齡,並且分割點可能是70歲,小於70歲可能歸為‘不患癌癥’,70歲及以上可能歸為‘患癌癥’。此第1步時會涉及到2個專業名詞,分別是‘節點分裂標準’和‘節點劃分方式’。第2步是找出次優的特征和其分割點,繼續進行拆分。壹直循環下去。
關於決策樹模型時,通常涉及到以下參數值,如下:
節點分裂標準:其指模型找到特征優先順序的計算方式,***有兩種,分別是gini系數和entropy系數,二者僅為計算標準的區別功能完全壹致,壹般情況下使用gini系數。
SPSSAU的操作如下: