古詩詞大全網 - 成語故事 - 蛋白質組學中對缺失值的處理

蛋白質組學中對缺失值的處理

蛋白質組學數據中經常存在缺失值(missing values),特別是對於非標記定量蛋白質學(DDA或者DIA),都存在相當壹部分缺失值。首先說說缺失值的產生機制:

完全隨機缺失(MCAR,Missing Completely At Random),指的是數據的缺失不依賴於自身或者其他變量,完全是隨機的(例如質譜儀的擾動)。MCAR完全隨機,所以它對妳整個數據的影響沒有任何的偏好性,呈現均壹分布。

隨機缺失(MAR,Missing At Random),指的是數據的缺失不是完全隨機的,該類數據的缺失依賴於其他觀測變量。比如時間梯度越長的采集越可能有缺失值的出現。這個時候,若是我們將時間變量進行控制,那麽數據的缺失也就變成了完全隨機的了。所以也有人認為MCAR和MAR二者沒啥區別,或者認為MCAR是MAR的壹個特例(doi:10.1186/1471-2105-13-S16-S5)

非隨機缺失(MNAR,Missing Not At Random),指的是數據的缺失依賴於觀測變量自身。比如在質譜檢測的過程中,某些肽段的含量在儀器的檢測限以下,這些肽段的定量信息就很有可能丟失。

很難真正辨別缺失值產生的確切原因。壹般我們默認缺失值屬於MCAR或MAR機制類的,除非有足夠的證據表明是MNAR機制類的缺失值。

DDA label-free壹般較多,10%-50% 的缺失值。過濾標準不定,如壹個蛋白中三個重復,2個有值,建議保留,1個有值,嚴格壹點考慮過濾掉。

不建議用均值、中位值或最小值來進行填充。

常用方法:KNN,Sequential KNN,MI,RandomForest, Impseq等,所有方法都是基於現有的數據來進行填充的。其中,KNN,s-KNN等依賴於局部基因***表達的假設,而Impseq依賴於全局基因***表達的假設。NAguideR可比較評估23種缺失值填充方法,幫助我們從中選擇最好的壹種。