蛋白質組學中對缺失值的處理

蛋白質組學數據中經常存在缺失值（missing values）,特別是對於非標記定量蛋白質學（DDA或者DIA），都存在相當壹部分缺失值。首先說說缺失值的產生機制：

完全隨機缺失（MCAR，Missing Completely At Random），指的是數據的缺失不依賴於自身或者其他變量，完全是隨機的(例如質譜儀的擾動）。MCAR完全隨機，所以它對妳整個數據的影響沒有任何的偏好性，呈現均壹分布。

隨機缺失（MAR，Missing At Random），指的是數據的缺失不是完全隨機的，該類數據的缺失依賴於其他觀測變量。比如時間梯度越長的采集越可能有缺失值的出現。這個時候，若是我們將時間變量進行控制，那麽數據的缺失也就變成了完全隨機的了。所以也有人認為MCAR和MAR二者沒啥區別，或者認為MCAR是MAR的壹個特例（doi:10.1186/1471-2105-13-S16-S5）

非隨機缺失（MNAR，Missing Not At Random），指的是數據的缺失依賴於觀測變量自身。比如在質譜檢測的過程中，某些肽段的含量在儀器的檢測限以下，這些肽段的定量信息就很有可能丟失。

很難真正辨別缺失值產生的確切原因。壹般我們默認缺失值屬於MCAR或MAR機制類的，除非有足夠的證據表明是MNAR機制類的缺失值。

DDA label-free壹般較多，10%-50% 的缺失值。過濾標準不定，如壹個蛋白中三個重復，2個有值，建議保留，1個有值，嚴格壹點考慮過濾掉。

不建議用均值、中位值或最小值來進行填充。

常用方法：KNN，Sequential KNN，MI，RandomForest， Impseq等，所有方法都是基於現有的數據來進行填充的。其中，KNN，s-KNN等依賴於局部基因***表達的假設，而Impseq依賴於全局基因***表達的假設。NAguideR可比較評估23種缺失值填充方法，幫助我們從中選擇最好的壹種。