1.離散性和非負性:
RNA-Seq生成的讀數是非負的整數計數,這與負二項分布的性質相符合。
2.過度離散(Overdispersion):
在生物學樣本中,基因表達水平通常具有變異性,這種變異性往往超過了泊松分布所假設的均值和方差相等的程度。負二項分布相比泊松分布,可以通過壹個額外的參數來建模這種過度離散,即允許方差大於均值。
3.生物學變異性:
不同個體之間的生物學差異會導致基因表達水平的變異。負二項分布能夠通過引入壹個與個體相關的隨機效應來考慮這種生物學變異性。
4.技術變異:
測序深度不同、實驗操作差異等技術因素也會引入變異。負二項分布模型可以通過引入樣本特有的大小因子來校正不同樣本間的技術變異。