組間差異檢驗，終於有人講清楚了!

什麽是組間差異檢驗？就是組間的差異分析以及顯著性檢驗，應用統計學上的假設檢驗方法，檢驗組間是否有差異及其差異程度。坦率地講，所有的差異檢驗都基於壹個假設：組間沒有差異，變量之間沒有關系（即原假設，）。上海交大王成老師也說方差分析其實研究的就是不同水平下是否有差異化的假設檢驗問題。而假設檢驗就是先對總體參數提出某種假設，然後利用樣本信息判斷假設是否成立的過程。

所以，本著負責的態度，在本文的開始我們有必要回顧壹下《概率論與數理統計》中關於假設檢驗的基本概念。

其中參數這個概念最值得我們好好體會，因為今天的主角 組間差異檢驗 ，在這個水平上可以分為兩類：參數檢驗和非參數檢驗。那麽什麽叫參數檢驗和非參數檢驗，它們之間的區別是什麽呢。要理解前面的問題，首先需要明白統計推斷的概念。

統計推斷是研究如何利用樣本數據來推斷總體特征的統計學方法，包括參數估計和假設檢驗兩大類。總體的參數壹般是未知的，通常可以用樣本統計量來對總體的參數進行估計，例如可以用樣本均值對總體均值進行點估計，利用樣本均值的分布對總體均值進行區間估計，這些都稱為參數估計。

參數檢驗和非參數檢驗的區別：

那麽什麽時候用參數檢驗，什麽時候用非參數檢驗呢？非參數檢驗壹般不直接用樣本觀察值作分析，統計量的計算基於原始數據在整個樣本中的秩次，丟棄了觀察值的具體數值，因此凡適合參數檢驗的資料，應首選參數檢驗。但是不清楚是否合適參數檢驗的資料，則應采用非參數檢驗。

此處也許大家期待作者帶我們溫習壹下假設檢驗的4 個步驟（提出假設；構造檢驗統計量；根據顯著水平，確定臨界值和拒絕域；做出檢驗決策），但是帶有幾分傲氣的作者絕情地不為我們沒有學好的課程補刀，補課的事情讓我們自己去做，他轉而講自己認為重要的知識點：抽樣分布。

知道我們的研究對象整體處於什麽狀態，是壹件非常重要的事情。三大抽樣分布（ -分布、分布、 -分布）和正態分布***同構成了現代數理統計學的基礎，其中，正態分布和 -分布是關於均值的分布；分布、 -分布是關於方差的分布。很多同學做統計做了很多年，卻不知道為什麽幾乎每個方差分析都有值。可見，統計學拼到最後拼的都是基礎。

離開分布，假設檢驗無從談起；離開假設檢驗，差異分析毫無根基。同樣地，出於人道主義，我們來重溫壹下抽樣分布。

設 X 1 ,X 2 ,......X n 相互獨立, 都服從標準正態分布N(0,1), 則稱隨機變量χ 2 =X 1 2 +X 2 2 +......+X n 2 所服從的分布為自由度為 n 的分布

設服從標準正態分布N(0,1)，服從自由度為n的分布，且、相互獨立，則稱變量所服從的分布為自由度為n的 -分布

設服從自由度為的分布, 服從自由度為的分布，且、相互獨立，則稱變量所服從的分布為分布，其中第壹自由度為 ,第二自由度為。壹般滴，這裏F就是均方之比。

不管是參數檢驗還是非參數檢驗，都要基於特定的分布來做假設檢驗。當總體分布已知時，例如總體服從正態分布，我們可以根據給定的顯著性水平（通常為0.01 或0.05）查表獲得臨界值。當總體分布未知時，可以先用Permutation test 構造經驗分布，再根據顯著性水平獲得臨界值。

傳統的統計量檢驗的方法是在檢驗之前確定顯著性水平，也就意味著事先確定了臨界值和拒絕域。這樣，不論檢驗統計量的值是大還是小，只要它的值落入拒絕域就拒絕原假設，否則就不拒絕原假設。這種給定顯著性水平的方法，無法給出觀測數據與原假設之間不壹致程度的精確度量。要測量出樣本觀測數據與原假設中假設值的偏離程度，則需要計算pvalue值。pvalue 值，也稱為觀測到的顯著性水平，它表示為如果原假設正確時得到實際觀測樣本結果的概率。pvalue 值越小，說明實際觀測到的數據與之間的不壹致的程度就越大，檢驗的結果就越顯著。

變量較多，判斷組間差異時需要多重檢驗的情況在宏基因組擴增子差異分析中十分常見。這種情況下，基於單次比較的檢驗標準將變得過於寬松，使得陽性結果中的錯誤率（FDR 值FalseDiscovery Rate）非常大（已經大到令人不可忍受的地步）。怎麽辦呢？最好的辦法就提高判斷的標準（p value），單次判斷的犯錯概率就會下降，總體犯錯的概率也將下降。在多重檢驗中提高判斷標準的方法，我們就稱之為 多重檢驗校正 。從1979 年以來，統計學家提出了多種多重檢驗校正的方法。相應地，對p值校正之後的叫法也不壹樣，比如，FDR、Q value、Adjusted p-value，這個大家知道在多重檢驗時需要校正就行了，具體的用法作者有時間再教大家（這個作者真是皮啊~~）。

關於宏基因組或擴增子組間差異檢驗的理論知識就到這了，作者認為知道以上知識點是必要的，也告訴我們，今天我們討論的是統計推斷。換句話說，找差異，我們是專業的。

人民為了找差異，這才學會做統計。為了說明組間的數據差異很大，人民開發了許多沿用至今的圖畫，下面我們就壹起來揭開這壹幅幅有差異的畫面。

在數據科學家的工具箱裏，這是壹款經久不衰、常用常新的瑞士軍刀。幾乎只要想到差異分析，就會想到箱線圖。也開發出類箱線圖的工具比如小提琴圖（小提琴圖Violin plot）

壹般有進化樹和層次聚類樹，如果妳想表達對象之間的距離差異，最直觀的的也許就是樹狀圖了。為了用圖表示親緣關系，把分類單位擺在圖上樹枝頂部，根據分枝可以表示其相互關系，具有二次元和三次元。在數量分類學上用於表型分類的樹狀圖，稱為表型樹狀圖（phenogram），摻入系統的推論的稱為系統樹狀圖（cladogram）以資區別。

貼心的作者小朋友把實現這些圖形的常見R包列給大家，安裝後就能用啦

這裏說的基於物種言下之意是通過統計分析，可以有針對性的找出分組間豐度變化差異顯著的物種，並得到差異物種在不同分組間的富集情況，同時，可以比較組內差異和組間差異的大小，判斷不同分組間的群落結構差異是否具有顯著意義。也就是說可以找出區別組間的壹個biomarker。

這類檢驗壹般只輸出p值，它的目的很簡單，就是檢驗比較組之間的相似性距離是否有差異。常用的分析方法有卡方檢驗、Student t檢驗、Wilcoxon秩和檢驗等等。

如果只有兩個樣本比較，適合用卡方檢驗 ，不過說實在的，檢驗出來的結果沒什麽可靠性，因為現階段16s研究不做重復實在“難以服眾”了。先不說價格便宜，做重復壓根沒有難度，就是從生物學、統計學角度考慮，也需要做重復。

如果是兩組樣本（至少3重復），可以試壹下Student t，Welch‘st以及Wilcoxon秩和檢驗 。Student t檢驗需要樣本符合正態分布，而且方差對齊。當組間樣本數不同，方差也不對齊的時候，Welch’s t檢驗是很好的選擇。

Wilcoxon秩和檢驗又叫Mann-Whitney U 檢驗，是基於變量排名的壹種統計方法，不需要樣本符合正態分布，也不需要樣本方差對齊，是更為廣泛的檢驗方法，但同時也由於檢驗太寬松，容易帶來很多假陽性。

如果是多組樣本比較，可以選擇one way ANOVA、TURKEY以及Kruskal-Wallis H檢驗等方法 。one way ANOVA和TURKEY其實都是基於方差分析，只不過後者帶有後驗，可以知道兩個分組對整體差異的貢獻度。

Kruskal-Wallis H檢驗本質也是壹種秩和檢驗，與前兩者的區別在於，它不需要樣本數和方差的對齊，應用更為廣泛。Kruskal-Wallis檢驗又被稱之為單因素非參數方差分析。

毫不客氣地講，壹般秩和檢驗或置換檢驗屬於非參數檢驗。在這類差異檢驗中，有兩種集成方法特別值得我們註意：LEfSe 、metastats。

得到結果展示如下，差異體現在柱形圖和樹狀圖上。LDA值分布柱狀圖中展示了LDA Score大於設定值（默認設置為4）的物種，即組間具有統計學差異的Biomarker。展示了不同組中豐度差異顯著的物種，柱狀圖的長度代表差異物種的影響大小（即為 LDA Score）。

在進化分支圖中，由內至外輻射的圓圈代表了由門至屬（或種）的分類級別。在不同分類級別上的每壹個小圓圈代表該水平下的壹個分類，小圓圈直徑大小與相對豐度大小呈正比。著色原則：無顯著差異的物種統壹著色為黃色，差異物種Biomarker跟隨組進行著色，紅色節點表示在紅色組別中起到重要作用的微生物類群，綠色節點表示在綠色組別中起到重要作用的微生物類群，若圖中某壹組缺失，則表明此組中並無差異顯著的物種，故此組缺失。圖中英文字母表示的物種名稱在右側圖例中進行展示。

metastats結果給出差異物種的p值和q值（表中的數據是假的！）

所謂基於距離也就是檢驗的是群落差異而不是某個物種。上面所提及的檢驗方法，其實都只能告訴大家，這些分組是否有顯著差異（可以簡單理解為有無）。那如果想同時知道這些差異的程度（可以簡單理解為多少）呢，那需要Anosim，Adonis以及MRPP等檢驗方法。這些方法不但可以輸出檢驗顯著性結果（p值），還有程度結果（R值），R值可以用來判斷分組貢獻度大小。Anosim、Adonis這些可用於多元統計檢驗的模型就非常適合了。要值得註意的是，Anosim本質是基於排名的算法，其實與NMDS的配合效果最好。如果是PCoA分析，建議配合使用Adonis檢驗結果。

Anosim（Analysis of similarities）是壹種非參數檢驗方法。它首先通過變量計算樣本間關系（或者說相似性），然後計算關系排名，最後通過排名進行置換檢驗判斷組間差異是否顯著不同於組內差異。這個檢驗有兩個重要的數值，壹個是p值，可以判斷這種組間與組內的比較是否顯著；壹個是R值，可以得出組間與組內比較的差異程度。Anosim用來檢驗組間的差異是否顯著大於組內差異，從而判斷分組是否有意義，Anosim分析使用R vegan包anosim函數,壹般基於Bray-Curtis距離值的秩次進行組間差異顯著行檢驗，詳細計算過程可查看 Anosim 。

該方法主要有兩個數值結果：壹個是R，用於不同組間否存在差異；壹個是P，用於說明是否存在顯著差異。以下分別對兩個數值進行說明：

R值的計算公式如下：

rB：組間差異性秩的平均值（mean rank of between group dissimilarities）

rW：組內差異性秩的平均值（mean rank of within group dissimilarities）

n：總樣本個數（the number of samples）

R的範圍為[-1，1]

R>0說明組間差異大於組內差異，R<0組間差異小於組內差異。

R只是組間是否有差異的數值表示，並不提供顯著性說明。

P值則說明不同組間差異是否顯著，該P值通過置換檢驗（Permutation Test）獲得。

置換檢驗大致原理：（假設原始分組為實驗組和對照組）

1、對所有樣本進行隨機分組，即實驗組和對照組。

2、計算當前分組時的R值，即為Ri。

3、重復當前操作N次，對所有Ri及原始R從大到小排序，R所處的位置除以N即為置換檢驗P值。

ADONIS又稱置換多因素方差分析（permutational MANOVA）或非參數多因素方差分析（nonparametric MANOVA），是壹種基於Bray-Curtis距離的非參數多元方差分析方法。它與Anosim的用途其實差不多，也能夠給出不同分組因素對樣品差異的解釋度（R值）與分組顯著性（P值）。不同點是應用的檢驗模型不同，ADONIS本質是基於F統計量的方差分析，所以很多細節與上述方差分析類似。該方法可分析不同分組因素對樣本差異的解釋度，並使用置換檢驗對分組的統計學意義進行顯著性分析。ADONIS分析使用R vegan包adonis函數進行分析，詳細計算過程可 adonis

MRPP分析與Anosim類似，但是MRPP是基於Bray-Curtis的參數檢驗，用於分析組間微生物群落結構的差異是否顯著，通常配合PCA、PCoA、NMDS等降維圖使用，MRPP分析使用R vegan包mrpp函數,詳細計算過程可查看 MRPP

分子方差分析法 (AMOVA)與ANOVA類似，是基於加權或非加權Unifrac距離矩陣，檢驗不同組間差異顯著性的非參數分析方法。壹般基於Unifrac距離，使用mothur軟件amova函數進行組間差異分析，詳細計算過程可查看 Amova

Mantel test，Mantel test 是對兩個矩陣相關關系的檢驗，顧名思義，是壹種檢驗。既然是檢驗就得有原假設，它的原假設是兩個矩陣見沒有相關關系。檢驗過程如下：兩個矩陣都對應展開，變量兩列，計算相關系數（理論上什麽相關系數都可以計算，但常用pearson相關系數），然後其中壹列或兩列同時置換，再計算壹個值，permutation 成千上萬次，看實際的r值在所得r值分布中的位置，如果跟隨機置換得到的結果站隊較近，則不大相關，如果遠遠比隨機由此得到顯著性。詳細計算過程可查看 Mantel test

作者實在太懶，堅持別人已經說過的話不願再說，只要抄過來就好了，在文章的最後他把趙小胖的壹段話原版搬了過來：

無論妳從事何種領域的科學研究還是統計調查，顯著性檢驗作為判斷兩個乃至多個數據集之間是否存在差異的方法被廣泛應用於各個科研領域。筆者作為科研界壹名新人也曾經在顯著性檢驗方面吃過許多苦頭。後來醉心於統計理論半載有余才摸到顯著性檢驗的皮毛，也為顯著性檢驗理論之精妙，品種之繁多，邏輯之嚴謹所折服。在此，特寫下這篇博文，以供那些仍然掙紮在顯著性檢驗泥潭的非統計專業的科研界同僚們參考。由於筆者本人也並非統計專業畢業，所持觀點粗陋淺鄙，貽笑大方之處還望諸位業界前輩，領域翹楚不吝賜教。小可在此謝過諸位看官了。

參考：