系統發育進化樹 ( Phylogenetic tree):** 壹般也叫系統進化樹,進化樹。它可以利用樹狀分支圖形來表示各物種或基因間的親緣關系。
建進化樹的過程,用術語講:
分支系統發育分析 ( Molecular phylogenetic analysis):** 是用來研究物種或序列進化和系統分類的壹種方法。壹般研究對象是堿基序列或氨基酸序列,通過數理統計算法來計算生物間進化關系。最後,根據計算結果,可視化為系統進化樹。
我們模擬壹個項目,使用人和鼠的各兩個基因做進化樹,結果如下:
可以看到上面有壹堆標註,下面來看看它們代表什麽意義:
所有分支的***同祖先叫做根
根據有無根可分為:
有根樹:上面的圖就是有根樹,可以從樹中找到***同的祖先。
無根樹:顧名思義,沒有根,也就找不到***同的祖先。比如後邊會提到的 Straight Tree
每個結點代表壹個分類單元,物種上可以是屬,種群等,基因上可以是基因家族,同源物等。
但是,也有另外壹種解釋:
這種解釋將 node 分為 外部節點與內部節點:
外部節點又叫葉節點,也就是最外層的人基因1,人基因2等,代表參與分析的序列樣本
內部節點,也就是我們使用藍色標註的位置,代表假定祖先。
也叫分支,指兩種及以上的生物或序列組成的進化關系。
可以利用這個來看同源。比如,上圖中人基因1與人基因2可能是旁系同源基因,而人基因1與鼠基因1可能是直系同源基因。
與分析序列相關的生物序列,但是具有較遠的親緣關系。
也叫遺傳變異度,進化距離。壹般會標註在分支線上,代表進化支變化的程度,越短代表差異越小,進化距離越近。比如人基因1與人基因2的遺傳變異度為 0.21+0.22=0.43。 遺傳變異度實際代表基因組序列中每個位點堿基的替換頻率,計算方法也很簡單:變異度=變異堿基數/總堿基數(%)。我們常見的形式,通常以0-1的小數來表示,代表100個堿基位點的變異度大小。
我們可以從水平方向上的分支及長度,看到進化譜系隨著時間的變化,進化分支長度越長代表著該分支對應的物種或基因的變化越大。比如,對應上圖,我們可以描述為人基因1相對其他基因在進化時間上更早,而且在進化時間上鼠基因2最晚。
有意思的是,根據基因序列相似度與進化時間假說對這種進化距離進行轉換,就可以得到分子鐘。比如,用它分析病毒進化樹,甚至可以推斷出初代病毒產生的時間點。
生物或序列間差異數值的單位長度,相當於進化樹的比例尺。
壹般會標註在結點,用來評估該分支的可信度。
Bootstrap value 對於我們後續分析比較重要,尤其在進化樹評估中。
對於進化樹評估壹般會使用 Bootstrap 進行檢驗。
Bootstrap檢驗,自舉法檢驗,也叫自展,自助法。其實就是放回式抽樣統計法的壹種,通過對數據集多次重復取樣,構建多個進化樹,用來檢查給定樹的分枝可信度。
那麽重復取樣的次數會在建樹時設置,現在壹般文章要求Bootstrap 取樣值 >1000。
雖然根據嚴格的統計學概念,自展值需要要大於95%才較為可信。
然而在實際應用中,我們壹般認為結點的 Bootstrap value > 70,這個分支就是可靠的。特別是微生物等相似度比較大的分類中,壹般大於50%就認為可信(小於50%不會顯示)。
如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很難區分
如果低 Bootstrap value 更靠近根,代表相似度太低
優點很明顯,就是可以清晰的展示出樣本間進化距離和進化分支。缺點就是展示出來效果不炫。
有時候也可以這樣顯示,相對來說,更酷壹點:
Straight Tree
再酷壹點:
Curved Tree
本質上是將樹圖極坐標化。這種圖,可以說是進化樹最炫的壹種展示,而且在分析樣本數量大的時候,效果更佳。但是,致命缺點是可讀性不好,比如很難橫向對比進化距離。因此,適用於展示差異較大的物種或基因樣本。
這種圖用於根不確定的進化樹構建。它可以將相似度高的樣本序列聚集在壹起。因此,更適合做親緣關系近的物種或差異小的基因樣本。