舉個例子,現在我們有壹群正常的神經細胞,壹群突變的神經細胞,突變細胞的行為與正常細胞不同。我們想知道是什麽遺傳機制造成了這種差異,這意味著我們想要觀察基因表達的差異。每壹個細胞有壹堆染色體(chromosomes),每壹個染色體上有壹堆基因,有壹些基因是活躍的,有的是不活躍的, 高通量測序告訴我們哪些基因是活躍的,以及轉錄了多少。 我們可以使用RNA-Seq去檢測正常細胞和突變的細胞中的基因表達。然後我們就可以比較這兩種細胞類型,在突變細胞中找出它們的不同之處。
RNA-Seq分三個主要的步驟:
註意 :我使用 Illumina協議(protocol)和測序儀(sequencer) 作為我的例子,因為他們是常用的,但記住,有其他協議和測序儀是不同的。
我們這樣做是因為RNA轉錄本可以有數千個堿基長,但測序機只能對較短的片段(200-300 bp)進行測序。
雙鏈DNA比RNA更穩定,易於擴增和修飾(modified)。
接頭做兩件事:
註意:這個步驟並不是100%有效的
只有具有測序接頭的片段被放大;他們是豐富的。
想象壹下我們要測序的DNA片段,它是垂直的,因為它在測序儀裏就是這樣的。實際上,大約有4億個片段垂直排列在壹個網格中。我只是給妳看4個片段,網格(grid),我們叫做流動池(flow cell),這臺機器有熒光探針,不同顏色的探針結合不同的核苷酸(nucleotide)。探針連接到每個序列的第壹個堿基上。壹旦探針連接好,機器就會從上面給流動池拍照。這幅圖告訴機器左下角的第壹個堿基是“A”,右下角為‘’G‘’,後方還有兩個‘’A‘’。然後機器會洗掉探針的顏色,然後探針被綁定到每個片段中的下壹個堿基上,重復以上步驟。這個過程不斷重復,直到機器確定每個核苷酸序列。
有時,探針的亮度不高,機器也不確定自己判斷的是正確的顏色, 質量分數(Quality scores) 是輸出的壹部分,反映了機器對堿基識別的自信程度,在這種情況下,褪色的點會得到低質量得分。
妳可能會得到低質量分數的另壹個原因是,在同壹區域有許多相同顏色的探針,這被稱為“低多樣性”,單壹顏色的過多會使識別單個序列變得困難,顏色會模糊在壹起。
每個測序“read”包含4行數據。第壹行(總是以@'開始)是序列的唯壹ID。第二行包含序列片段的堿基。第三行總是壹個“+”字符。第四行包含序列片段中每個堿基的質量得分。
現在我們了解了原始數據以及它是如何生成的,我們需要:
1.過濾掉垃圾reads
2.將高質量的reads與基因組比對
3.計算每個基因的reads
在分析之前我們做的最後壹件事是標準化數據。這是因為每個樣本都有不同的reads,這是由於壹個樣本可能有更多低質量的reads,或者另壹個樣本可能在流動池上的濃度稍高。舉個例子,樣本1有635reads,樣本2有1270reads。這並不意味著樣本2中的基因轉錄量是樣本1的兩倍。相反,這意味著樣品2有較少的低質量reads,可能比樣品1在流動池上有更多的點。然而,從reads來看,樣本2的基因轉錄量似乎是樣本1的兩倍。因此,我們需要調整每個基因的read,以反映分配給每個樣本的reads的差異。最簡單的方法就是用每個基因的reads除以每個樣本的總reads。然而,還有許多更復雜的方法可以做到這壹點。
我們需要壹張有20,000個軸的圖表來繪制原始數據,所以我們使用PCA(主成分分析)或者類似的方法來繪制這些數據。PCA減少了顯示數據重要方面所需的軸數。這是壹個在神經細胞上做的RNA-seq實驗的PCA圖。“wt”樣本是“正常的”。“ko”樣本是研究人員突變的樣本。“ko”樣品在角落裏形成了壹個漂亮的小簇。“wt”樣本都在左側,但分布在y軸上。這些圖的繪制方式,最重要的區別是在x軸上,在y軸的區別不重要,這意味著“wt”和“ko”樣本之間的差異最大,然而,當我們做進壹步分析時,我們可能希望排除“wt2”。
總結:
這通常使用 edgeR 或 DESeq2 來完成,結果通常使用這種圖表來顯示。