宅在家兩個多月,不知不覺已經是春天了,也許距離返校的日子更近了吧...
變異 ,指的是實際測序數據與國際規定的參考基因組之間的區別。很多變異其實只是造成人類多樣性的原因。 突變 ,指的是那些與疾病相關的變異。
舉個例子:ENSEMBL等規定的人類參考基因組文件某位置是AAAAA,然後壹個人實際測序得到的序列為AGCAA,那麽相比於參考基因組,這個人就有2個變異位點。對於第2個位置,如果查看所有已知的測序,絕大部分人都是G,說明是參考基因組出現了問題,這個變異就不能稱作突變。對於第3個位置,如果查看所有已知的測序,絕大部分人都是A,而恰好有壹個人不是A,但他是個患者,那麽這個變異就是突變了。
SNP(single nucleotide polymorphism):單核苷酸多態性。 個體間基因組DNA序列同壹位置單個核苷酸變異(替換、插入或缺失)所引起的多態性。在人類基因組中SNP分布普遍並且密度較大,總數超過107, 平均每300bp(也有說1kbp)就有壹個SNP。或稱單核苷酸位點變異SNV。
INDEL(insertion-deletion):插入和缺失。 基因組上小片段(>50bp)的插入或缺失。
CNV(copy number variation):基因組拷貝數變異。 基因組中大片段的DNA形成非正常的拷貝數量。比如壹個基因在染色體的壹條染色單體上的數目為1,但是在染色體復制過程中,復制結束後該基因在染色單體數目由1變成了2或者n。它發生的頻率遠遠高於染色體結構變異,並且整個基因組中覆蓋的核苷酸總數大大超過SNP的總數。
SV(structure variation):結構變異。 染色體大片段的插入與缺失,染色體內部的某區域發生翻轉顛換,兩條染色體之間發生重組。
壹般情況下只分析SNP,其它類型的變異分析有難度或不準確。
來自兩個不同個體的DNA片段AAGCCTA和AAGCTTA為等位基因。幾乎所有常見的SNP位點只有兩個等位基因。
在人體中,SNP的發生機率大約是0.1%,也就是每1000個堿基對就可能有壹個SNP(密度高)。對疾病發生和藥物治療有重大影響的SNP,估計只占數以百萬計SNP的很小壹部分。
SNP位點的分布是不均勻的,在非轉錄序列比在轉錄序列更常見。編碼區的單核苷酸多態性——編碼 SNP(coding SNP,cSNP)也有同義和非同義兩種類型,非同義SNP會改變蛋白質的氨基酸序列。基因非編碼區、基因間隔區的SNP仍然可能影響轉錄因子結合、剪接等過程。
從演化的觀點來看,SNP具有相當程度的穩定性,即使經過代代相傳,SNP所引起的改變卻不大,因此可用以研究族群演化。
HISAT2 是壹款利用改進的BWT算法進行序列比對的軟件。由約翰霍普金斯大學計算生物學中心(CCB at JHU)開發,是TopHat的升級版本,速度提高了50倍。利用 HISAT2 + StringTie 流程,可以快速地分析轉錄組測序數據,獲得每個基因和轉錄本的表達量。
首先需要構建參考基因組索引用於下壹步的比對。HISAT2提供了兩個腳本用於從基因組註釋GTF文件中提取剪接位點和外顯子位置,基於這些特征,可以使 RNA-Seq reads 比對更加準確。然後再進行reads mapping。
比對結果:
SAM(sequence Alignment/mapping)數據格式是目前高通量測序中存放比對數據的標準格式。BAM是SAM的二進制格式。使用samtools將sam文件轉化為bam文件,並進行排序。
SAM文件:
vcf格式(Variant Call Format)是存儲變異位點的標準格式,用於記錄variants(SNP / InDel)。BCF是VCF的二進制文件。
stats統計文件: