古詩詞大全網 - 古詩大全 - GTF與GFF

GTF與GFF

壹、格式介紹

(壹)gtf 文件。GTF 為General Transfer Format縮寫,跟 GFF2格式類似。相信大家做轉錄組分析時候經常會看到Cufflinks或者Stringtie軟件對轉錄組進行定量與組裝會時產生壹個gtf文件,裏面包含的信息如下:

每列信息的含義如下:

seqname ?- 序列的ID,可以是染色體的ID也可以是Scaffold或者Contig的ID。

source ?- 產生此文件的軟件,如Stringtie產生的則為Stringtie,CUfflinks產生的則為Cufflinks,不知道的使用點 “.” 表示。

feature ?- 後面start和end之間區域代表的特征,如果此區域是基因,則此處為gene,如果是外顯子,則為exon,如果是轉錄本,則為transcript,如果是非編碼RNA則為lncRNA,如果是重復序列,則為TE,等等,主要表明這壹塊區域的特征。

start ?-上述feature的在序列上的起始位置。

end ?- 上述feature的在序列上的終止位置。

score ?- 壹個浮點數值,也可以為點 “.” 。有值的時候代表上述feature的可靠

性。因為無論是gene還是mRNA,都是基於預測差生的,因而必然會有壹個值來衡量預測準確性。

strand ?- + (forward)或者 - (reverse),代表上述feature是位於正鏈還是負鏈上。

frame ?- 內含子相位,只能為'0', '1' or '2',或者為點 “.”。 '0' 代表feature起始堿基為三聯體密碼子的第壹個堿基, '1' 代表三聯體密碼子的第2個堿基, 2代表第3個堿基。

attribute ?-備註列。主要備註該feature的壹些信息,常見的是gene或者transcript等的ID信息以及FPKM值等,多個備註信息之間通常用分號分隔。

(二)gff 格式。為general feature format縮寫,目前采用的是version 3,即我們常說的gff3文件。該文件常用來對基因組進行註釋,表示基因,外顯子,CDS,UTR等在基因組上的位置。眾多基因預測軟件如Glean,EVM,AUGUSTUS等會產生此格式文件。

與gtf文件不同之處只是在第9列。此列格式為“標簽=值”(tag=value),標簽與值之間用“=”,不同的標簽之間用“;”隔開,壹個標簽可以有多個值,不同值用“,”分割。

二、gtf與gff轉換以及對GFF文件進行過濾。

常采用的軟件是gffread,為Cufflinks自帶的壹個程序,他不僅可以實現GTF與GFF的互相轉換,而且還可以對GFF文件進行過濾處理。以下是gffread的幫助信息:

Usage:

gffread <input_gff> [-g <genomic_seqs_fasta> | <dir>][-s <seq_info.fsize>]?

?[-o <outfile.gff>] [-t <tname>] [-r [[<strand>]<chr>:]<start>..<end> [-R]]

?[-CTVNJMKQAFGUBHZWTOLE] [-w <exons.fa>] [-x <cds.fa>] [-y <tr_cds.fa>]

?[-i <maxintron>]?

<input_gffmatch>為壹個GFF/GTF文件,必填的壹個文件

常用參數介紹:

?-g ?序列文件,即GFF/GTF文件第壹列ID對應的序列文件。

?-i ?丟棄掉內含子大於的轉錄本(mRNA/transcript)

?-r ?起始和終止位置,填寫示例100.10000即為輸出與100到10000有重疊的所有轉錄組,也可以限制序列ID及鏈,填寫示例:+Chr1:100..10000。

?-R ?丟棄掉此範圍的轉錄本,與-r相反。

?-U ?丟棄掉 single-exon的轉錄本

?-C ?丟低調無CDS的轉錄本。

?-V ?丟棄掉含有移碼突變的轉錄本。

?-H ?如果使用了-V,則重新檢查並調整內含子相位,避免由於翻譯起始位點選擇的位置不對導致移碼突變的產生。

?-B 如果使用了-V, 對於單外顯子基因,則重新檢查相反的鏈,是否存在移碼突變。

?-N ?丟棄掉多外顯子基因剪接位點不是常見的 GT-AG, GC-AG or AT-AC序列。

?-J ?丟棄掉沒有起始密碼子或者終止密碼子的轉錄本,僅保留有完整編碼框的轉錄本。

?--no-pseudo:過濾掉含有 'pseudo' 的註釋信息

?-M/--merge : 合並完全相同的或者存在包含關系的轉錄本。

-d:使用 -M ,將合並信息輸出到文件中

?--cluster-only: 類似於 --merge 但是不合並轉錄本

-K ?對於-M 選項:also collapse shorter, fully contained transcripts

? with fewer introns than the container

-Q?對於-M 選項:移除包含關系的轉錄本的限制條件:多外顯子轉錄本將會合並,如果他們內含子位置完全壹樣,單外顯子轉錄本只需要有80%壹樣即可合並。

?--force-exons: ?使GFF features的最小層級為exon

?-E 對於重復的 ID或者?GFF/GTF 其他潛在的格式問題給出警告信息。

-Z ?將內含子小於4 bp的鄰近的兩個外顯子合並為壹個。

?-w ?輸出每個轉錄本的外顯子序列

?-x ?輸出CDS序列

?-W ?對於 -w 和 -x 選項,輸出外顯子位置坐標到FASTA序列的ID中

?-y ?輸出蛋白質序列

?-L ?將Ensembl GTF 轉換為 GFF3 conversion (implies -F; should be used with -m)

?-o ? 輸出"filtered" 後的GFF文件 。

-T ?-o 參數將輸出 GTF格式。

示例命令:

1.GFF轉換GTF

gffread input.gff3 -T -o out.gtf‘

2.GTF轉換GFF3

gffread input.gtf -o out.gff3

3.根據GFF或者GTF提取蛋白質,CDS和外顯子序列

gffread gene.gff3 -g genome.fa -x cds.fa -y pep.fa -w cdna.fa

三、GFF文件比較

主要采用gffcompare(/gpertea/gffcompare),其主要具有三個功能:1)評估Cufflinks/Stringtie等轉錄本組裝軟件的準確性;2)合並多個GFF/GTF中重疊的部分(多個樣本組裝結果的合並)3)可以對壹個或多個GTF/GFF文件的註釋相對於參考的GTF/GFF文件進行分類(with "class codes" assigned to transcripts as per their relationship with the matching/overlapping reference transcript),如Pacbio預測的GTF與參考GFF比較,修正和評估參考的註釋結果。

Usage:

gffcompare [-r <reference_mrna.gtf> [-R]] [-G] [-T] [-V] [-s <seq_path>]

[-o <outprefix>] [-p <cprefix>]?

{-i <input_gtf_list> | <input1.gtf> [<input2.gtf> .. <inputN.gtf>]}

常用參數介紹:

-i ?多個GTF 文件時,使用此選項較方便,將多個GTF文件寫在壹個文件中,通過此選項傳入即可。

-r 參考的 GTF/GFF文件

-R ?針對的是-r參數,僅考慮參考與任何輸入的註釋文件有重疊的 。

-Q 針對的是-r參數,僅考慮輸入的註釋文件與任何參考有重疊的 。 (警告,這將丟棄所有的新的註釋位點)

-M 丟棄(忽略)掉輸入的註釋文件和參考註釋文件中單外顯子轉錄本

-N 丟棄(忽略)掉參考註釋文件中單外顯子轉錄本

-s 基因組序列文件

-e 當評估外顯子準確性時,離參考末端外顯子最遠的距離(默認100)

-d 轉錄本聚類時起始位點相差的最大距離 (默認100)

-C ?在.combined.gtf文件中包含 "contained" 類型的轉錄本

-F 如果僅是3’端不同,則不丟棄輸入的GTF文件中被參考包含的冗余的轉錄本註釋信息。

-G 不丟棄輸入的GTF文件中被參考包含的冗余的轉錄本註釋信息,主要是鑒於可變剪接。

-T 對於每壹個輸入文件不產生 .tmap 和 .refmap文件

-V 給出 GFF 解析時的警告信息

參考命令:

gffcompare ?-r refChr.gff3 ?-R -G -o combine input.gtf

輸出結果中有以下幾個文件:

combine.combined.gtf

combine.loci

combine.stats

combine.tracking

其中在combine.combined.gtf中有壹個class_code 代表輸入的註釋文件與參考註釋文件相似性信息,具體如下:

#Transfrag class codes

PriorityCodeDescription

1=Complete match of intron chain

2cContained

3jPotentially novel isoform (fragment): at least one splice junction is shared with a reference transcript

4eSingle exon transfrag overlapping a reference exon and at least 10 bp of a reference intron, indicating a possible pre-mRNA fragment.

5iA transfrag falling entirely within a reference intron

6oGeneric exonic overlap with a reference transcript

7pPossible polymerase run-on fragment (within 2Kbases of a reference transcript)

8rRepeat. Currently determined by looking at the soft-masked reference sequence and applied to transcripts where at least 50% of the bases are lower case

9uUnknown, intergenic transcript

10xExonic overlap with reference on the opposite strand

11sAn intron of the transfrag overlaps a reference intron on the opposite strand (likely due to read mapping errors)

12.(.tracking file only, indicates multiple classifications)

由於輸出文件幾乎跟cuffcompare格式幾乎是壹樣的,

更詳細輸出介紹參見pare/。

轉自:/wuliuxinwen/2/33709819.htm