GFF和GTF是兩種最常用的基因組註釋格式,在信息分析中建庫時除了需要fasta文件壹般還會需要這兩種文件,提取需要的信息進行註釋。
GFF(General Feature Format)是壹種用來描述基因組特征的文件,現在我們所使用的大部分都是第三版(gff3)。
gff文件除gff1以外均由9列數據組成,前8列在gff的3個版本中信息都是相同的,只是名稱不同:
gtf文件是以tab鍵分割的9列組成,以下為每壹列的對應信息:
在GFF文件的開頭,可以有#開頭的註釋行,示例如下
對於不同的基因組特征,其屬性不同。
染色體是基礎,後續的基因,exon等都是需要定位在染色體上的。
假基因示例如下
tRNA基因示例如下
miRNA基因示例如下
壹個miRNA基因的最終會形成兩個成熟的miRNA。
lncRNA基因示例如下
需要註意是,由於可變剪切的存在,壹個蛋白編碼基因可能會有多個轉錄本。
查看第9列有哪些註釋信息:
gtf全稱為gene transfer format,主要是用來對基因進行註釋,當前所廣泛使用的gtf格式為第二版(gtf2)。以下均基於gtf2敘述。
gtf同gff3很相似,也是9列內容,其內容如下:
例子:
GFF 全稱為general feature format,這種格式主要是用來 註釋基因組 。
GTF 全稱為gene transfer format,主要是用來對 基因 進行註釋。
GTF 的第九列,通常為:
而 GFF 的第九列,通常為:
目前兩種文件可以方便的 相互轉化 :使用 gffread
UCSC GTF format
/sinat_38163598/article/details/72851239