古詩詞大全網 - 成語故事 - 基因組註釋文件(二)| gff 和 gtf文件格式說明

基因組註釋文件(二)| gff 和 gtf文件格式說明

GFF和GTF是兩種最常用的基因組註釋格式,在信息分析中建庫時除了需要fasta文件壹般還會需要這兩種文件,提取需要的信息進行註釋。

GFF(General Feature Format)是壹種用來描述基因組特征的文件,現在我們所使用的大部分都是第三版(gff3)。

gff文件除gff1以外均由9列數據組成,前8列在gff的3個版本中信息都是相同的,只是名稱不同:

gtf文件是以tab鍵分割的9列組成,以下為每壹列的對應信息:

在GFF文件的開頭,可以有#開頭的註釋行,示例如下

對於不同的基因組特征,其屬性不同。

染色體是基礎,後續的基因,exon等都是需要定位在染色體上的。

假基因示例如下

tRNA基因示例如下

miRNA基因示例如下

壹個miRNA基因的最終會形成兩個成熟的miRNA。

lncRNA基因示例如下

需要註意是,由於可變剪切的存在,壹個蛋白編碼基因可能會有多個轉錄本。

查看第9列有哪些註釋信息:

gtf全稱為gene transfer format,主要是用來對基因進行註釋,當前所廣泛使用的gtf格式為第二版(gtf2)。以下均基於gtf2敘述。

gtf同gff3很相似,也是9列內容,其內容如下:

例子:

GFF 全稱為general feature format,這種格式主要是用來 註釋基因組 。

GTF 全稱為gene transfer format,主要是用來對 基因 進行註釋。

GTF 的第九列,通常為:

而 GFF 的第九列,通常為:

目前兩種文件可以方便的 相互轉化 :使用 gffread

UCSC GTF format

/sinat_38163598/article/details/72851239