古詩詞大全網 - 四字成語 - HGVS規則下的變異命名(二)|DNA水平不同變異類型的“抽絲剝繭”

HGVS規則下的變異命名(二)|DNA水平不同變異類型的“抽絲剝繭”

本文首發於微信公眾號“ 基因部落 ”,歡迎關註,獲得更多幹貨。

針對不同的變異類型,HGVS制定了相應的變異描述規則。本篇文章針對 DNA水平 不同變異類型進行命名格式介紹。

置換

Substitution

HGVS定義:

a sequence change where, compared to a reference sequence, one nucleotide is replaced by one other nucleotide.

描述格式:

“prefix”“position_substituted”“reference_nucleotide””>”new_nucleotide”

?如:g.123A>G

“prefix” =參考序列 = g.

“position_substituted” = 被置換堿基位置= 123

“reference_nucleotide” = 被置換的堿基= A

”>” = 置換為= >

“new_nucleotide” = 置換後新的堿基= G

有些註意的 點 :

1. predix :參考序列可以是g.(基因組)、m.(線粒體)、c.(編碼DNA)、n.(非編碼DNA)。

2. 堿基數:置換不局限於單堿基之間的置換,可以是多個堿基,可以描述為 delins 。涉及多個堿基發生變異時, 若是兩個變異 ,則這個變異單獨描述而不用delins進行合並描述。 例外的情況 :涉及的多個變異的堿基***同影響了 壹個氨基酸 ,則需要合並描述,使用delins,如c.142_144delinsTGG (p.Arg48Trp)。

多態性位點不能描述為:c.76A/G,盡管過去使用此形式描述多態性位點,但現在的觀點是要 客觀中立的描述堿基的變化 ,而不應該帶有任何預測或已知功能的信息。

舉個栗子:

NC_000023.10:g.33038255 C>A

33038255位置的C被A取代。

NG_012232.1(NM_004006.1):c.93+1G>T

編碼DNA序列的c.93+1位置的G被T取代。( 上篇文章中介紹了編碼DNA位置描述,此處不再贅述。 )

LRG_199t1: c.79_80delinsTTor c.[79G>T;80C>T]

壹般情況下,推薦使用c.79_80delinsTT形式,在c.79G>T和c.80C>T兩個變異中其中壹個為已知的高頻變異的情況下,推薦使用c.[79G>T;80C>T]。

註意 : 根據堿基置換的定義,是 壹個堿基被置換為另壹個堿基 ,因此,下列的描述方式是 錯誤 的:c.79_80GC>TT或c.79GC>TT。

NM_004006.1:c.[145C>T;147C>G]

上述也可描述為NM_004006.1:c.145_147delinsTGG,除非c.145C>T 和 c.147C>G其中壹個為已知的高頻變異情況下,必須使用c.[145C>T;147C>G]。

LRG_199t1:c.54G>H

c.54位置的G堿基被A、C或T取代。

小插曲:下表中的這些符號妳知道麽?

NM_004006.1:c.123=

c.123位置沒有氨基酸變化。

LRG_199t1:c.85=/T>C

在c.85位置上,即發現了與參考序列壹致的堿基T,也發現了被C取代的情況。

註意: 不論上述兩種情況的比例如何,都需要把參考序列壹致的堿基列於第壹位。

NM_004006.1:c.85=//T>C

嵌合體情況,包括c.85=的細胞,也包括c.85T>C的細胞。

註意: 不論上述兩種情況的比例如何,都需要把參考序列壹致的堿基列於第壹位。

缺失

Deletion

HGVS定義:

a sequence change where, compared to a reference sequence, one or more nucleotides are not present (deleted).

描述格式:

prefix”“position(s)_deleted”“del”

如 g.123_127del

“prefix” ?= 參考序列= g.

“position(s)_deleted” =?

缺失堿基的位置或缺失堿基起始位置= 123_127

“del” =?

缺失= del

有些註意的點:

1.“ position(s)_deleted ”表示不同的位置,如g. 123_126而不能是123_123。

2.“ position(s)_deleted ”位置描述應該從5’端到3’端進行。 特殊情況 :環狀的基因組序列,如o.和m.,當缺失堿基位於參考序列的最後和開始位置時,可以按照3’到5’進行描述。

3. ?最靠近3’端法則 :缺失的堿基認為是靠近3’端,而不是5’端。如,ACTTTGTGCC變成了ACTTGCC,缺失了三個堿基,是ACTTTGTGCC還是ACTTTGTGCC?也就是說從5’端開始出現不壹致的序列算起,還是從3’端出現不壹致的序列算起?根據最靠近3’端法則,TGT比TTG更靠近3’端,因此,變異描述應認為缺失了TGT(c.5_7del),而不是TTG(c.4_6del)。

或者,我們可以這麽理解,比對參考序列和變異後的序列時, 從5’端開始比對至出現第壹個不壹致的堿基,被認為是變異的起始位置。

但也有例外的情況,缺失的多個堿基跨越內含子和外顯子的邊界,基於缺失的堿基對外顯子的影響要大於對內含子的影響。如CAGgtg變成CAgtg,應描述為c.3+1delG,而不是c.3delG。

舉個栗子:

NG_012232.1:g.19_21del

原始序列?AGAA TCA CA?,缺失後的序列AGAA ___ CA,也可以將缺失的堿基列出,如NG_012232.1:g.19_21delTCA。

NG_012232.1(NM_004006.1):c.183_186+48del

缺失範圍跨越了外顯子和內含子的邊界。

NG_012232.1(NM_004006.1):c.4072-1234_5155-246del

此種情況為跨越內含子的外顯子缺失,即exon30(c.4072起始)到exon36(c.5154為止)。此種情況下,由於缺失堿基數目較多,缺失的堿基便不應該列出來了。

NG_012232.1(NM_004006.1):c.(4071+1_4072-1)_(5154+1_5155-1)del

缺失的break point 還無法確定。

NG_012232.1(NM_004006.1):c.(?_-245)_(31+1_32-1)del

缺失的起始位點位於基因上遊某位點,已確定的最近的位點在c.-244。

重復

Duplication

HGVS定義:

a sequence change where, compared to a reference sequence, a copy of one or more nucleotides are inserted? directly 3' ?of the original copy of that sequence.

描述格式: ?

“prefix”“position(s)_duplicated”“dup”

如:g.123_345dup

“prefix” ?= 參考序列 = g.

“position(s)_duplicated” =?

發生重復的堿基或堿基起始位置= 123_345

“dup” =?

重復 = dup

有些註意的點:

1.描述堿基重復的位置同樣也必須遵循“ 最靠近3’端法則 ”。

2.根據堿基重復的定義,重復的堿基是直接位於被重復的堿基3’端,而不是在其他地方(插入)。當不知道重復的堿基是直接位於重復的堿基3’端還是插入到了別的地方,不能被描述為dup,而應描述為插入(insertion)。

3.當重復的次數大於等於2個拷貝時,需要引用中括號,列出重復的次數,如[3]代表重復了3次,可參照重復序列的命名規則(mendations/DNA/variant/repeated/)。

? 舉個栗子:

NM_004006.2:c.20dup(NC_000023.10:g.33229410dup)

壹個堿基的重復,也可以描述為c.20dupT, 錯誤 的描述為c.19_20insT,被重復的堿基為單個堿基,因此不能描述成範圍的形式。

NM_004006.2:c.20_23dup(NC_000023.10:g.33229407_33229410dup)

多個堿基的重復,需要列出被重復堿基的起始位置,因此需要描述成範圍的形式。

插入

Insertion

HGVS定義:

a sequence change where, compared to the reference sequence, one or more nucleotides are inserted? and ?where the insertion is not a copy of a sequence immediately 5'

描述格式:

“prefix”“positions_flanking”“ins”“inserted_sequence”

如:g.123_124insAGC

“prefix” ?= 參考序列= g.

“positions_flanking” =?

被插入堿基的起始位置 = 123_124

“ins” =?

插入 = ins

“inserted_sequence” =?

插入的堿基序列= AGC

有些註意的點:

1.被插入堿基的起始位置是指在這兩個堿基之間插入了別的序列,因此,123_124表示的是在123位堿基和124位堿基之間插入了AGC。

2.所描述的插入的位置壹定是有下劃線連接起來的範圍,而非單個位點。

3.描述被插入堿基的位置同樣也必須遵循“ 最靠近3’端法則 ”。

舉個栗子:

NC_000023.10:g.32867861_32867862insT(NM_004006.2:c.169_170insA)

c.169和c.170之間插入了堿基A。

NM_004006.2:c.(222_226)insG(p.Asn75fs)

不確定插入位置時,用 括號 括起來,表示不確定是在c.222到c.226之間的那個位置插入了堿基G。

NC_000004.11:g.(3076562_3076732)ins(12)

在g.3076562與 g.3076732?之間的某個位置,插入了12個堿基。

NC_000023.10:g.32717298_32717299insNN(NM_004006.2:c.761_762insNN)

在c.761與c.762之間插入了壹個堿基,但不確定插入堿基的序列。

NM_004006.2:c.761_762insNNNNN(or NM_004006.1:c.761_762ins(5))

若插入的堿基很多,可以在括號內用數字表示。?

重復序列

Repeated Sequences

這種類型常見於動態突變。

HGVS定義:

a sequence where, compared to a reference sequence, a segment of?one or more?nucleotides (the repeat unit) is present several times, one after the other.

描述格式(重復單元):

“ prefix”“position_first_nucleotide_first_repeat_unit”“repeat_sequence”[“copy_number”]

如:g.123CAG[16]

“prefix” ?=參考序列 =?g.

“position_first_nucleotide_first_repeat_unit” ?= 重復單元的第壹個堿基位置 = 123

“repeat_sequence” ?=重復單元 = CAG

[ ?=重復數目使用中括號 = [

“copy_number” ?= 重復單元數目 = 16

] ?= 重復數目使用中括號= ]

舉個栗子:

NC_000014.8:g.101179660TG[14]

雙堿基TG重復14次

NC_000014.8:g.101179660TG[14];[18]

雙堿基TG,壹個allele上重復了14次,另壹個allele上重復了18次。

NM_002024.5:c.-128_-69GGC[10]GGA[1]GGC[9]GGA[1]GGC[10]

在c.-128至c.-69這個範圍內,GGC重復了10次,GGA重復了1次,GGC重復了9次,GGA重復了1次,GGC重復了10次。

上述羅列了比較常用的DNA水平的變異命名,還有壹些其他的類型未列在其中,比如倒位(inversion)、轉換(conversion)、易位(translocation)等。

下期預告:氨基酸水平的變異命名,敬請期待。

參考資料:

mendations/DNA/variant/substitution/#polymorphism

http://varnomen.hgvs.org/bg-material/standards/