針對不同的變異類型,HGVS制定了相應的變異描述規則。本篇文章針對 DNA水平 不同變異類型進行命名格式介紹。
置換
Substitution
HGVS定義:
a sequence change where, compared to a reference sequence, one nucleotide is replaced by one other nucleotide.
描述格式:
“prefix”“position_substituted”“reference_nucleotide””>”new_nucleotide”
?如:g.123A>G
“prefix” =參考序列 = g.
“position_substituted” = 被置換堿基位置= 123
“reference_nucleotide” = 被置換的堿基= A
”>” = 置換為= >
“new_nucleotide” = 置換後新的堿基= G
有些註意的 點 :
1. predix :參考序列可以是g.(基因組)、m.(線粒體)、c.(編碼DNA)、n.(非編碼DNA)。
2. 堿基數:置換不局限於單堿基之間的置換,可以是多個堿基,可以描述為 delins 。涉及多個堿基發生變異時, 若是兩個變異 ,則這個變異單獨描述而不用delins進行合並描述。 例外的情況 :涉及的多個變異的堿基***同影響了 壹個氨基酸 ,則需要合並描述,使用delins,如c.142_144delinsTGG (p.Arg48Trp)。
多態性位點不能描述為:c.76A/G,盡管過去使用此形式描述多態性位點,但現在的觀點是要 客觀中立的描述堿基的變化 ,而不應該帶有任何預測或已知功能的信息。
舉個栗子:
NC_000023.10:g.33038255 C>A
33038255位置的C被A取代。
NG_012232.1(NM_004006.1):c.93+1G>T
編碼DNA序列的c.93+1位置的G被T取代。( 上篇文章中介紹了編碼DNA位置描述,此處不再贅述。 )
LRG_199t1: c.79_80delinsTTor c.[79G>T;80C>T]
壹般情況下,推薦使用c.79_80delinsTT形式,在c.79G>T和c.80C>T兩個變異中其中壹個為已知的高頻變異的情況下,推薦使用c.[79G>T;80C>T]。
註意 : 根據堿基置換的定義,是 壹個堿基被置換為另壹個堿基 ,因此,下列的描述方式是 錯誤 的:c.79_80GC>TT或c.79GC>TT。
NM_004006.1:c.[145C>T;147C>G]
上述也可描述為NM_004006.1:c.145_147delinsTGG,除非c.145C>T 和 c.147C>G其中壹個為已知的高頻變異情況下,必須使用c.[145C>T;147C>G]。
LRG_199t1:c.54G>H
c.54位置的G堿基被A、C或T取代。
小插曲:下表中的這些符號妳知道麽?
NM_004006.1:c.123=
c.123位置沒有氨基酸變化。
LRG_199t1:c.85=/T>C
在c.85位置上,即發現了與參考序列壹致的堿基T,也發現了被C取代的情況。
註意: 不論上述兩種情況的比例如何,都需要把參考序列壹致的堿基列於第壹位。
NM_004006.1:c.85=//T>C
嵌合體情況,包括c.85=的細胞,也包括c.85T>C的細胞。
註意: 不論上述兩種情況的比例如何,都需要把參考序列壹致的堿基列於第壹位。
缺失
Deletion
HGVS定義:
a sequence change where, compared to a reference sequence, one or more nucleotides are not present (deleted).
描述格式:
prefix”“position(s)_deleted”“del”
如 g.123_127del
“prefix” ?= 參考序列= g.
“position(s)_deleted” =?
缺失堿基的位置或缺失堿基起始位置= 123_127
“del” =?
缺失= del
有些註意的點:
1.“ position(s)_deleted ”表示不同的位置,如g. 123_126而不能是123_123。
2.“ position(s)_deleted ”位置描述應該從5’端到3’端進行。 特殊情況 :環狀的基因組序列,如o.和m.,當缺失堿基位於參考序列的最後和開始位置時,可以按照3’到5’進行描述。
3. ?最靠近3’端法則 :缺失的堿基認為是靠近3’端,而不是5’端。如,ACTTTGTGCC變成了ACTTGCC,缺失了三個堿基,是ACTTTGTGCC還是ACTTTGTGCC?也就是說從5’端開始出現不壹致的序列算起,還是從3’端出現不壹致的序列算起?根據最靠近3’端法則,TGT比TTG更靠近3’端,因此,變異描述應認為缺失了TGT(c.5_7del),而不是TTG(c.4_6del)。
或者,我們可以這麽理解,比對參考序列和變異後的序列時, 從5’端開始比對至出現第壹個不壹致的堿基,被認為是變異的起始位置。
但也有例外的情況,缺失的多個堿基跨越內含子和外顯子的邊界,基於缺失的堿基對外顯子的影響要大於對內含子的影響。如CAGgtg變成CAgtg,應描述為c.3+1delG,而不是c.3delG。
舉個栗子:
NG_012232.1:g.19_21del
原始序列?AGAA TCA CA?,缺失後的序列AGAA ___ CA,也可以將缺失的堿基列出,如NG_012232.1:g.19_21delTCA。
NG_012232.1(NM_004006.1):c.183_186+48del
缺失範圍跨越了外顯子和內含子的邊界。
NG_012232.1(NM_004006.1):c.4072-1234_5155-246del
此種情況為跨越內含子的外顯子缺失,即exon30(c.4072起始)到exon36(c.5154為止)。此種情況下,由於缺失堿基數目較多,缺失的堿基便不應該列出來了。
NG_012232.1(NM_004006.1):c.(4071+1_4072-1)_(5154+1_5155-1)del
缺失的break point 還無法確定。
NG_012232.1(NM_004006.1):c.(?_-245)_(31+1_32-1)del
缺失的起始位點位於基因上遊某位點,已確定的最近的位點在c.-244。
重復
Duplication
HGVS定義:
a sequence change where, compared to a reference sequence, a copy of one or more nucleotides are inserted? directly 3' ?of the original copy of that sequence.
描述格式: ?
“prefix”“position(s)_duplicated”“dup”
如:g.123_345dup
“prefix” ?= 參考序列 = g.
“position(s)_duplicated” =?
發生重復的堿基或堿基起始位置= 123_345
“dup” =?
重復 = dup
有些註意的點:
1.描述堿基重復的位置同樣也必須遵循“ 最靠近3’端法則 ”。
2.根據堿基重復的定義,重復的堿基是直接位於被重復的堿基3’端,而不是在其他地方(插入)。當不知道重復的堿基是直接位於重復的堿基3’端還是插入到了別的地方,不能被描述為dup,而應描述為插入(insertion)。
3.當重復的次數大於等於2個拷貝時,需要引用中括號,列出重復的次數,如[3]代表重復了3次,可參照重復序列的命名規則(mendations/DNA/variant/repeated/)。
? 舉個栗子:
NM_004006.2:c.20dup(NC_000023.10:g.33229410dup)
壹個堿基的重復,也可以描述為c.20dupT, 錯誤 的描述為c.19_20insT,被重復的堿基為單個堿基,因此不能描述成範圍的形式。
NM_004006.2:c.20_23dup(NC_000023.10:g.33229407_33229410dup)
多個堿基的重復,需要列出被重復堿基的起始位置,因此需要描述成範圍的形式。
插入
Insertion
HGVS定義:
a sequence change where, compared to the reference sequence, one or more nucleotides are inserted? and ?where the insertion is not a copy of a sequence immediately 5'
描述格式:
“prefix”“positions_flanking”“ins”“inserted_sequence”
如:g.123_124insAGC
“prefix” ?= 參考序列= g.
“positions_flanking” =?
被插入堿基的起始位置 = 123_124
“ins” =?
插入 = ins
“inserted_sequence” =?
插入的堿基序列= AGC
有些註意的點:
1.被插入堿基的起始位置是指在這兩個堿基之間插入了別的序列,因此,123_124表示的是在123位堿基和124位堿基之間插入了AGC。
2.所描述的插入的位置壹定是有下劃線連接起來的範圍,而非單個位點。
3.描述被插入堿基的位置同樣也必須遵循“ 最靠近3’端法則 ”。
舉個栗子:
NC_000023.10:g.32867861_32867862insT(NM_004006.2:c.169_170insA)
c.169和c.170之間插入了堿基A。
NM_004006.2:c.(222_226)insG(p.Asn75fs)
不確定插入位置時,用 括號 括起來,表示不確定是在c.222到c.226之間的那個位置插入了堿基G。
NC_000004.11:g.(3076562_3076732)ins(12)
在g.3076562與 g.3076732?之間的某個位置,插入了12個堿基。
NC_000023.10:g.32717298_32717299insNN(NM_004006.2:c.761_762insNN)
在c.761與c.762之間插入了壹個堿基,但不確定插入堿基的序列。
NM_004006.2:c.761_762insNNNNN(or NM_004006.1:c.761_762ins(5))
若插入的堿基很多,可以在括號內用數字表示。?
重復序列
Repeated Sequences
這種類型常見於動態突變。
HGVS定義:
a sequence where, compared to a reference sequence, a segment of?one or more?nucleotides (the repeat unit) is present several times, one after the other.
描述格式(重復單元):
“ prefix”“position_first_nucleotide_first_repeat_unit”“repeat_sequence”[“copy_number”]
如:g.123CAG[16]
“prefix” ?=參考序列 =?g.
“position_first_nucleotide_first_repeat_unit” ?= 重復單元的第壹個堿基位置 = 123
“repeat_sequence” ?=重復單元 = CAG
[ ?=重復數目使用中括號 = [
“copy_number” ?= 重復單元數目 = 16
] ?= 重復數目使用中括號= ]
舉個栗子:
NC_000014.8:g.101179660TG[14]
雙堿基TG重復14次
NC_000014.8:g.101179660TG[14];[18]
雙堿基TG,壹個allele上重復了14次,另壹個allele上重復了18次。
NM_002024.5:c.-128_-69GGC[10]GGA[1]GGC[9]GGA[1]GGC[10]
在c.-128至c.-69這個範圍內,GGC重復了10次,GGA重復了1次,GGC重復了9次,GGA重復了1次,GGC重復了10次。
上述羅列了比較常用的DNA水平的變異命名,還有壹些其他的類型未列在其中,比如倒位(inversion)、轉換(conversion)、易位(translocation)等。
下期預告:氨基酸水平的變異命名,敬請期待。
參考資料:
mendations/DNA/variant/substitution/#polymorphism
http://varnomen.hgvs.org/bg-material/standards/