口號大全團隊口號個性簽名藝術簽名經典古詩古詩大全成語故事成語大全漢語詞典字典詞典成語查詢四字成語成語經典成語解釋成語用法

古詩詞大全網 - 四字成語 - HGVS規則下的變異命名(二)|DNA水平不同變異類型的“抽絲剝繭”

HGVS規則下的變異命名(二)|DNA水平不同變異類型的“抽絲剝繭”

本文首發於微信公眾號“ 基因部落 ”，歡迎關註，獲得更多幹貨。

針對不同的變異類型，HGVS制定了相應的變異描述規則。本篇文章針對 DNA水平不同變異類型進行命名格式介紹。

置換

Substitution

HGVS定義：

a sequence change where, compared to a reference sequence, one nucleotide is replaced by one other nucleotide.

描述格式：

“prefix”“position_substituted”“reference_nucleotide””>”new_nucleotide”

?如：g.123A>G

“prefix” =參考序列 = g.

“position_substituted” = 被置換堿基位置= 123

“reference_nucleotide” = 被置換的堿基= A

”>” = 置換為= >

“new_nucleotide” = 置換後新的堿基= G

有些註意的點：

1. predix ：參考序列可以是g.（基因組）、m.（線粒體）、c.（編碼DNA）、n.（非編碼DNA）。

2. 堿基數：置換不局限於單堿基之間的置換，可以是多個堿基，可以描述為 delins 。涉及多個堿基發生變異時，若是兩個變異，則這個變異單獨描述而不用delins進行合並描述。例外的情況：涉及的多個變異的堿基***同影響了壹個氨基酸，則需要合並描述，使用delins，如c.142_144delinsTGG (p.Arg48Trp)。

多態性位點不能描述為：c.76A/G，盡管過去使用此形式描述多態性位點，但現在的觀點是要客觀中立的描述堿基的變化，而不應該帶有任何預測或已知功能的信息。

舉個栗子：

NC_000023.10:g.33038255 C>A

33038255位置的C被A取代。

NG_012232.1(NM_004006.1):c.93+1G>T

編碼DNA序列的c.93+1位置的G被T取代。（上篇文章中介紹了編碼DNA位置描述，此處不再贅述。）

LRG_199t1: c.79_80delinsTTor c.[79G>T;80C>T]

壹般情況下，推薦使用c.79_80delinsTT形式，在c.79G>T和c.80C>T兩個變異中其中壹個為已知的高頻變異的情況下，推薦使用c.[79G>T;80C>T]。

註意：根據堿基置換的定義，是壹個堿基被置換為另壹個堿基，因此，下列的描述方式是錯誤的：c.79_80GC>TT或c.79GC>TT。

NM_004006.1:c.[145C>T;147C>G]

上述也可描述為NM_004006.1:c.145_147delinsTGG，除非c.145C>T 和 c.147C>G其中壹個為已知的高頻變異情況下，必須使用c.[145C>T;147C>G]。

LRG_199t1:c.54G>H

c.54位置的G堿基被A、C或T取代。

小插曲：下表中的這些符號妳知道麽？

NM_004006.1:c.123=

c.123位置沒有氨基酸變化。

LRG_199t1:c.85=/T>C

在c.85位置上，即發現了與參考序列壹致的堿基T，也發現了被C取代的情況。

註意：不論上述兩種情況的比例如何，都需要把參考序列壹致的堿基列於第壹位。

NM_004006.1:c.85=//T>C

嵌合體情況，包括c.85=的細胞，也包括c.85T>C的細胞。

註意：不論上述兩種情況的比例如何，都需要把參考序列壹致的堿基列於第壹位。

缺失

Deletion

HGVS定義：

a sequence change where, compared to a reference sequence, one or more nucleotides are not present (deleted).

描述格式：

prefix”“position(s)_deleted”“del”

如 g.123_127del

“prefix” ?= 參考序列= g.

“position(s)_deleted” =?

缺失堿基的位置或缺失堿基起始位置= 123_127

“del” =?

缺失= del

有些註意的點：

1.“ position(s)_deleted ”表示不同的位置，如g. 123_126而不能是123_123。

2.“ position(s)_deleted ”位置描述應該從5’端到3’端進行。特殊情況：環狀的基因組序列，如o.和m.，當缺失堿基位於參考序列的最後和開始位置時，可以按照3’到5’進行描述。

3. ?最靠近3’端法則：缺失的堿基認為是靠近3’端，而不是5’端。如，ACTTTGTGCC變成了ACTTGCC，缺失了三個堿基，是ACTTTGTGCC還是ACTTTGTGCC？也就是說從5’端開始出現不壹致的序列算起，還是從3’端出現不壹致的序列算起？根據最靠近3’端法則，TGT比TTG更靠近3’端，因此，變異描述應認為缺失了TGT(c.5_7del)，而不是TTG(c.4_6del)。

或者，我們可以這麽理解，比對參考序列和變異後的序列時，從5’端開始比對至出現第壹個不壹致的堿基，被認為是變異的起始位置。

但也有例外的情況，缺失的多個堿基跨越內含子和外顯子的邊界，基於缺失的堿基對外顯子的影響要大於對內含子的影響。如CAGgtg變成CAgtg，應描述為c.3+1delG，而不是c.3delG。

舉個栗子：

NG_012232.1:g.19_21del

原始序列?AGAA TCA CA?，缺失後的序列AGAA ___ CA，也可以將缺失的堿基列出，如NG_012232.1:g.19_21delTCA。

NG_012232.1(NM_004006.1):c.183_186+48del

缺失範圍跨越了外顯子和內含子的邊界。

NG_012232.1(NM_004006.1):c.4072-1234_5155-246del

此種情況為跨越內含子的外顯子缺失，即exon30（c.4072起始）到exon36（c.5154為止）。此種情況下，由於缺失堿基數目較多，缺失的堿基便不應該列出來了。

NG_012232.1(NM_004006.1):c.(4071+1_4072-1)_(5154+1_5155-1)del

缺失的break point 還無法確定。

NG_012232.1(NM_004006.1):c.(?_-245)_(31+1_32-1)del

缺失的起始位點位於基因上遊某位點，已確定的最近的位點在c.-244。

重復

Duplication

HGVS定義：

a sequence change where, compared to a reference sequence, a copy of one or more nucleotides are inserted? directly 3' ?of the original copy of that sequence.

描述格式： ?

“prefix”“position(s)_duplicated”“dup”

如：g.123_345dup

“prefix” ?= 參考序列 = g.

“position(s)_duplicated” =?

發生重復的堿基或堿基起始位置= 123_345

“dup” =?

重復 = dup

有些註意的點：

1.描述堿基重復的位置同樣也必須遵循“ 最靠近3’端法則 ”。

2.根據堿基重復的定義，重復的堿基是直接位於被重復的堿基3’端，而不是在其他地方（插入）。當不知道重復的堿基是直接位於重復的堿基3’端還是插入到了別的地方，不能被描述為dup，而應描述為插入（insertion）。

3.當重復的次數大於等於2個拷貝時，需要引用中括號，列出重復的次數，如[3]代表重復了3次，可參照重復序列的命名規則（mendations/DNA/variant/repeated/）。

? 舉個栗子：

NM_004006.2:c.20dup(NC_000023.10:g.33229410dup)

壹個堿基的重復，也可以描述為c.20dupT，錯誤的描述為c.19_20insT，被重復的堿基為單個堿基，因此不能描述成範圍的形式。

NM_004006.2:c.20_23dup(NC_000023.10:g.33229407_33229410dup)

多個堿基的重復，需要列出被重復堿基的起始位置，因此需要描述成範圍的形式。

插入

Insertion

HGVS定義：

a sequence change where, compared to the reference sequence, one or more nucleotides are inserted? and ?where the insertion is not a copy of a sequence immediately 5'

描述格式：

“prefix”“positions_flanking”“ins”“inserted_sequence”

如：g.123_124insAGC

“prefix” ?= 參考序列= g.

“positions_flanking” =?

被插入堿基的起始位置 = 123_124

“ins” =?

插入 = ins

“inserted_sequence” =?

插入的堿基序列= AGC

有些註意的點：

1.被插入堿基的起始位置是指在這兩個堿基之間插入了別的序列，因此，123_124表示的是在123位堿基和124位堿基之間插入了AGC。

2.所描述的插入的位置壹定是有下劃線連接起來的範圍，而非單個位點。

3.描述被插入堿基的位置同樣也必須遵循“ 最靠近3’端法則 ”。

舉個栗子：

NC_000023.10:g.32867861_32867862insT(NM_004006.2:c.169_170insA)

c.169和c.170之間插入了堿基A。

NM_004006.2:c.(222_226)insG(p.Asn75fs)

不確定插入位置時，用括號括起來，表示不確定是在c.222到c.226之間的那個位置插入了堿基G。

NC_000004.11:g.(3076562_3076732)ins(12)

在g.3076562與 g.3076732?之間的某個位置，插入了12個堿基。

NC_000023.10:g.32717298_32717299insNN(NM_004006.2:c.761_762insNN)

在c.761與c.762之間插入了壹個堿基，但不確定插入堿基的序列。

NM_004006.2:c.761_762insNNNNN(or NM_004006.1:c.761_762ins(5))

若插入的堿基很多，可以在括號內用數字表示。?

重復序列

Repeated Sequences

這種類型常見於動態突變。

HGVS定義：

a sequence where, compared to a reference sequence, a segment of?one or more?nucleotides (the repeat unit) is present several times, one after the other.

描述格式（重復單元）：

“ prefix”“position_first_nucleotide_first_repeat_unit”“repeat_sequence”[“copy_number”]

如：g.123CAG[16]

“prefix” ?=參考序列 =?g.

“position_first_nucleotide_first_repeat_unit” ?= 重復單元的第壹個堿基位置 = 123

“repeat_sequence” ?=重復單元 = CAG

[ ?=重復數目使用中括號 = [

“copy_number” ?= 重復單元數目 = 16

] ?= 重復數目使用中括號= ]

舉個栗子：

NC_000014.8:g.101179660TG[14]

雙堿基TG重復14次

NC_000014.8:g.101179660TG[14];[18]

雙堿基TG，壹個allele上重復了14次，另壹個allele上重復了18次。

NM_002024.5:c.-128_-69GGC[10]GGA[1]GGC[9]GGA[1]GGC[10]

在c.-128至c.-69這個範圍內，GGC重復了10次，GGA重復了1次，GGC重復了9次，GGA重復了1次，GGC重復了10次。

上述羅列了比較常用的DNA水平的變異命名，還有壹些其他的類型未列在其中，比如倒位（inversion）、轉換（conversion）、易位（translocation）等。

下期預告：氨基酸水平的變異命名，敬請期待。

參考資料：

mendations/DNA/variant/substitution/#polymorphism

http://varnomen.hgvs.org/bg-material/standards/