古詩詞大全網 - 成語經典 - 二代測序中barcodes index的介紹

二代測序中barcodes index的介紹

當今二代測序儀器中應用最為廣泛的當屬illumina公司的測序儀,以Hiseq-2000測序儀為例,其有2個流動槽(flowcell),每個flowcell有8條lane(通道),而單就其壹條lane的測序數據量就可達44G。

然而對於目前的外顯子組測序來說,測序區域大約64M,測序深度200X,總數據量也才13G,Hiseq-2000的壹個lane就足以測定3個外顯子組樣品。以轉錄組來說,壹個樣品測序量不會超過4G,壹個lane可以同時測定10個轉錄組樣品。大體而言,外顯子組測序、轉錄組測序、miRNA測序、lncRNA測序、ChIP測序等組數據,每個樣品所需的數據量通常都比較少。

測序數據的單位

核酸序列數據是以“A、T、G、C”堿基順序表示,而其數量的大小可以使用k、M、G等單位來表示,k代表10 3 、M代表10 6 、G代表10 9 ,例如,人全基因組大小為3G(或3Gb),也就是3X10 9 b。 此外,計算機的存儲單位也是使用k、M、G等單位來表示的,不過計算機的存儲單位的換算為1024進位,不同於堿基序列的1000進位。考慮到壹個字母在計算機內存儲為1Byte,因此粗略使用時,測序數據量可以近似等於其占用計算機的大小。

由於測序儀器的測序能力遠大於測試樣本序列量,為避免儀器浪費,因此壹個lane同時測定多個樣品成為很自然的思路。然而為了區分多種樣品的序列,就必須要給不同樣品加上特定的“標簽”,從而可以在後續數據分析時將不同樣品數據分開,而這個“標簽”就是barcode。

簡言之,barcode就是測序中混合樣品的”身份證“,用於區分不同樣品。

下圖來自文獻《 Multiplexed Illumina sequencing libraries from picogram quantities of DNA 》

對於illumina的hiseq平臺而言,測序前,我們需要建庫。

barcode的選擇有兩個原則:堿基平衡和激光平衡。

堿基平衡是指的需要兼顧barcode序列的平衡度與復雜度,平衡度是指的堿基的比例是均衡的(1:1是最均衡的),而復雜度是指的堿基的種類是多樣的(四種堿基同時存在是最多樣的)。

所以最好的barcode序列應該是同時有A、T、G、C四種堿基,且各堿基所占比例近似均為25%。

此處所說的堿基平衡是指的多個barcode之間的平衡,並非壹個barcode內部的堿基平衡。舉例來說,有12個轉錄組樣品需要測定,那麽就需要12個barcode(假定每個barcode長度為6位),根據堿基平衡原則,第壹位barcode堿基應該盡量同時存在A、T、G、C四種堿基,且各堿基所占比例近似均為25%,也就是這12個barcode序列最佳情況應該是以A、T、G、C開頭各3個。剩余5個堿基位的barcode以此類推。

在illumina測序儀中,A和C兩種堿基***用壹種激光,由波長660nm的紅激光激發;G和T***用壹種激光,由波長532 nm的綠激光激發。因此假使不能滿足堿基平衡的情況下,可以退而求其次,盡量滿足激光平衡。

簡單來說,激光平衡就是盡量在使用的壹組barcode中滿足每個堿基位都是A+C=G+T。

既不滿足堿基平衡,又不滿足激光平衡的barcode將會有很大的數據分離隱患,或者無法分離開樣品,或者無法識別某些測序片段。

Illumina推薦的12個barcode序列詳列如下。

以其中的第壹個位置為例(縱列),A:G:C:T=3:3:3:3=1:1:1:1。實際上,該barcode組合每個位置的堿基比例都接近1:1(具體見下表),堿基平衡度接近完美。

位置 1st 2nd 3rd 4th 5th 6th

A 3 3 4 3 3 3

T 3 3 3 3 4 3

C 3 3 3 3 2 3

G 3 3 2 3 3 3

樣本數少於4種,必然無法滿足堿基平衡,怎麽辦

如果樣本數少於4種,則barcode每壹個位置的堿基最多只有3種,不可能做到堿基平衡,怎麽辦呢?這時壹定要盡量保證激光平衡,切不可在同壹barcode位放置同壹種熒光堿基,甚至是同壹種堿基。

當然Illumina也提供了這種情況的解決方案,他們推薦的low-level pooling的barcode組合有3種,序列如下:

2重組合

3重組合

6重組合

這3種barcode組合包含有壹個***同的內核:6號barcode和12號barcode。6號和12號組合是百分百激光平衡的,其每壹個位置(縱列,即GC、CT、CT、AG、AT和TA)都分別屬於不同的激光。也就是說,只要barcode組合中包含6號和12號,就能滿足最基本的de-multiplexing要求,不至於數據完全失誤。

除了illumina推薦的12個barcode,還有康奈爾大學的96個針對ApekⅠ酶建庫的barcode,華中農業大學的96個針對MseⅠ酶和SacⅠ酶的barcode,美國科羅拉多大學博爾德分校的丹尼爾還發表了設計barcode的軟件。