古詩詞大全網 - 古詩大全 - 1. 蛋白質組學研究方法概述(上)

1. 蛋白質組學研究方法概述(上)

說明:此篇筆記系2016-2017年由克裏克學院與康昱盛主辦的蛋白質組學網絡大課堂整理而成,侵刪。該課程由上海交通大學系統生物醫學研究院助理研究員庫鑫博士所授。

大夥兒都知道,蛋白質組學(proteomics),是研究壹種細胞或者壹種生物體所表達的全部蛋白質。雖說現在基因組測序火得壹塌糊塗,但是,我們不要忽略了,蛋白質才是執行生命體功能的基本單元,而且蛋白質都是通過形成各種復合物,組成通路網絡,去行使各種生物學功能的!所以,有很多生物學問題只能在蛋白質層面上去研究去探索,而且需要站在系統的層面去考察,比如說:蛋白-蛋白相互作用、蛋白的細胞定位、翻譯後修飾、信號通路及代謝通路的調控和功能等。這就是為啥蛋白質組學如此重要啦!

既然重要,科學家們自然是想盡辦法來研究了!最開始使用的技術就是傳說中的雙向凝膠電泳(2-DE),由於分辨率低、蛋白質重疊等各種問題,無論是通量還是準確度,都不盡如人意。當質譜技術興起以後,就迅速被替代了。

說起質譜技術的誕生,估計很多小夥伴都聽過那個著名的diao絲逆襲的段子,講的就是2002年諾貝爾化學獎得主田中耕壹,作為蛋白質譜發明人之壹,由於壹個不小心在實驗時錯加了甘油,結果神奇地將質譜技術引入到鑒定生物大分子的應用領域。想想,大到整個人類的科技發展史,小到每個個體的人生,都充滿了多少不可思議~

當質譜技術與蛋白質組學碰到了壹起,真是天雷引了地火,產生出強烈的化學反應,迅速引爆整個學科的發展!也就十幾年的時間吧,蛋白質組學的研究目標從細胞模型、動物模型,到人的體液、組織等人體樣本,應用範圍的生物復雜度越來越高。研究目的呢,也從最初的肽段序列推導,到多肽和蛋白質的定性定量分析,翻譯後修飾,再到如今成為新熱點的靶向蛋白質組學,總之,勢不可擋啊!

說到靶向蛋白質組學,咱們都知道,壹直以來蛋白質組學的應用領域主要是針對基礎生物學,比如研究通路、蛋白復合物、互作網絡,表征細胞和組織的類型,觀察細胞周期內蛋白質的表達等。近年來,由於技術的飛速發展,蛋白質組學開始被用於醫學研究和藥物研究。比如說藥物研究,國內可能用得還不多,但在歐美已經開始越來越廣泛。以肝毒性為例,蛋白質組學可以為藥物研發前期的肝毒性評估提供研究手段。

那麽,怎麽將蛋白質組學應用到臨床及藥物研發中呢?就是需要靶向蛋白質組學技術了!以前,蛋白質組學技術主要用於發現新的未知物,比如肽段、蛋白復合物、蛋白的翻譯後修飾等。這部分的應用很廣,技術門檻比較低,方法比較通用。但問題是,這種方法思路沒辦法應對大量的臨床樣本,可重復性和準確性達不到要求。

於是,靶向分析開始興起,就是說,分析之前我們就明確知道需要分析的物質是什麽,然後把它挑出來,進行壹個精確的定量和分析!我們不需要壹次性驗證成千上萬的蛋白,但我們需要在成百上午的樣本中驗證十幾種或者幾十種我們關心的蛋白質,而且這些蛋白質常常都是濃度很低的蛋白,用傳統的方法基本上只有被遺漏的命(後面我會詳細講為什麽會遺漏)。有了靶向技術,對於研究臨床診斷的生物標誌物,就有了更大的可能和更強的支撐了!

那麽接下來,根據老師講課的思路,我就從定性檢測、定量檢測和靶向蛋白質組學三個方面來分享下聽課的收獲。

無論是定性還是定量檢測,樣品制備是跑不掉的準備工作。用於質譜的蛋白質樣品,來源非常廣泛,只要妳是包含了蛋白質的東西,都可以作為來源。對於復雜的樣品,比如人體體液或組織樣本,蛋白質的提取及去高峰度,常常需要復雜的精細的處理,而且處理流程根據樣本和研究目的的不同而不同。這部分內容呢,第二講“樣品前處理”會詳扒,感興趣的小夥伴可以期待我的下壹篇聽課筆記吧~

話說,蛋白質的定性檢測有兩種思路:Bottom-up和Top down。Top down是指從壹個完整的蛋白出發,在質譜中進行碎片化處理,通過對碎片分子的檢測,推導出蛋白的序列。而在使用中真正占絕大多數是Bottom-up方法,也就是我們常說的shotgun方法,它充分利用了蛋白質自身的特點:可以被特定的酶在特定的位點切斷。基本思路是,先用蛋白酶把蛋白序列進行酶切,再針對酶切後的肽段進行鑒定,所以進入質譜的檢測對象永遠是肽段,再根據肽段序列再推導出蛋白序列。

1. 樣本處理 :拿到蛋白來源的各種樣本,進行前處理和優化。

2. 蛋白分離 :根據研究需要,用凝膠分離,提取所需的蛋白,或者不分離,全部拿來檢測,需要註意去雜質;

3. 酶切 :用序列特異性的酶,對蛋白進行酶切;

4. 肽段分離 :酶切後的肽段進入HPLC(高壓液相色譜),這也就是我們常說的LC-MS中的LC,肽段會因為在色譜柱填料上的保留時間的不同,得到預分離;

5. 電離 :分離後的肽段,加電壓使其離子化(ESI);或者用MALDI基質輔助的激光解離,就不需要HPLC的過程;

6. 質譜解析 :將帶上電荷的肽段送入質譜,肽段會在磁場中發生偏轉(質譜儀的基本原理),在質譜裏收集信號,得到譜圖。

7. 搜庫 :用搜索軟件對質譜圖進行自動化的分析,得到肽段及蛋白序列信息。

換個角度,對Shotgun方法的流程,我們可以這樣來總結:

這裏面最關鍵的壹個指標,我們叫Peptide-Spectrum matching(PSM),就是指譜圖與肽段的匹配。匹配得越好,則反推出的蛋白就越準確。這個匹配的過程,也就是我們常說的搜庫。那麽接下來我就來分享壹下從課程中學習到的搜庫背景知識、搜庫工具和算法,以及對搜索結果的評估。

質譜,聽上去很高大上,無論有多貴重,都是由三部分組成的:離子源+質量分析器+檢測器。

壹臺質譜可以不止壹個離子源\分析器\檢測器,可以把幾種串聯起來,針對不同分析需要來使用。

離子源

我們先來說說離子源。蛋白質譜所使用的ESI(Electrospray ionization)電噴霧離子化,對蛋白質組學來說是壹個標誌性的發明!因為是直接從液相進行離子化,使它與LC(液相色譜)的聯用變得更加容易了,我們可以先用LC將非常復雜的肽段混合物進行預分離,減少每次分析物的復雜度,然後分離的肽段可以直接進入ESI,形成電離噴霧。

那麽,ESI噴霧是怎麽形成的呢?簡單來說,分離柱前端有壹個小開口,被分析物根據質量及電荷的不同,依次通過前端的小開口。小開口處加了電壓,剛開始,靜電力與表面張力相同,當加大靜電力使它大於表面張力的時候,液膜破裂,形成無數帶電的小液滴,就形成噴霧了。像現在比較新的nanoESI技術,LC的流速就更加慢,離子化的效果也更好。覺得以上描述還不夠形象的童鞋,直接看圖吧:

質量分析器

說完了離子源,接下來我們來說質量分析器,這是質譜儀裏最重要的壹部分。我們通常聽到的各種質譜儀的名字,就是根據質量分析器的類型來命名的。我們樣品中各組分在離子源中發生電離,並經加速電場的作用後,形成離子束,進入質量分析器中。質量分析器將帶電離子根據其質荷比加以分離,記錄各種離子的質量數和豐度,用於後續定性與定量的分析。

質量分析器有兩個主要的技術參數:質量範圍和分辨率。質量範圍是指是所能測定的質荷比的範圍,它決定了咱們能檢測到的離子的範圍。比如,ESI離子源能產生許多m/z大於3000的離子,如果妳選的質量分析器的上限達不到3000,那麽3000以上的離子妳就檢測不出來了。

然而,另壹個更為重要的指標,就是質量分析器的分辨率!先上個公式描述:

分辨率=觀測的壹個質譜峰的質荷比/半峰高處的峰寬(FWHM)

啥意思呢?比如下圖中最左邊的那個峰,它的質荷比是1,085.55,峰高壹半的地方的峰寬值是0.217,於是:

分辨率=1,085.55/0.217=5,000

如果這麽講還是不太明白,那妳可以簡單理解為,質譜分辨率越高,我們將得到越尖越細的譜峰。妳可能會問:譜峰又尖又細的好處是什麽?這是個好問題!事實上,分辨率可以表征兩個相鄰的譜峰在質譜中被區分開的能力。大家通過下圖感受壹下不同分辨率的質譜儀能給我們多麽不同的譜峰圖。

圖中以Glucagon(胰高血糖素)為例,展示了不同分辨率的質譜儀給出的譜峰。當分辨率是1000時,只能看壹個很寬的峰(藍色);分辨率增加到3000時,峰窄壹些(紅色),但還感受不到明顯的差別;當提高到10000時,很明顯能看到,其實這裏包含了8個峰(綠色);再提高到30000的時候,半峰寬更窄,兩個相鄰的峰可以徹底地被分開(黑色)。顯然,我們在分辨率為1000或3000,不能準確的檢測被分析肽段的精確分子量, 從而導致譜圖無法匹配或者發生錯配。

不同的質量分析器有不同的分辨率,通常的順序是:傅裏葉變換質譜分辨率最高,但造價太貴;其次是Orbitrap(軌道阱系列),分辨率遠遠高於其它質譜;再次是TOF(時間飛行質譜);然後是離子阱(Ion Trap);最後是四級桿質譜(Quadrupole)。

這裏我多說壹句,分辨率高固然好,但價格肯定就貴,選擇質譜儀的時候要根據咱們自己的研究目的以及預算範圍啦!

二級質譜

然而,要對肽段進行鑒定,壹級質譜顯然是辦不到的,我們沒法根據肽段離子m/z的值就推斷出這個肽段由哪些氨基酸殘基組成(可能的組合非常多),以及序列順序是怎麽樣的,對吧?所以,鑒定肽段還需要二級質譜。

什麽是二級質譜呢?簡單來說,肽段混合物通過壹級質譜得到了壹級譜圖,然後從中選擇壹個肽段,通過壹些方法,比如,與隨性氣體進行碰撞,把肽段碰碎,得到碎片離子,再形成二級譜圖。我們通過觀察碎片離子的質量分布來推斷肽斷的殘基組成,最後再反推出蛋白質是什麽。上個圖,幫助大家理解壹下二級質譜是怎麽來的。

在上壹段,我提到是從壹級質譜中“選擇”壹個肽段進入二級質譜。這裏看似講得雲淡風輕,事實上怎麽選卻是壹個很關鍵的問題!通常選擇的方法我們可以叫做“TOP”法(這是我自己起的名字),比如TOP15就是指從壹級譜裏選前15個高度的峰,每壹次分離壹個肽段,然後對這個肽段進行掃描,得到二級譜圖。

大家發現了沒有?如果壹個肽段在壹級譜圖中沒有進入TOP15,那它連打二級譜圖的資格都沒有!原來質譜的世界競爭也是如何殘酷!二級質譜能掃描哪些肽段是由壹級質譜決定的,所以我們將這種方法稱為“數據依賴性采集(DDA, data dependent acquisition)!

明白了吧,DDA這個名字就是這麽來的!下次大夥兒再聽到有人說DDA,心裏不會再壹百個問號飛過了吧?

咱們細想壹下就不難發現,如果壹個蛋白的濃度不夠高,也就是說,它的肽段在壹級譜圖中很難成為那些TOPs,那麽它能進入二級質譜的可能性基本上沒有。這就是為什麽低峰度蛋白很難被鑒定到!這也就是為什麽我們在做比如血液這種樣品的時候,壹定要去除血紅蛋白等高峰度蛋白(如果妳想鑒定的蛋白不是血紅蛋白的話)!

很顯然,DDA方法的局限性就擺在那裏!這叫想要研究低峰度蛋白的科學家們怎麽忍?於是,壹種叫做數據非依賴性采集(DIA)的新方法就應運而生了!關於這種方法的原理,下壹篇推文會詳扒。

我們再通過以下這個圖來感受壹下壹級譜圖與二級譜圖之間的關系:

比如,第壹個時間點,我們先進行MS1掃描,然後選壹個峰高的肽段進行MS2掃描,依次類推。在壹些掃描速度比較快的質譜儀裏,壹個MS1譜圖可以進行80張MS2的掃描。

鑒定碎片離子

好,我們搞清楚了二級質譜是怎麽來的,那麽我們怎麽根據檢測到的離子信息來推測這是什麽氨基酸呢?可能妳會說,這還不簡單麽?根據分子量呀!

沒錯,不同的氨基酸,它的分子量不就是壹個簡單的值嗎?然而,這件事卻並沒有這麽簡單,因為這個世界上還存在壹個神奇的東西,它的名字叫同位素!

比如說碳元素,最常見的是原子量12的這種,我們叫C12,然而它還有壹個同樣很穩定的好基友,C13(多壹個中子)。於是,我們得考慮到這兩種穩定同位素的含量(百度百科說C13占 1.11%,C12占98.89%),對於壹個氨基酸而言,我們就會得到兩個不同的分子量:

為啥說平均呢?因為當肽段分子量越大,含有各種同位素的可能性及不同組合就越多,我們如果把每壹種組合都算壹遍分子量,這樣會得到壹個長長的list,到時候做譜圖匹配時用哪壹個值呢?也沒譜。所以幹脆用壹個平均值來表示。

我們通過下表來感受壹下各種不同的氨基酸殘基的單同位素分子量與平均分子量有多大的區別:

可能妳又會問,這兩個不同的分子量分別在什麽情況下用呢?這裏又要說到分辨率了,如果咱們用的是高分辨率質譜儀,不同的同位素峰會被明顯地分開,也就是說,譜圖裏我們能看幾個同位素峰,這時我們就可以使用單同位素分子量,可以與相應的單同位素峰準確對應。但在低分辨率質譜儀裏,這些峰很可能混在壹起,看上去只是壹個峰,這種情況下,也沒辦法,只能用平均分子量去近似壹下了。

下面這個圖可以很形象地展示出,單同位素分子量與平均分子量在質譜圖上差別有多大。在高分辨質譜看來,這完全就是兩種不同的離子了。上面我們也說了,根據平均分子量來計算,結果並不準確,但用單同位素分子量來計算,就可以準確對應了。

除了同位素,還有壹個因素我們也需要考慮,那就是肽段碎裂進入二級質譜時,可能會形成三種不同的離子類型,這就是我們通常所說的by離子,ax離子和cz離子。

之所以會形成不同的離子對,是因為不同的碎裂方法,造成肽段斷裂的位置不同。大夥兒看看上面這個圖就明白了。當我們使用CID(碰撞誘導解離)或HCD(High-energy C-trap Dissociation)碎裂時,與惰性氣體碰撞的是C-N鍵這裏,C端生成y離子,N端生成b離子,這是二級質譜產生的最常見的離子對了。當我們使用ETD(電子轉移解離)碎裂時,因為有壹個電子反應的過程,在加上電子後才產生的碎裂,它的斷裂位置可能出現在N-C鍵這裏,形成cz離子,而TOF類儀器可能會產生ax離子。

離子類型的信息需要傳遞給後續的搜庫步驟(通常我們在搜庫軟件中指定了儀器類型,軟件就會自動匹配離子類型),計算機需要模擬最可能的碎裂位置,生成對應的理論譜圖,然後拿來與實際譜圖比對。我們以by離子為例,來看看對壹個肽段來說,它可能碎裂成哪些碎片離子:

那麽它可能會生成如下這樣的譜圖:

從譜圖上看,這個肽段所有的by離子都檢測到了。通常來說,對於豐度不錯,長短合適的肽段,在高精度質譜儀上被完整捕獲到的情況是很常見的。通常情況下50%-80%的by離子都能被捕獲到。

下篇繼續講定性檢測裏的搜庫工具、結果評估,以及定量檢測的各種背景知識。