蛋白質組學數據分析——(1)原理


當前,關於高通量蛋白質組學的研究遠不如NGS這般火熱,網上關於這方面的知識也寥寥無幾,從事這一行也有一段時間了,但還沒好好總結過。加之過段時間可能要去做培訓,所以是時候把知識點總結一下,權當復習。當然整個蛋白質組學研究也算紛繁復雜,不可能面面俱到,而且很多東西我也在學習當中,肯定會出現不少紕漏。畢竟這份筆記主要還是用於自我查漏補缺,要是在此之外還能幫到需要的朋友,也算善莫大焉了。

這一篇從原理開始講起,后續會依次總結蛋白質組學鑒定、定量、注釋、翻譯后修飾、靶向等基礎內容,當然最后也會講到下游數據分析處理。

一、蛋白質組學概述

蛋白質組學是特定系統內蛋白質集合及其相互作用的研究。

蛋白質組研究本質上指的是在大規模水平上研究蛋白質的特征,包括蛋白質的表達水平,翻譯后的修飾,蛋白與蛋白相互作用等,由此獲得蛋白質水平上的關於疾病發生,細胞代謝等過程的整體而全面的認識,這個概念是在1994年Marc Wilkins首次提出的。

為什么要研究蛋白質組學?

我想一句話就夠了:蛋白質是生命活動的物質基礎,是生命的執行者。

用業內通俗的話說解釋各個組學的作用就是:基因組解釋能發生什么?轉錄組解釋將發生什么?蛋白組解釋在發生什么?代謝組解釋已發生什么?

蛋白質組學是后基因組時代的產物,作為中心法則的下游,其復雜程度遠遠超過基因組學。基因組的存在是相對穩定的,而細胞和細胞之間的蛋白質組則是隨蛋白質和基因以及環境的生物化學反應而變化的。同一生物在生物體不同部位、生命的不同時期以及不同的環境中,具有不同的蛋白質表達。

人類基因組測序計划的完成並沒有給人提供解開生命的密鑰,科學家把興趣轉到蛋白質,希望通過蛋白質組的研究來進一步解開生命的本質。

二、質譜儀結構及原理

先看下面這張圖,大致說明了蛋白質組學分析鑒定的流程。簡單來說就是樣本制備后分離進入質譜儀中,產出具有質荷比信息的實際譜圖,再和數據庫產生的理論譜圖進行匹配打分,從而推斷出蛋白信息。后續將會詳解這一部分。

蛋白質組分析鑒定流程

從上圖我們可看出高通量蛋白質組學的研究離不開質譜儀,要想理解蛋白質組學數據分析原理,首先就要明白質譜儀的工作原理。

1.質譜儀的發展

質譜儀發展的幾個標志性階段

上世紀初,JJ. Thomson發明第一台質譜儀;
40年代,質譜儀用於同位素測定和無機元素分析;
60年代,開始出現氣相色譜-質譜聯用儀應用於有機物分析;
80年代,以電噴霧、基質輔助激光解析電離為基礎的液相色譜-質譜聯用儀應用於蛋白質等生物大分子檢測。

2.質譜儀結構

簡單來說,質譜儀就是用來測定氣態離子質荷比(m/z)的儀器。首先放個圖,直觀感受下質譜儀長啥樣。嗯,我覺得比測序儀丑,但是價格卻不比測序儀便宜。
質譜儀

質譜儀類型可分為無機質譜儀、同位素質譜儀、有機質譜儀、生物質譜儀。后兩者用途比較廣泛,用於蛋白質組學分析的質譜儀屬於生物質譜儀,主要由以下幾種結構組成。

1)進樣系統
按物質形態,無非氣體、固體、液體三種。按進樣方式,有氣體擴散進樣、直接探針進樣、色譜進樣等。

2)離子源
離子源的作用是將被分析的樣品分子電離成帶電離子,並使其在光學系統作用下聚成一定形狀和能量的離子束,然后進入質量分析器被分離。

離子源可分為硬源和軟源,硬源離子化能量高,譜圖復雜,可得到分子官能團信息;軟源能量低,產生碎片少,譜圖簡單,可得到分子離子峰。常見硬軟電離源如電子轟擊電離源(EI)、化學電離源(CI)、場致電離源(FI)、場解析電離源(FD)、快原子轟擊電離源(FAB)、大氣壓化學電離(APCI)、大氣壓光電離(APPI)、電噴霧電離(ESI)、基質輔助激光解析電離(MALDI)等等。

與GC串聯的離子源有電子轟擊電離源(EI)和化學電離源(CI),常用於代謝組學。與LC串聯質譜的離子源有電噴霧離子化(ESI)、基質輔助激光解析電離(MALDI)大氣壓光電離(APPI)等,常用於蛋白質組學,也正是ESI和MALDI的發明獲得了諾貝爾獎。

ESI采用強靜電場(3-5KV),形成高度荷電霧狀小液滴,經過反復的溶劑揮發-液滴裂分后,產生單個多電荷離子,電離過程中,產生多重質子化離子,主要用於LC-MS聯用儀。

MALDI可使熱敏感或不揮發的化合物由固相直接得到離子。波長為1250-775的真空紫外光輻射產生光致電離和解吸作用,獲得分子離子和有結構信息的碎片,適於結構復雜、不易氣化的大分子,並引入輔助基質減少過分碎裂。一般采用固體基質,基質樣品比為10000/1。根據分析目的不同使用不同的基質和波長。
ESIMALDI

3)質量分析器
質量分析器是質譜儀的核心,將帶電離子根據其質荷比加以分離,以便用於紀錄各種離子的質荷比和豐度信息。通常不同類型的質量分析器組合會構成不同功能的質譜儀,這就是所謂的串聯質譜。

目前最常用的質量分析器有:A.四級桿(Quadrupole);B. 飛行時間(time-of-flight,TOF);C. 離子阱(ion trap);D. 靜電場軌道阱(Orbitrap)。
4種常見的質量分析器

飛行時間質譜 (TOF),分析物的質荷比是根據分析物在真空飛行管中的飛行時間推算出的。飛行時間質譜的質量分析器由調制區、加速區、無場飛行空間和檢測器等部分組成。通過離子源得到離子以后,離子經過一個加速的區域,所有的離子都會獲得一個相同的初始動能,然后它們進入一個沒有電場的區域,不同質量的離子具有不同的能量,重的離子飛行速度會慢一些,輕的離子飛得快一些,最終離子都會通過整個飛行區域,到達檢測器。飛行時間是與質荷比的平方根成正比的,通過無場區的飛行時間長短不同,離子可以依次被收集檢測出來。這種質量分析器結構簡單、掃描速度快、靈敏度高、質量范圍寬。TOF質譜儀的外表特點就是非常長,為了讓離子能夠盡可能跑得遠一些。
AB 4700和Bruker Ultraflex質譜儀

四極桿 (Quadrupole, Q)由四根平行的棒狀電極組成而得名。四根電極分成兩組,兩個相對的是一組,在相對的電極上加上一個相同的交流電壓和直流電壓,而在相鄰的電極上,則加上相反的交流電壓和直流電壓,通過疊加交流電壓和直流電壓,不同質荷比的離子進入四級桿以后,會發生震盪,然后飛行轉圈,當掃描的電壓和頻率一定的時候,只有特定質荷比的離子才能穿過四級桿。通過改變四級桿上的電壓,我們可以讓不同質荷比的離子依次穿過質譜儀,到達檢測器。而其它質荷比的離子就會因為偏轉太多,而打到四級桿上,或者從縫隙里穿出。這種質量分析器結構簡單、體積小,僅用電場不用磁場,掃描速度快,特別適合液相色譜聯機,分辨率不高,對高質量離子有質量歧視效應。四級桿質譜儀的外觀結構比較緊湊。
四級桿

離子阱(ion trap)與四級桿原理類似,因此也稱四級離子阱,它的橫截圖跟四級桿質譜儀是一樣的,只是它的側面開了一個洞,來作離子彈出用的。四級桿質譜儀中,離子是穿過質譜儀飛出去的,而在離子阱質譜儀中,離子不會飛出質譜儀,而是一直在阱里面,沿着下圖像8字型的軌跡飛行(阱指的就是陷阱,把離子包在里面一直轉圈)。當掃描電壓達到一定的數值以后,離子會被射出來。比四級桿靈敏度更高,質量范圍大。離子阱分為線性離子阱和三維離子阱。線性離子阱具有更大的離子容量和掃描速度。也有人將靜電軌道離子阱(Orbitrap)歸並為離子阱的一類。
離子阱

TOF只能檢測不同質荷比的離子,卻不能選擇讓哪些離子留下,而四級桿和離子阱既可以檢測離子,同時也可以實現離子的選擇,將想要的離子留在離子阱中,或者說讓特定的離子穿過四級桿。所以四級桿或離子阱又叫質量過濾器,它可以過濾特定質荷比的離子。所以質量分析器其實包括兩個部分,即質量過濾器和質量檢測器。

Orbitrap的工作原理類似於電子圍繞原子核旋轉。由於靜電力作用,離子受到來自中心紡錘形電極吸引力,由於離子進入離子阱之前的初速度以及角度,離子會圍繞中心電極做圓周運動。通過傅立葉變換(Fast Fourier Transform, FFT),得到頻譜圖。因為共振頻率和離子質量的直接對應關系,可以由此得到質譜圖。

另外還有一類常用的是傅立葉變換離子回旋共振質量分析器(FTICR),基於在強磁場中,離子的回旋頻率與離子質量成反比,所以測量離子的回旋頻率可以獲得其質量。它無需分離不同質荷比的離子,而是在同一時間內同時測量所有離子的質荷比和豐度,最大限度地利用全部離子的信息,所以分析靈敏度高。但是FTICR對真空度要求極高,同時強磁場需要龐大的超導磁鐵產生,所以成本很高。

FTICR和Orbitrap都是是基於離子在場中回旋運動,通過測定回旋共振頻率,並進行傅里葉變換,來測定離子質荷比,區別在於Orbitrap用的是電場,而FTICR用的是磁場,所以Orbitrap性價比高,應用更廣。

4)檢測器
如電子倍增器、閃爍檢測器、法拉第杯、照相檢測等。

5)其他
除此之外,還包括真空系統,使離子可以穩定地飛行,不受其它空氣分子的干擾。計算機系統,實現質譜儀的控制和數據的采集。氣體系統,氣體供應和廢氣處理(氮氣、氬氣)。電力供應,UPS不間斷電源系統。

3. 質譜儀參數

評估一台質譜儀的性能,通常有以下指標:

1)檢測限
與三倍噪音相當的物質的量,可以理解為這是質譜儀能夠檢測到的最低含量化合物的濃度。通常會用利血平來作為一個標准的化合物測定質譜儀的檢測限。

可以認為,靈敏度與檢測限評估的是同一種性能。

2)線性范圍
表示在什么樣的濃度范圍之內,質譜儀檢測到的信號與樣品濃度之間成線性的關系。也就是說在這個濃度范圍內的樣品用這台質譜儀檢測是比較合適的,高於或低於這個濃度范圍的樣品,需要濃縮或者稀釋后才能用這台質譜儀檢測。

一般質譜儀的線性范圍在3-6個數量級,即1,000—1000,000范圍內。而大部分質譜儀在1000 – 10,000這個范圍內。

這個參數的意義在於,當我們的樣品在一個比較寬的濃度范圍內時,如果質譜儀的線性范圍非常好,就不需要濃縮低濃度的樣品,也不需要稀釋高濃度的樣品,可以直接進樣,這樣就可以大大減少樣品前處理的復雜程度,節省時間和實驗步驟。

3)分辨率

即我們通常所說的高分辨質譜。
image.png
分辨率就是質譜儀可以分辨最靠近的兩個質譜峰的質量差值。當兩峰重疊部分的高度不超過任何一個質譜峰峰高10%時,一般認為這是兩個可分離的峰,測定其中任何一個質譜峰的半峰寬(即峰高一半處的峰寬),然后用任何一個峰的質荷比除以半峰寬,就可以得到分辨率。

目前高分辨質譜儀的分辨率可以達到50,000-100,000的數量級,一般的四級桿可以達到5,000-10,000。
image.png
上圖圈出的峰在低分辨率時只能觀察到一個峰(一個化合物),隨着分辨率上升可以看出,這其實是兩個不同峰的峰,所以高分辨率能獲得更全面的化合物信息。

4)質量准確度
指質譜儀測到的質荷比與它實際的質荷比的差值,除以它真實的質荷比與1,000,000的乘積。所以它是以ppm為單位的(百萬分之一),這個數值看起來更方便。目前高分辨質譜儀質量准確度在2-5個ppm的范圍之內。

質量准確度高,可以大大減少候選化合物的數量,提高鑒定的成功率。

分辨率與質量偏差分別評估了質譜儀的精密度與准確性,通常希望兩者都高。就像我們打靶,比如打靶,若每一次都打在不是靶點的同一個點,說明精密度非常高,但准確性卻比較差;若每次打的點很分散,但平均起來的位置剛好在靶心,則說明質量准確性還可以,但精密度比較差。

目前我們能用到的高分辨質譜儀,不管是QTOF或者Orbitrap系列,都可以達到50,000以上的分辨率,同時也可以達到2-3ppm的質量准確性。下圖是目前常用質譜儀的重要參數比較:
質譜儀參數比較
對於蛋白質組學研究來講,我們對質譜儀器性能的最低要求是:分辨率至少在40,000-50,000,質量准確性應該優於5ppm,質量掃描范圍應該在100-3,000,掃描速度是每秒至少獲得一張高分辨的一級譜圖和十張高分辨的二級譜圖。

4. 串聯質譜儀

串聯質譜(MS/MS)就是將相同或者不同的質譜儀串聯起來,實現串聯或者並聯工作。這樣做一是為了產生二級碎片離子,二是實現不同質譜儀性能的優勢互補。

常見的串聯質譜有:

三重四級桿(Triple Quadrupole),或者串聯四級桿,就是把三個四級桿串聯起來,這樣做的主要目的是為了實現二級質譜的掃描。

四級桿和飛行時間質譜儀串聯到一起,就是我們經常聽到的Q-TOF,它實際上是為了提高二級質譜的分辨率。

Orbitrap與四級桿/離子阱組合,比如Orbitrap Fusion,Orbitrap Elite等組合。

下面,用三重四級桿的例子來說明串聯質譜儀是如何獲得二級碎片離子的。
串聯四級桿

第一個四級桿Q1開啟質量選擇模式,它讓特定質荷比的離子穿過質譜儀,而把其它的離子都甩掉(甩到四級桿上或者四級桿的空間當中去)。當特定的離子被選擇好后(稱為母離子,precursor ion),會進入碰撞池Q2(collision cell,用來碎裂離子)。在碰撞池里通常入口電壓會高於出口電壓,當母離子進來以后,通過電壓差的作用加速,然后與碰撞池里的氦氣或氮氣分子發生碰撞、碎裂,形成碎片離子(fragment ions,也稱子離子)。最后,這些碎片離子進入第三個四級桿Q3中進行二級的掃描,得到二級質譜圖。
二級質譜圖示例

其他的串聯質譜運行大體是一樣的。

Q-TOF,Bruker生產,Q1四級桿,Q2碰撞池,Q3飛行時間質譜儀。這里用了一個反射模式飛行(讓離子拐個彎再飛回來),讓離子在更短的空間內可以飛得更遠一些。

Q-TOF
Orbitrap系列,如Q Exactive質譜儀,Q1也是一個四級桿,Q2是碰撞池,Q3是被一個Orbitrap所取代。

image.png
QE

Orbitrap Elite,Q1離子阱,Q2碰撞池,Q3為Orbitrap。

Orbitrap Fusion,Q1四級桿,Q2離子阱,Q3為Orbitrap,同時還有一個碰撞池,整體是一個非常復雜的結構。它的特點是Orbitrap與離子阱可以同步進行掃描(一般質譜儀的兩個質量檢測器是不能同時掃描的,只能一個做質量檢測,一個做質量過濾),所以掃描速度會更快,性能也更好。Fusion的分辨率可達到240,000 – 960,000。

三、蛋白質組學的鑒定原理

蛋白質組學鑒定常用基於二維凝膠電泳和基於質譜兩種方法。

1.基於二維凝膠分離 (2D-Gel)鑒定

這是傳統蛋白質組學鑒定方法。大致原理是2D-Gel根據蛋白的等電點和分子質量的差異,通過等點聚焦和SDS-PAGE分離,通過染色和成像把不同電性和大小的蛋白質顯示在凝膠上。

具體來說,就是利用聚丙烯酰胺凝膠(SDS-PAGE)電泳的電荷效應和分子篩效應,使之凝膠電泳遷移率與所帶的電荷多少以及分子大小都有關,電荷越多跑得越快,分子越小跑得越快。
SDS-PAGE 蛋白質凝膠電泳圖
這是蛋白質組學濕實驗常用鑒定方法,不是我們關注的重點。當然在基於質譜技術進行蛋白質鑒定前,也常常用這種方法來進行分離預處理。

2.基於質譜(MS)鑒定

1)鑒定大致流程

常規的蛋白質譜鑒定路線有這么幾個步驟:
樣本制備:細胞、組織、血液;蛋白復合體;特異修飾蛋白(如磷酸化、糖基化、泛素化等);
樣本分離:1-D gel;2-D gel;LC(liquid chromatograph);
質譜分析:如MALDI-TOF、ESI-MS等;
數據庫搜索:Sequest;Mascot;MaxQuant等;
數據分析:R、Linux、Perl、Python等。

2)色譜分離

色譜/層析(chromatography)是一種分離復雜混合物中各個組分的有效方法。它是利用不同物質在由固定相和流動相構成的體系中具有不同的分配系數,攜帶樣品的流動相穿過固定相時,由於樣品各組分理化性質存在差異,與固定相作用力弱的組分,移動速度快;反之,移動速度慢。根據不同的保留時間,收集特定屬性的樣品進行進一步分析。色譜有多種,可以按固定相類型和分離原理進行分類,根據流動相的不同可分為氣相色譜和液相色譜。

根據相互作用類型的不同,色譜法可分為吸附色譜法:物理吸附法,分配色譜法,離子交換色譜法,尺寸排阻色譜法,親和色譜法等等。目前,在蛋白質組學研究中,用得最多的就是分配色譜法,就是根據樣品在固定相與流動相之間溶解度的差異來實現多肽或蛋白的分離。實際上是利用了多肽或蛋白疏水性上的差異。

液相色譜儀主要由以下4個部分組成:
色譜柱:玻璃柱+固定相
流動相輸送系統:色譜柱填料很細,只有一點幾微米到幾微米,需要用一個泵來把流動相擠壓下去。所以液相色譜要配一個泵系統,來輸送流動相。
進樣系統:用密封的系統需要一個自動進樣器來完成。
檢測系統:現在常用的有紫外或熒光,最簡單的就是用肉眼來觀察是否有樣品流出。
液相色譜

上圖左邊是戴安的液相色譜儀,從上往下依次是泵系統、進樣系統、柱系統和檢測系統,右邊是Waters的液相色譜儀,也是類似的結構。

對於蛋白質組學領域,常用的液相色譜儀是納升液相色譜,其特點是色譜柱細,流速慢,減少樣品被流動相稀釋的倍數,從而提高檢測的靈敏度。

高效(高壓/高速)液相色譜(high performance liquid chromatography, HPLC)是目前很常用的一種液相色譜方法。其流動相為液體,在高壓作用下快速流過固定相,分離效能高,靈敏度高,應用范圍廣,柱子可反復使用。最早洗脫出的是越親水的。

3)液質聯用技術

對於蛋白質組學研究來說,液相色譜和質譜是不能單獨工作的,它們必須聯機工作,才能實現對蛋白質的檢測。

液相色譜儀是在常溫常壓下工作的,柱子是放在空氣中運行的,而且樣品是溶解在流動相(水或有機溶劑)當中的。而質譜儀需要在真空環境下工作,樣品需要從溶液狀態轉化為氣態,而且需要被電離。所以總的來說,我們需要一個電離源,能把樣品從常溫常壓的液相狀態直接變成真空中的氣態離子狀態。

電離源要實現的功能有三個:一是去溶劑和氣化,把樣品中的溶劑去掉,將待檢測的多肽分子變成多肽的氣態分子;二是將多肽的氣態分子離子化,讓它們帶上電荷;三是把多肽的氣態離子送到真空當中。

電噴霧電離(ESI)實現了這些,具體過程是這樣的:樣品首先通過一個毛細管噴針被噴出來,進入質譜儀,而在噴針的外面,會用一個鞘氣(sheath gas)來輔助樣品的霧化。對鞘氣進行加熱,當加熱的鞘氣吹到樣品中或者溶液中時,溶液中的流動相或者溶劑就會揮發,就會剩下氣態的離子。同時,在毛細管噴針尖端與質譜儀的入口之間,還會加一個電壓,叫High voltage,對這些待電離的分子,首先溶劑揮發掉,然后分子被氣化,最后在電場的作用下,分子就會變成離子,實現電離的過程。最后,這些離子會被質譜儀入口處的真空抽到質譜儀里,同時被電場驅動進入質譜儀。於是,就實現了氣化、電離以及真空過渡三重需求。這就是液相色譜與質譜的接口,即ESI電噴霧電離。
ESI原理

簡單來說,色譜用來分離化合物,質譜用來分析純物質的結構。

3.蛋白質組學分析策略

1) Bottom up

目前蛋白質組學分析應用最廣的方法。也是我們所說的“鳥槍法(shotgun)”,此處的“bottom”指的是肽段,“up”則是由肽段推理為蛋白的過程。即先將蛋白酶解成肽段,然后通過色譜分離肽段混合物,再用質譜技術將肽段碎裂,根據碎裂譜圖的離子峰信息進行數據庫搜索來鑒定肽段,最后將鑒定的肽段進行組裝、重新歸並為蛋白。

該方法技術發展成熟,相關的軟件工具及算法都比較多,適合分析復雜樣本。缺點是蛋白序列覆蓋度不完整,據說覆蓋度僅10%-20%。這就導致氨基酸序列高度相似的蛋白質變體(proteoform)推理不准確,而且由於是逆向組裝蛋白,不適合進行翻譯后修飾的檢測。

2) Top down

這里的“top”指的是完整蛋白質分子的質量測定,“down”則是指對完整蛋白的碎裂。無需酶解,通過完整蛋白質的質量及其碎裂譜圖信息可以實現真正意義上的蛋白質鑒定,序列覆蓋度高(號稱100%),能保留多種翻譯后修飾之間的關聯信息。但是該方法通量較低,不適合分析復雜樣本,在完整蛋白質分離、質譜分析、生物信息學等各方面的技術相對也不完善。

蛋白質譜原理暫時介紹到這里,主要還是介紹質譜儀的相關常識,下篇筆記將重點介紹基於串聯質譜以及bottom up方法的蛋白質組學鑒定分析流程。

Ref:
ps:文中部分圖片來自來自中國農業大學生物學院的李溱老師
http://www.crickcollege.com/news/179.html
http://www.crickcollege.com/news/220.html
http://www.crickcollege.com/news/222.html
http://www.crickcollege.com/news/233.html
https://wenku.baidu.com/view/d881c10502020740be1e9bad.html
https://wenku.baidu.com/view/85e9bbe9a5e9856a571260a0.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM