1. Maxquant的iBAQ和LFQ,該用哪個?
我們使用Maxquant做Label Free蛋白質組學定量分析的時候,在Maxquant的參數設置時,會遇到兩個參數,LFQ和iBAQ,那么,選擇哪個好呢?
如果你都選上,在最終的proteingroups.txt中,會出現三列:Intensity、IBAQ、LFQ intensity,這三列中的數字,也就是蛋白的定量強度,並不一樣,那么,到底那一列比較准呢?
首先,讓我們來看一下三者的計算原理是什么?
> Intensity是將某Protein Groups里面的所有Unique和Razor peptides的信號強度加起來,作為一個原始強度值。
> iBAQ是在上面的基礎上,將原始強度值除以本蛋白的理論肽段數目。
> LFQ則是將原始強度值在樣本之間進行校正,以消除處理、上樣、預分、儀器等造成的樣本間誤差。
假設有兩個蛋白,A和B,A和B在樣本中的量是相等的,也就是等量。 假設A的長度是10個肽段,B的是100個肽段,假設鑒定結果中,覆蓋度都是30%,那么蛋白A的強度是3,B的是30,。這時候我們對比一下,B是A的10倍,但是,A和B原本是相等,這樣就存在較為嚴重的誤差。
這時候,如果我們將其原始強度值除以理論肽段數目,A的強度變成了3/10, B的強度變成了3/10。 A = B,Perfect!
上面就是IBAQ的原理和用處。
但是在定量蛋白質組學中,我們並不做蛋白A和 B之間的定量,假如你有一個葯物處理前的細胞和葯物處理后的細胞的對照型樣本做的定量蛋白質組學實驗,我們關注的蛋白A在處理前和處理后的變化,至於A和B之間的比值,並不重要。
所以,如果是樣本內對比,當然用iBAQ,因為其表征的是蛋白的摩爾比值(copy number)。如果是樣本間對比,當然是LFQ(正式名稱為MaxLFQ,也就是搜庫結果中的txt文件中的LFQ Intensity)[1]
當然,如果你執意要用iBAQ,你可以手工校准樣本件誤差,方法很簡單:蛋白IBAQ值除以此樣品所有蛋白的強度的和,計算比例(這也是組學中“等質量上樣”和“等體積上樣”的核心區別,等質量上樣來看的是比例,但是計算比例是有壓縮效應的)[2]。
最后,總結一下:
同一個(或者說同一針)樣品內部的蛋白互相比較,用IBAQ;
不同樣品間互相比較(不管是重復還是不同的處理組),用LFQ。
Reference:
[1]Cox J, Hein M Y,Luber C A, et al. Accurate Proteome-wide Label-free Quantification by DelayedNormalization and Maximal Peptide Ratio Extraction, Termed MaxLFQ[J]. Molecular& Cellular Proteomics Mcp, 2014, 13(9):2513.
[2]Shin J B, Krey JF, Hassan A, et al. Molecular architecture of the chick vestibular hairbundle[J]. Nature Neuroscience, 2013, 16(3):365-74.
2. 關於數據標准化方法的描述【thermo 配帶的PD2.2為例】
1). 從原始的abundance到abundance(normalize),是利用樣品總面積進行normalize的【total sum intensity normalization】。
ref1:Sialana F J, Wang A L, Fazari B, et al. Quantitative proteomics of synaptosomal fractions in a rat overexpressing human DISC1 gene indicates profound synaptic dysregulation in the dorsal striatum[J]. Frontiers in molecular neuroscience, 2018, 11: 26.
ref2:Dittenhafer-Reed K E, Richards A L, Fan J, et al. SIRT3 mediates multi-tissue coupling for metabolic fuel switching[J]. Cell metabolism, 2015, 21(4): 637-646.
>abundance到abundance(normalize),是利用樣品總面積進行normalize,計算如下:
a. 計算3個樣本Sample1,Sample2,Sample3中蛋白總量(sum行),
b. 選取其中一個樣本(這里選取Sample3)的總量當作參考,進行其他兩個樣本系數(Sample1總量/Sample3總量,Sample2總量/Sample3總量)的計算;
c. 每個蛋白豐度值除以相應樣本的系數,獲得normalize數值;最終,達到個樣本的總量相一致;
protein Sample1 Sample2 Sample3 Sample1.norm Sample2.norm Sample3.norm
P1 96263572.85 104019086.7 154492068.8 188852720.2 195452761.3 154492068.8
P2 49830964.66 46392160.22 67074679.03 97759858.15 87171269.3 67074679.03
P3 143632391.8 137680969.2 194423852.5 281782268.3 258703728.9 194423852.5
P4 46985091.01 50239488.8 28002701.31 92176739.18 94400432.89 28002701.31
P5 62493244.91 78469297.48 339179377.8 122601093.5 147444486.9 339179377.8
sum 399205265.2 416801002.4 783172679.3 783172679.3 783172679.3 783172679.3
系數 0.509728283 0.532195534 1 1 1 1
2).abundance(group)或scaled是在abundance(normalize)基礎上均一化之后的結果,主要是為了方便提取數據,把數據映射到一定范圍之內,使數據大小更直觀,計算如下:;
a.蛋白a在三個樣品中abundance(normalize)的結果為分別為Sample1.norm,Sample2.norm,Sample3.norm,平均值average=(Sample1.norm+Sample2.norm+Sample3.norm)/3;
b.所以蛋白a在三個樣品中abundance(group或scale)(即均一化)分別為:Sample1.norm/average,Sample2.norm/average,Sample3.norm/average;
c.為方便數據分析,將結果擴大100倍,蛋白a的三個樣品中abundance(group或scale)結果為100Sample1.norm/average,100Sample2.norm/average,100Sample3.norm/average;