蛋白質組學數據的歸一化/標准化處理


1.前言

  • 目的:
    調整由於技術,如處理、上樣、預分、儀器等造成的樣本間誤差。這實際上是一種數據縮放的方法。一般在一個表達矩陣中,會涉及到多個樣本,其表達量差異比較大,不能直接進行比較。比如某個樣本表達量很大,在總體中就會占據絕對領導地位,這樣就會掩蓋掉表達量小的樣本的作用,但並不代表它不重要,也有可能是這個樣本含有較多的低表達基因,所以需要指定一個統一的標准,提前對樣本原始表達量進行一定的處理。

  • 起源:
    處理方法借鑒基因表達數據,如RNAseq和芯片數據。在RNAseq數據中,通常需要消除基因長度、測序量等因素產生的誤差。轉錄組和芯片數據處理相對比較成熟,有現成的方法和工具可用,如RPM/CPM、TPM、RPKM等等。當然蛋白質組數據的標准化也有其獨特的地方,如它主要通過是峰面積來定量的,需要對不同run之間的峰面積進行標准化,這在大部分搜庫軟件中都有處理。

  • 歸一化與標准化的區別:
    歸一化是特殊的標准化,在生信領域不嚴格區分。歸一化Normalization一般是把數據縮放到一定范圍,如[0,1], 受離群點影響大;標准化Standardization一般把數據縮放成均值為0,方差為1的狀態,即重新創建一個新的數據分布,受離群點影響小,但變換后的數據邊界不確定。

  • 特點:
    消除了量綱(單位)的影響,真正突出數據的差別,有點絕對值變為相對值的感覺。
    對指標進行了統一,解決數據性質不同的問題。
    標准化后的數據收斂速度更快,計算時間會短很多。

數據縮放scaling(標准化、歸一化)的那些事
表達矩陣的歸一化和標准化,去除極端值,異常值
基因芯片數據分析(一)--芯片數據預處理

2.主要方法及代碼實現

蛋白質組中標准化的工具較少,一般是自己編寫代碼。一般用apply結合sweep函數來實現。

一個表達矩陣,通常行為蛋白,列為不同樣本,我們可以標准化行,也可標准化列,具體問題具體分析,關鍵在於要解釋什么問題。比如我們要盡可能減弱系統偏差對樣本蛋白定量值的影響,使各個樣本和平行實驗的數據處於相同的水平,讓下游分析更為准確可靠,我們需要對列進行歸一化。類似於我們做WB或QPCR實驗時,會選擇內參校正多個樣本的定量值。添加內參或QC的方法在代謝組學的標准化中常用。
image.png

前四種方法通過將每個蛋白原始定量值除以對應樣本的某指定值(如平均值、中位數、最大值和總和等)實現校正,每個樣本的指定值在校正后變為1;后三種方法通過一定標准對原始數據進行縮放實現校正。

  • 中位數/均值/總和標准化
sweep(data,2,apply(data,2,median,na.rm=T),FUN="/") #中位數不受數列的極大值或極小值影響。
sweep(data,2,apply(data,2,mean,na.rm=T),FUN=“/”)
sweep(data,2,apply(data,2,sum,na.rm=T),FUN="/")
  • 中心化變換
    將每一個數據減去對應列的均值,數據變換后,均值為0,方差不變。中心化以后,由於數據的均值變成0,可以消除量綱、數據自身差異所帶來的影響(此處是做減法而不是除法,所以變量的單位還是保留的),而且對線性回歸以及模型預測方面也有好處。
sweep(data,2,apply(data,2,mean,na,rm=T),FUN="-")

或者直接用scale函數:

scale(data,center=T,scale=F) #center中心化,scale標准化
  • 極差標准化
    將每一個數據減去對應列的均值,然后除以對應列最大值與最小值之間的差值。
datacenter <- sweep(data_read,2,apply(data_read,2,mean,na.rm=T),FUN="-")
daraR <- apply(data_read,2,max,na.rm=T) - apply(data_read,2,min,na.rm=T)
sweep(datacenter,2,dataR,FUN="/")
  • 正態標准化
    將每一個數據減去對應列的均值,然后除以對應列的標准差,稱之z-score(標准差標准化),其實就是scale函數中的scale參數。
scale(data,center=T,scale=T)

中位數、均值、中心化之類的標准化方法是將數據按照一定的比例進行縮小,但是縮小的范圍是不確定的;而總和標准化、極差標准化、正態標准化之類的標准化方法可以將原始數據縮小到一個很有限的范圍(比如縮小到[0,1]范圍以內),比如有些機器學習方法,是要求對數據做正態標准化的,這種標准化的數據可以保證后續的運算速度更快。

如果要對行進行標准化,要求數據盡量在同一個尺度(scale)下進行比較,比如做層次聚類熱圖,建議將行的數據也進行標准化,這樣每一行的數據就會控制在同一個尺度之下,顏色的深淺能更好地表現出數據的變化趨勢。

http://www.360doc.com/content/19/0628/17/52645714_845432507.shtml

3.標准化方法評估

有一些類似的文章發表,簡單看了下。
以下一篇是綜述,描述了整個蛋白鑒定過程中(包括實驗部分)有可能遇到的標准化處理的過程。
What is Normalization? The Strategies Employed inTop-Down and Bottom-Up Proteome Analysis Workflows

下面一篇文章綜合比較了11種不同歸一化的性能:
image.png
variance stabilization normalization(VSN)方法能降低的技術重復間差異最大。Linear regression normalization and local regression normalization的總體效果也不錯。
A systematic evaluation of normalization methods in quantitative label-free proteomics

4.MaxQuant中的Intensity,LFQ和iBAQ

大佬的軟件,三種定量算法都發了文章。

  • Intensity是將某Protein Groups里面的所有Unique和Razor peptides的信號強度加起來,作為一個原始強度值。用得很少。
  • iBAQ是在Intenstiy的基礎上,將原始強度值除以本蛋白的理論肽段數目。一般用於樣本內不同蛋白的比較,因為它表征的是蛋白的摩爾比值(copy number)。也可用於不同樣本比較,即通過歸一化手工校准樣本間誤差:蛋白IBAQ值除以此樣品所有蛋白的強度的和,計算比例(這也是組學中“等質量上樣”和“等體積上樣”的核心區別,等質量上樣來看的是比例,但是計算比例是有壓縮效應的)。用得較少。
  • LFQ則是將原始強度值在樣本之間進行校正,以消除處理、上樣、預分、儀器等造成的樣本間誤差。一般用於同一蛋白不同樣本間的比較。不過我們拿到數據后,我們還是會過濾、填充、轉換、標准化一條龍走一遍。用得最多。

[蛋白組學定量值的比較說明
](https://www.cnblogs.com/yanzhi123/p/11712926.html)

5.資源列表


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM