非靶向代謝組實驗設計
1.代謝物提取,一般要求每組至少10個樣;
2.在所有提取好的樣本中取等量混合作為QC;
3.QC樣本與實驗樣本穿插上機,開始十個QC,結尾三個QC,中間每十個樣本穿插一個QC樣本
。
得到質譜譜圖數據經軟件處理后得到峰表。
峰表格式一般為:每行為一個m/z,每列為一個樣本
數值表示該樣本中某個m/z的信號響應。
第一列為保留時間_質荷比
來代表離子,如0.10_96.9574m/z
。
數據分析流程
一般有如下幾點:
1.數據預處理。如缺失值過濾填充、數據歸一化等。
2.數據質控。包括CV分布、QC等。
3.統計分析。包括單變量、多變量等。
4.功能分析。包括Pathway、網絡分析、Biomarker篩選等。
1.數據預處理
缺失值處理
1)缺失原因
a. 信號很低檢測不到;
b. 檢測錯誤,如離子抑制或者儀器性能不穩定;
c. 提峰的算法限制,不能從背景中將低的信號提取出來;
d. 解卷積時不能將重疊的峰全部解析出來。
2)缺失值過濾
比如:
QC樣本中缺失超過50%的去除;
樣本中缺失值超過80%的去除。
3)缺失值填充
-- 最小值填充
-- 平均值/中值填充
-- KNN( k-nearest neighbour)填充
-- BPCA(Bayesian PCA)填充
-- PPCA(probabilistic PCA)填充
-- Singular Value Decomposition (SVD)
一般推薦KNN。
噪音信號去除
一般是低質量的離子。
1)低質量離子的確定:
計算某個離子在QC樣本中的RSD(標准差/均值);其值越小,說明偏差越小;
2)判斷標准:
-- 對單個離子峰而言,RSD<0.3,則該離子峰合格,否則去除;
-- 對於整體數據而言,RSD<0.3,峰所占比例>60%,則整體數據合格;
樣本歸一化
目的是為了提高樣本間的可比性。
樣本間有差異性,如不同人的尿液濃度不同,不能直接拿來比較。
可在采集前歸一化,如肌酸酐歸一化;也可在采集后歸一化,如sum,pqn,quantile等。對於數據分析而言,通常是后者,如總和歸一化(sum)。
數據轉換
下游的分析一般要求數據為正態分布或者高斯分布;
所以數據通常要進行Log轉化或power轉化,這兩者都能夠將極大值的抑制效應消除,並且能夠調整數據的分布,如下圖;
Log轉化對0值比較敏感,必須首先去除零值。
數據轉換——scaling
目的是消除極大值效應。
對不同樣本中同一個m/z的強度差異過大進行調整,極大值的存在往往會掩蓋較低值的變化特征。
可將某個m/z在所有樣本中的強度的值,除以一個因子(SD值);
方法如auto (uv),pareto(推薦),vast, range等。
相當於上面樣本歸一化是為了樣本可比,scaling是為了離子可比。
2.數據質控
QC樣本的TIC重疊情況
上圖分別是陰離子和陽離子模式下QC樣本的TIC重疊情況。
一般認為:
所有的QC樣本峰重疊良好;
峰強度波動差別不大;
QC樣本中CV<30%的峰所占比例
PCA中QC樣本的聚集程度
QC樣本的相關性
上圖分別為歸一化前和歸一化后的數據。
3.統計分析
單變量分析
一次只分析一個變量,即一個m/z,考察不同組別不同樣本的這個m/z表達有無差異?
常見的方法有倍數分析,t檢驗,秩和檢驗,方差分析等。
聚類分析
核心思想就是根據具體的指標(變量)對所研究的樣品進行分類;
聚類分析需要設定一個方法來衡量樣本間的相似性或者不相似性(常用歐式距離,相關性系數等);
常見聚類的方法:系統聚類(層次聚類)、K-均值聚類等。
K-均值首先要估計出將要分出幾個類,然后將全部的基因按照相似性的距離,歸入這幾類中。
K– means計算量要小得多,效率比層次聚類要高。
無論哪種分類方法,最終要分成多少類,並不是完全由方法本身來決定,研究者應結合具體問題而定。
聚類分析是一種探索性的數據分析方法。相同的數據采用不同的分類方法,也會的得到不同的分類結果。分類的結果沒有對錯之分,只是分類標准不同。
使用聚類方法時,首先要明確分類的目的,再考慮選擇哪些變量(或數據)參與分類,最后才需要考慮方法的選擇。
多變量分析
1)PCA分析
以下分別是得分圖(樣本在新的坐標系中的位置
)和載荷圖(loading圖,原變量與主成分間的夾角)
PCA怎么看?
- 組內差異
- 組間差異
- 異常樣本
- PC1與PC2得分
2)偏最小二乘法
PLSDA的圖和PCA類似。只是一種監督學習的方法,事先給樣本分類,最后看能否將不同組分開。
用R2和Q2進行模型評價。
R2是相關性系數,表示這個模型的擬合效果,是一個定量的測量(范圍0-1),意味着所建立的模型能在多大程度上代表真實的數據;
一般當R2在0.7-0.8表示模型解釋能力較好,較差的模型的R2往往為0.2-0.3
Q2表示PLS-DA模型的預測能力;
一般Q2大於0.5表示預測能力較好,並且R2與Q2的值應該比較接近。
使用permutation test模型進行過擬合檢驗。
VIP ( Variable Importance in Projection)變量重要性投影
每一個m/z都有VIP值,表示這個m/z在某一個主成分上的投影,即重要程度;
一般我們使用第一、第二主成分的VIP來表示這個m/z對模型分型的貢獻程度,VIP>=1被認為是具有顯著貢獻的。
代謝組學數據分析最后兩部分內容——功能分析和生物標志物篩選見下節內容