MetaboAnalyst的多組學分析


MetaboAnalyst是做代謝的R包,功能十分強大。也開發了web版本,代謝組學的分析這里不介紹,主要講講它開發的多組學分析的相關內容。

既然是做代謝的工具,即使是增加了多組學內容,肯定也是以代謝為核心。以代謝組為中心的多組學分析想想無非就是以下幾點:多元變量統計分析、網絡分析、pathway分析以及mGWAS或宏組學等,這個工具就有網絡分析和pathway分析。下面我們一起來試試。
image.png

網絡分析

我們先看看網絡分析。我這里使用軟件提供的demo數據,點擊進去后,會有兩種ID類型供選擇。第一種是代謝物和基因,示例數據來自轉錄組和代謝組的關聯分析;第二種是代謝物和KO的關聯,示例數據來自mGWAS。
image.png

我們先用第一種試下。導入后,數據格式應該是這樣:
image.png

提交后,數據list會和數據庫中的ID進行匹配,如代謝物會和HMDB和KEGG中匹配(這就需要我們輸入時提供這兩種標准的代謝物ID)。
image.png
輸入的基因ID可以是Symbol,ENTREZID和EnsembleID,同樣地和KEGG數據庫中K編號進行匹配。
image.png

輸入的數據如果在數據庫中信息缺失,會以灰色陰影顯示;如果數據庫中沒有匹配,則以紅色陰影顯示。

再試下第二種,默認基因組是K編號,代謝組是HMDB號。
image.png

同樣輸入ID也要匹配到數據庫中。因此兩種輸入方法殊途同歸。
image.png
image.png

提交后,會有五種網絡分析供選擇。
image.png

1.KEGG Global Metabolic Network

這是啥子意思呢?其實就是映射到了ko01100(Metabolic pathway)這條基礎通路中。
image.png
映射的圖比較亂,因為這個通路太大了:
image.png
最上邊調整圖形,左上角列表是子通路及其對應的信息,左下角是選中的子通路的化合物,右邊我圈出的是化合物映射在pathway中的位置。
這個圖我覺得沒什么太大用,看個人需求吧。

2. Metabolite-Disease Interaction Network

這個網絡是研究代謝物和人類疾病的關聯,關聯數據是從HMDB獲得的。
image.png
可以在這里下載相應的相互作用文件(.SIF),導入到Cytoscape中調節。我下載看了下,SIF文件格式是這樣的:
image.png
沒搞清楚pp指的是什么。繼續點“Proceed”,查看下軟件給我們做出的網絡圖。
image.png

我圈出了幾塊內容。界面和上面類似。化合物列表關系增加了點度中心性(degree)和中介中心性(betweenness)。從圖我們可以看出,這種網絡就是闡釋化合物和疾病之間關系的。右邊增加了一些功能探索按鍵,可分為上下調。

3. Gene-Metabolite Interaction Network

基因和代謝物互作網絡,這是基於STITCH數據庫的(專門做小分子互作網絡的數據庫,主要來自Pubmed)。結果和第二種網絡一樣,不再解釋了。也有SIF文件可供下載。
image.png

4. Metabolite-Metabolite Interaction Network

代謝物和代謝物互作網絡,也是基於STITCH數據庫。略

5. Metabolite-Gene-Disease Interaction Network

代謝物和基因和疾病的互作網絡,就是將上面的網絡結合起來了。
image.png

總結:MetaboAnalyst的網絡分析主要是基於已有數據庫中的信息,包括和疾病以及小分子互作。沒有相關性(spearman)網絡分析,從輸入的文件沒有樣本信息就可看出。不過這種網絡分析比相關性網絡更有生物學含義。

Pathway關聯分析

下面我們看看Pathway的關聯。還是使用軟件提供的示例數據。可以提供多種基因ID輸入,化合物仍只支持KEGG和HMDB。
image.png
檢查輸入ID。
image.png
參數設置如下:
image.png
image.png

  • 富集分析的方法,超幾何檢驗和fisher精確檢驗都可;
  • 拓撲分析也有三種選項(點度中心性degree、接近中心性closeness和中介中心性betweenness),代謝組的富集分析要用到拓撲分析,拓撲分析旨在根據給定基因或代謝物在途徑中的位置來評估其是否在生物學反應中起重要作用;
  • Pathway數據庫既然是關聯,我們肯定選擇全部(all);
  • 整合的方法有兩種:combine queries將基因和代謝物合並到一個查詢列表中,以針對組合的pathway集進行富集分析(即經典富集分析)。combine p values的方法首先分別對基因和代謝物進行富集分析,然后使用Stouffer方法對各個p值進行加權合並。權重基於映射到該組學數據類型中所有路徑的特征的百分比(即基於路徑空間覆蓋率的權重),這種方法僅適用於基因和代謝物均命中的那些pathway。所以我們最好用第一種。
    綜上,我們都用默認的參數就好了。提交后,得到如下結果:

image.png

image.png
上面是圖,下面是表。
首先看第一個圖。典型的KEGG pathway富集氣泡圖。縱軸好理解,P<0.01是閾值,橫軸的Pathway Impact是什么意思呢?這里代謝組的富集分析基於拓撲分析(參考MetPA),我特意查了下,Wiki中的解釋是這樣的https://en.wikipedia.org/wiki/Metabolomic_Pathway_AnalysisMetPA employs a number of topological assessment tools to measure centrality or “hubness” in an objective manner (called Pathway Impact). Pathway impact is a combination of the centrality and pathway enrichment results. It is calculated adding up the importance measures of each of the matched metabolites and then dividing by the sum of the importance measures of all metabolites in each pathway. 可知這里富集是按權重來分析的,雖然沒有富集因子那么簡單粗暴,但含義是大致一樣的,值越大越好。所以這個圖看來,處於右上角的pathway是最可信的。

點擊圖中的點或列表中的名稱是可以點擊進入相應的pathway,右圖。不過右圖顯示的不是完整的pathway,而是一部分(看了幾個通路,也不知具體為什么這么顯示),點擊圖上pathway或表中KEGG,能鏈接到KEGG官網中。

image.png

左邊是每一步過程,標色表明運行完成。中間是結果,可供下載,但生成報告貌似生成不了,可能有bug吧。右邊是過程代碼,有R基礎的童鞋可試試。

總結:pathway的聯合分析以代謝為主,富集分析方法和傳統方法不同。分析還是有限的,比如表達豐度信息沒有包含進去。簡單使用,供參考吧。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM