一、iMetaLab簡介
宏蛋白組學是個非常小眾的領域,即使從事的學者也並非專門做這個,大多是作為系統生物學的延伸研究。業界有幾個比較有影響力的研究團隊,一是比利時根特大學的Computational Omics and Systems Biology Group
(COMPOMICS) 團隊,開發了有代表性的宏蛋白分析工具如Unipept、MetaProteomeAnalyzer (MPA),此外還有很多常規蛋白組的工具,如SearchGUI、PeptideShaker、Thermo Raw File Parser 等,后面如果有機會再介紹。二是加拿大渥太華大學的Daniel Figeys團隊,專注於研究人類、小鼠腸道宏蛋白組,一開始提出了經典的迭代搜庫三步法(MetaPro-IQ),后面陸續也實現了一些工具,開發了從MetaPro-IQ,到MetaLab,最后到iMetaLab平台的技術路線。
Daniel Figeys介紹:https://med.uottawa.ca/bmi/people/figeys-daniel
iMetaLab有雲服務器版本和桌面版本,用來分析宏蛋白數據,下游可視化繪圖等分析提供了Shiny Apps,並且也有相應的Demo報告和Wiki。內容主要包括了:肽段和蛋白的鑒定及定量,物種和功能分析,數據分析及其可視化。
關於收費,對於學術研究是免費的,商業用途則需要獲得許可。
二、內置工具與模塊
1. Data Processing module
- ProteoWizard/msconvert
- Xtandem
- MaxQuant
- Spectra clustering
- Msfragger
- FlashLFQ
- Unipept
2. Functional Analysis
- KEGG
- eggNOG database
- NCBI nr database
3. R Developing environment
- Rstudio
- Rstudio server
- ShinyR
- Shiydashboard
4. R based data analysis packages
- ggplot2, ggpairs
- Htmlwidgets, visNetwork, d3heatmap
- Eulerr, colourpicker, DT,shinysky, GGally, ggcorrplot, reshape2, ggfortify, mixOmics
5. Web development libraries and frameworks
- React.js
- D3.js
從內置工具和模塊可以看出,這個平台主要處理的是DDA數據,最后得到的蛋白鑒定和定量結果就是MaxQuant產出格式的。
三、報告內容
iMetaLab分析完成后生成網頁報告https://shiny.imetalab.ca/metalab_report/。
對於報告結果,主要有以下五方面內容:
- ID Summary:譜圖肽段ID統計
- Peptides Summary:肽段鑒定結果分析
- ProteinGroups Summary:蛋白鑒定結果分析
- Taxon Summary:物種注釋結果分析
- Function Summary:功能注釋結果分析
此外,還有一個MetaMep for Taxon Vis模塊,主要是利用MetaMap軟件對物種分析結果進行可視化展示和可交互式操作。
1. 譜圖肽段ID統計
分析點包括了報告介紹,項目信息,譜圖解析率,肽段鑒定數,匯總統計表。
- MSMS ID Rate
這是數據質控的一個指標,可以判斷MS run
的質量,即在1%FDR條件下譜圖鑒定為肽段,QE系列儀器一般能達到50%。可以判斷組內重復性,以及儀器是否需要清洗,數據是否可利用等。
展示方式:分組散點圖,密度圖,箱形圖。 - Peptide Sequence
同樣也是統計各樣本的肽段鑒定數目分布。
可視化:分組散點圖,密度圖,箱形圖。
2. 肽段鑒定結果分析
上圖紅框內的分析,包括對肽段鑒定各方面的統計繪圖,多變量統計和方差檢驗,到得到整潔的肽段數據。
肽段結果分析及其可視化:價態分布,長度分布,得分分布,肽段強度分布(離散和累積),各樣本肽段強度箱形圖,全部樣本肽段的聚類熱圖,肽段層次PCA(2D/3D),各組間方差分析。
最后得到的過濾后的肽段表格(MaxQuant結果)是去除了來自反庫和污染庫的肽段,他們用的強度值是LFQ和自帶的Intensity,整潔肽段表可用於后續分析,也可用作者的shiny.imetalab.ca。
3. 蛋白鑒定結果分析
蛋白組層次和肽段層次的分析基本是一樣的。多了一個unique peptide分布。
疑問:為什么都用方差分析?難道更多的情況不是兩組嗎,即便是多組,很多客戶也是要求兩兩比較。
最后得到的也是過濾后的蛋白表格。
4. 物種分析
- 每個樣本在物種各個層級的注釋統計
- alpha多樣性:計算的是種(species)層級的Shannon-Wiener index
- beta多樣性:計算的是種(species)層級的PCoA
- 樣本聚類:基於種(species)層級的豐度數據,歐氏距離ward.D聚類
- 物種組成:各物種層級bar圖(原始強度,無歸一化)
5. 功能分析
- 功能數據庫注釋統計:COG,NOG,KEGG,GO及其unique數目(與蛋白一對一)。
- 分類餅圖:包括COG,NOG和Pathway,餅圖的扇形大小並非分類功能的數目,而是所有樣本proteinGroup的強度之和。
- 功能組成bar圖:包括COG,NOG和Pathway,各樣本的功能bar圖(原始強度,無歸一化)。
- 功能組成熱圖:包括COG,NOG和Pathway,各樣本的功能聚類熱圖。
- PCA分析:包括COG,NOG和KEGG(這里應該也是Pathway層級)功能豐度的PCA。
疑問:一般蛋白/基因注釋KEGG是到KO層級,這里都是轉化到了Pathway層面,一條Pathway中多個蛋白分子強度不知他們是怎么處理的,之前我是進行加和處理的。
MetaMep for Taxon Vis
最后一個工具是對物種分析進行可視化,可交互是它的優點,而且有多種展示方式。你如果用過MEGAN的話,就知道這些展示方式也都有。當然Unipept也可實現,它這個就是嵌套了Unipept。