蛋白質組DIA深度學習之譜圖預測


1. 簡介

基於串聯質譜的蛋白質組學大部分是依賴於數據庫(database search)的bottom-up策略研究。也就是實際譜圖和理論譜圖進行匹配打分,從而實現肽段和蛋白的鑒定和定量。如果是DDA的數據,因為一張二級譜是一條肽段,直接將數據庫理論酶切碎裂后的理論譜和實際譜圖匹配即可。但如果是DIA的數據,因為二級譜是混合譜,即來源於很多肽段,而且碎片離子還會受到未碎裂的母離子的干擾,在短色譜梯度與復雜樣品兩種情況同時出現的情況下,干擾會進一步放大。我們無法判斷哪些碎片離子來源於哪些肽段,因而無法直接進行肽段和蛋白的推斷。

所以,盡管DIA數據中包含豐富的蛋白質組信息,但由於其數據結構的高度復雜性,現有策略無法進行充分、准確的解析,限制了DIA 技術的進一步推廣。

目前DIA譜圖解析有2種策略,一種策略是spectral center,即以譜圖為中心的解析,通過將混合譜圖拆分為更少來源肽段的譜(如1-2條肽段),再通過理論譜圖進行匹配,但這種方法不太認可,因為無法評估譜圖拆分的准確性,軟件如DIA-umpire?。另一種策略是peptide center,即以肽段為中心的譜圖解析,通過構建相同樣品來源的DDA譜圖庫,可以獲知肽段信息,再將肽段與混合譜匹配,通過解卷積獲得鑒定和定量信息,現在大多數都采納這種方法,但極度依賴譜圖庫,只有譜圖庫中出現的肽段才能被鑒定,軟件如Spectronaut、DIANN等。

常用的質譜搜索引擎在匹配理論與實驗譜圖(PSM)時,不考慮離子強度及其他實驗信息。而在DIA方法中,二級譜離子強度(從准備實驗得到)以及母離子保留時間對匹配准確性起到重要作用。傳統我們都是通過做實驗來構建DDA譜圖庫,費時費力費錢,有沒有可能不做實驗就將譜圖庫構建出來呢?答案是肯定的,那就是機器學習或深度學習。近幾年,各種各樣基於深度學習的譜圖預測軟件或者RT預測軟件相繼發表,其目的都是為了構建預測理論譜圖庫。

這些方法有些需要構建模型預測RT,或者譜圖,有些只需要提供fasta序列,后續全給你預測出來,如DIANN。

目前,蛋白質組學的深度學習主要基於兩種神經網絡結構,分別為卷積神經網絡(convolutional neural network,CNN)和循環神經網絡(recurrent neural network,RNN)。CNN 主要有兩種類型網絡層,即卷積層與池化層.其中,卷積層用來提取數據的各種特征,可以使得模型在保留數據之間關系的同時大大降低參數數量,而池化層可以對提取到的特征進行抽象並降維處理,從而減少訓練參數。

深度學習相比傳統的機器學習方法,可包含眾多隱藏層及非線性變換,能更有效地解讀質譜及蛋白質組學數據中復雜的關系。肽段的准確定性定量與其質譜特征的提取及理化性質的預測密切相關。肽段的色譜保留時間主要由肽段的理化性質決定,因此可對肽段的RT進行預測。
image.png

深度學習方法在生物質譜及蛋白質組學中的應用

2. 近幾年發表的主要工具

1.DeepRT

image.png

18年發表在《Analytical Chemistry》上,DeepRT 利用了CNN與RNN 兩種方法提取肽段特征,其中CNN 過程使用了4 層卷積網絡,用來處理肽段序列。RNN 則處理每一個肽段序列,並把每個氨基酸視作長度為20 的向量。經過兩種神經網絡的特征提取后,利用主成分分析進行降維,繼而采用常見的3 種機器學習方法(支持向量機、隨機森林及梯度提升)進行保留時間的預測。

由於神經網絡方法並無特定的特征提取方式,更少的依賴人為經驗,而是機器根據數據類型自動學習處理,因此往往能夠實現更為有效的特征提取,從而實現保留時間的精確預測。通過將已發表的數據集按比例分成訓練集、驗證集及測試集(8∶1∶1),DeepRT 模型得到有效訓練,實現了理論預測值與真實值相關性接近0.99,在與其他保留時間預測軟件ELUDE 和GPTime 的對比中,具有更精確的保留時間預測。
image.png

Improved Peptide Retention Time Prediction in Liquid Chromatography through Deep Learning
DeepRTplus開源代碼

2.Prosit

業界大佬德國慕尼黑大學的Bernhard Kuster和Mathias Wilhelm於19年發表在《nature methods》上,人類蛋白質組草圖、數據庫ProteomicsDB和ProteomeTools項目都是他們的代表作。

通過基於RNN模型和大量的質譜數據,可以准確母離子的預測理論譜圖及其流出時間,從而直接用於更加准確的質譜鑒定。

ProteomeTools項目已經包含來自於576,256個母離子的21,764,501高質量譜圖,覆蓋98.5%的人類基因。使用這套數據,同時考慮肽段序列和其他信息,作者建立了編碼器和解碼器來學習數據中的特征,用母離子、NCE(歸一化碎裂能)和肽段序列作為輸入,保留時間和二級譜圖作為輸出進行訓練和驗證。
image.png

  • 1.Embedding: 把序列信息轉成向量
  • 2.Bi-GRU: 第一層網絡,然后drop-out
  • 3.Bi-GRU: 第二層網絡,然后drop-out
  • 4.Attention level 第三層網絡
  • 5.得到Latent space
  • 6.Latent space里面,incorporate 電荷和撞擊能量
  • 7.Decoder: 還原出圖譜

結果顯示對保留時間的預測可以達到接近R=1的相關性,95%的實驗結果在預測結果的4.25時間單位內。預測的二級譜圖也具有非常高的相關性,並且作者引入碎裂的校正進一步提高了預測結果。值得一提的是,訓練集中采用的是tryptic酶切肽段,但得到模型對非tryptic的肽段也具有非常好的預測能力,說明模型學到的是包含物理本質的碎裂規則。
image.png
使用預測得到的二級譜,和准確的iRT,可以直接用於DIA的建庫。而在DDA中用實驗譜圖與預測譜圖進行匹配打分,也可以大大提高對target肽段的檢出能力(FDR=1%)。作者在多個應用中驗證了Prosit對多肽二級譜以及保留時間的預測准確性,並展示這種預測能力可以讓多種質譜鑒定任務得到改進。

Prosit: proteome-wide prediction of peptide tandem mass spectra by deep learning
Nat. Methods | Prosit: 蛋白質組水平的深度學習質譜譜圖預測
Prosit, 基於深度學習的質譜預測工具
prosit開源代碼

3. DIANN

劍橋大學也在2019年《nature methods》發表了DIA-NN (data independent acquisition by neural networks)工具。DIA-NN是一個集成軟件包,它利用深層神經網絡和新的量化及信號校正策略來處理DIA蛋白質組學的實驗結果,提高了DIA 數據中母離子的鑒定能力,並進一步提高蛋白質定量的准確度。

DIA-NN使用深度神經網絡(DNNs)來區分真實信號和噪聲,並使用新的量化和干擾校正方法。DIA-NN流程是完全自動化的,擁有直觀的圖形界面和命令執行工具,結果以簡單的文本格式展示。DIA-NN使用內源肽(如iRT)進行保留時間校准。DIA-NN還可自動執行質量校正,並自動確定搜索參數(如保留時間窗口和質量提取精度)。這消除了需要為每個特定數據集做優化的繁瑣過程。
image.png
DIA-NN的工作流程首先是基於一組母離子的以肽為中心的方法(對每個母離子的多個碎片離子進行注釋),這些母離子可由譜庫提供或由DIA-NN在電腦中從蛋白質序列數據庫(無庫模式)自動生成。然后DIA-NN生成一個陰性對照庫(即誘餌母離子),為每個目標或誘餌母離子提取譜圖,並識別由母離子和碎片離子洗脫曲線組成的假定洗脫峰,該洗脫峰位於假定的母離子保留時間附近。每個洗脫峰由一組反映峰特征的分數來描述,評分項目包括碎片離子的共洗脫、質量准確性或檢測到的離子與參考(庫)譜圖之間的相似性。DIA-NN在工作流程的各個步驟中計算了73個峰值分數。然后,使用線性分類器的迭代訓練為每個母離子選擇最佳候選峰,該線性分類器允許計算每個峰的單個分數。

總之,DIA-NN可通過深度學習直接對DIA數據進行解析,從而實現對蛋白的鑒定和定量,無需構建譜圖庫,只需一個fasta文件,而且效果堪比Spectronaut,但目前還沒有廣泛應用,畢竟剛出來。

DIA-NN: neural networks and interference correction enable deep proteome coverage in high throughput
Github開源代碼
Nature methods DIA蛋白組學通過神經網絡和干擾校正實現高通量蛋白質組的深度覆蓋

4.DeepDIA

復旦的喬亮今年發表在《Nature Communications》上的研究。他們設計了基於卷積神經網絡和循環神經網絡的深度神經網絡模型來預測肽段的二級質譜圖(MS/MS)和歸一化保留時間(iRT),由DDA鑒定得到的肽段列表生成DIA分析所需的譜圖庫。
image.png

該模型以肽序列為輸入,並在每個可能的裂解位點包括氨或水的中性損失以及肽段的iRT輸出b/y產物離子的相對強度。
image.png

在HeLa細胞數據集上將DeepDIA與Prosit進行了比較測試。結果表明,與使用通用模型來生成譜圖庫相比,使用DeepDIA構建專用於特定儀器的模型預測生成的譜圖庫質量更好,DIA數據分析檢測到的肽段和蛋白數量更多,重復性更好,效果接近DDA構建的譜圖庫。

此外,他們也設計了預測肽段在質譜中的可檢測性的模型,實現了由蛋白序列構建預測譜圖庫。從SwissProt物種數據出發,預測蛋白的理論酶切肽段的可檢測性,篩選可檢測性分數達到一定閾值的肽段來構建譜圖庫。在HeLa細胞和小鼠組織樣品數據集上的測試結果表明,與考慮全部理論肽段相比,可檢測性篩選能降低DIA分析的假陽性率並提高蛋白鑒定量。最終實現了完全不需要DDA實驗,從SwissProt蛋白序列數據庫出發的DIA數據直接解析。研究人員還將DeepDIA用於未去高峰度蛋白的血清樣品的DIA數據直接分析。與傳統方法相比,DeepDIA檢測到蛋白的數量為DDA建庫的兩倍以上。

其中,訓練深度神經網絡模型所需數據量僅為HeLa細胞樣品分餾DDA的鑒定結果,通常可以在一天的時間內完成訓練數據的采集。模型訓練只需要普通的台式工作站,可以在數小時內完成。他們認為未來蛋白質組學實驗室可以利用深度學習技術構建專用於每一台儀器的模型,將其用於該儀器DIA數據的分析,而無需另外進行DDA實驗。

In silico spectral libraries by deep learning facilitate data-independent acquisition proteomics
前沿分子生物學技術(8) AI生成光譜庫輔助蛋白質組發現
DeepDIA開源代碼
Deep DIA使用網站


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM