深度學習在生命科學中的應用


1 預備知識

1.1 分子基礎概念

1.1.1 質譜學

識別給定樣本中存在的分子是相當具有挑戰性的。目前最流行的技術是質譜分析法。質譜分析的基本思想是用電子轟擊樣品。這種轟擊把多個分子粉碎成碎片。這些碎片通常會電離,即獲得或失去電子從而帶電。檢測到的帶電碎片的擴散稱為光譜(spectrum)

許多研究人員正在積極研究利用深度學習算法改進質譜分析技術,以便從檢測到的帶電光譜中輕松識別原始分子。

1.1.2 分子鍵

分子鍵有很多種類型,包括共價鍵和集種非共價鍵。

共價鍵實涉及兩個原子之間共享電子,是最強的化學鍵。

非共價鍵不涉及原子間電子的直接共享。非共價鍵包括氫鍵、鹽橋、Π堆積等。這些類型的相互作用通常在葯物設計中扮演着重要角色,因為大多數葯物通過非共價鍵相互作用於人體中的生物分子。

1.1.3 分子構型

分子圖描述了分子中的一組原子以及它們是如何鍵合在一起的。而原子在3D空間中是如何相對放置的,這叫作分子構型。

1.1.4 分子手性

有些分子(包括許多葯物)有兩種形式,它們互為鏡像,這叫作手性(chirality)。
手性分子同時具有“右手性”形式(也稱為“R”型)和“左手性”形式(也稱為“S”型),如圖所示。

一種葯物的兩種手性形式有可能與完全不同的蛋白質結合,並對身體產生非常不同的影響。在許多情況下,只有一種形式的葯物具有預期的治療效果,另一種形式只產生額外的副作用,沒有任何好處。

1.2 分子的特征表示

為了對分子進行機器學習,需要把它們轉換成特征向量,作為模型的輸入。

1.2.1 SMILES字符串和RDKit

SMILES是一種用文本字符串定義分子的常用方法,這個首字母縮略詞代表“簡化的分子輸入線輸入系統(SimplifiedMolecular-InputLine-Entry System)”。SMILES字符串以對化學家來說既簡潔又直觀的方式描述了分子的原子和鍵。對於非化學家來說,這些字符串看起來像是毫無意義的隨機字符模式。例如,OCCclc(C)In+(cs)Cc2cnc(C)ncN”描述了重要的營養物質硫胺素,也稱為維生素B1。
一些深度學習模型直接接受SMILES字符串作為輸入,試圖學習識別文本表示中的有意義的特性。
但更常見的情況是先將字符串轉換為更適合當前問題的另一種表示形式(或特征化)。
RDKit提供了許多用於處理SMILES字符串的功能,在將數據集中的字符串轉換為分子圖和下面描述的其他表示形式方面發揮着核心作用。

1.2.2 擴展-連接指紋

化學指紋是由1和0組成的向量,表示分子中特定特征的存在或不存在。擴展連接指紋(ECFP)是一類結合了幾個有用特性的特征化表示它們可將任意大小的分子轉換成固定長度的向量。

指紋向量的每個元素都表示存在或不存在由某些局部原子排列所定義的特定分子特征。分子指紋算法首先獨立地考慮每個原子,並觀察原子的一些特它的元素、形成的共價鍵的數量等。這些屬性的每個唯一組合都是一個特征,向量的對應元素被設置為1來表示它們的存在。然后,算法向外擴展將每個原子與它所連接的所有原子結合起來,這定義了一組新的更大的特征並設置了向量的相應元素。這種技術最常見的變體是ECFP4算法,它允許子片段在中心原子周圍有兩個鍵的半徑。
ECFPS有一個重要的缺點:指紋編碼了分子的大量信息,但有些信息確實丟失了。兩個不同的分子有可能擁有相同的指紋,並且給定一個指紋,不能唯地確定它來自哪個分子。

1.2.3 分子描述符

另一種觀點認為,用一組理化描述符來描述分子很有效。這些通常對應於描述分子結構的各種計算量。這些量,如對數分配系數或極坐標表面積,通常是由經典物理或化學推導出來的。

這種特征化方式對於某些問題顯然比其他特征表示更有用。它最適合那些比較依賴於分子一般性質的預測,而不太可能用於預測依賴於原子詳細排列的性質。

1.2.4 圖卷積

上文描述的特征表示方法是由人類設計的,考慮了如何用一種可以作為機器學習模型輸入的方式來表示分子,然后手動編碼表示。

能不能讓模型自己找出表示分子的最好方法?畢竟,這就是機器學習的全部內容:可以嘗試從數據中自動學習,而不是自己設計一種特征。

作為類比,考慮用於圖像識別的卷積神經網絡。卷積神經網絡的輸入是原始圖像,它由表示了每個像素的數字向量組成,例如三個顏色分量構成的數字向量。這是一個非常簡單、完全通用的圖像表示。第一個卷積層學習識別簡單圖案,如垂直或水平線,它的輸出仍然是表示了每個像素的數字向量,但現在它以更抽象的方式表示,每一個數都表示局部幾何特征的存在網絡通過一系列層繼續運行。每一層都輸出一個新的圖像表示,它比前一層的表示更抽象,並且與原始顏色分量的關聯性較小。這些表示是從數據中自動學習的,而不是由人類設計的。沒有人告訴模型尋找什么模式來識別圖像中是否包含一只貓,這個模型通過訓練自己算出來。

圖卷積網絡(Graphconvolutionalnetworks)采用了同樣的思想,並將其應用於圖形輸入。就像普通的CNN從表示了每個像素的數字向量開始計算一樣,圖卷積網絡也以表示了每個節點和/或邊的數字向量開始計算。當用圖形表示個分子時,這些數字可以是每個原子的高級化學性質表示,比如原子的元素電荷和反應狀態。就像普通卷積層根據輸入的局部區域為每個像素計算一個新向量一樣,圖卷積層為每個節點和/或邊計算一個新向量。通過將一個學習過的卷積核應用到圖的毎個局部區域來計算輸出,其中“局部”是根據節點之間的邊來定義的。例如,圖卷積層可以基於原子和與它直接相連的任何其他原子的輸入向量,為每個原子計算一個輸出向量。

圖卷積網絡是分析分子的有力工具,但它們有一個重要的局限性:計算完全基於分子圖。由於沒有用分子構型的任何信息,圖卷積網絡不能預測任何與構型相關的東西。這使得圖卷積網絡最適合於小的且大都是剛性的分子。

1.3 蛋白質

1.3.1 蛋白質結構

蛋白質是完成細胞中大部分工作的微型機器,盡管它們的體積很小,但也很復雜。典型的蛋白質是由成千上萬個原子以精確的方式排列而成的要了解任何一台機器,你必須知道它是由什么部件組成的,以及這些部件是如何組合在一起的。你想了解一輛汽車,需要知道它的底部有輪子,中間有空的空間來容納乘客,以及乘客可以通過門進出。
蛋白質也是如此,要了解它是如何工作的,必須確切地知道它是如何被組合在一起的,此外需要知道它是如何與其他分子相互作用。很少有機器是單獨工作的。汽車與它所載的乘客、它所行駛的道路以及允許它移動的能源相互作用這也適用於大多數蛋白質,它們作用於其他分子(例如,用於催化化學反應),被其他分子利用(例如,調節它們的活動),並從其他分子中汲取能量。所有這些相互作用都取決於兩個分子中原子的具體位置,要理解它們,必須知道原子在3D空間中是如何排列的。
目前有三種方法來確定蛋白質的結構,包括射線晶體學核磁共振(簡稱NMR)和低溫電子顯微鏡(簡稱cryo-EM)。

預測蛋白質結構的方法主要有兩種:
第一種稱為同源建模。蛋白質序列和結構是幾十億年進化的產物。如果兩種蛋白質是最近才彼此分離的近親(技術術語是“同系物”),它們可能有相似的結構。要通過同源建模來預測蛋白質的結構,首先要尋找結構已知的同源物,然后根據兩種蛋白質序列之間的差異來調整它。同源建模在確定蛋白質的整體形狀方面效果相當好,但它往往會得到錯誤的細節。當然,這需要你已經知道同源蛋白質的結構。

另一個主要的方法是物理建模。利用物理學定律的知識,探索蛋白質可能呈現的許多不同構象,並預測哪一種構象最穩定。這種方法需要大量的計算時,直到大約十年前,這根本是不可能的。即使在今天,它也只適用於小的快速折疊的蛋白質。而且,它需要物理近似來加速計算,而這些近似會降低計算結果的精度。物理建模通常會預測出正確的結構,但並不總是如此。

2 基於深度學習的生命科學

2.1 基於圖卷積神經網絡的分子溶解度預測問題

2.2 類葯物小分子與蛋白質結合問題

這個問題是葯物發現的根本問題。以一種針對性方式調節單個蛋白質通常會產生顯著的治療效果。例如,突破性的癌症葯物伊馬替尼與BCR-ABL緊密結合,這是其療效的部分原因。對於其他疾病,尋找具有相同功效的單一蛋白質靶可能具有挑戰性,但是這種想法仍然有用。

將針對某種疾病的葯物設計問題降為設計一種與給定蛋白質緊密結合的葯物的問題非常有用。但必須認識到,實際上,任何一種葯物都會與體內許多不同的子系統相互作用。

2.3 轉錄因子的結合問題

作為將深度學習應用於基因組學的一個例子,考慮預測轉錄因子結合的問題:TFs是與DNA結合的蛋白質。當它們結合時,會影響附近基因被轉錄成RNA的可能性。

2.4 基於生成模型的分子設計

在一個已知葯物分子庫中訓練模型,它將學習生成新的“類葯物”分子,用作虛擬篩選中的候選分子。為此而引入的生成模型可能比小分子設計更有影響力。與小分子設計不同的是,對於人類專家來說,預測特定蛋白質突變引發的效應是非常棘手的。使用生成模型可以實現更豐富的蛋白質設計,實現超出當今人類專家能力的方向。

2.5 基於圖卷積網絡的葯物篩選

虛擬篩選可以提供一種經濟有效的方法來確定葯物發現項目的起點。不需要進行昂貴的實驗性的高通量篩選(HTS),而是使用計算方法來評估數百萬甚至數千萬分子。虛擬篩選方法通常分為基於結構的虛擬篩選基於配體的虛擬篩選兩大類。
基於結構的虛擬篩選:計算方法被用來識別最適合於蛋白質中一個稱為結合位點的空腔的分子。分子與蛋白質結合位點的結合常常會抑制蛋白質的功能。例如,被稱為酶的蛋白質催化多種生理化學反應。通過識別和優化這些酶作用過程的抑制劑,科學家們已經能夠開發出治療腫瘤、炎症、感染和其他治療領域的各種疾病的方法。
基於配體的虛擬篩選:搜索那些功能類似於一個或多個已知分子的分子。我們可能希望改善現有分子的功能,避免與已知分子相關的葯理學責任,或開發新的知識產權。基於配體的虛擬篩選通常從一系列已知分子開始,這些分子是通過各種實驗方法識別的,然后利用計算方法建立基於實驗數據的模型,該模型對大量分子進行虛擬篩選,尋找新的化學起點。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM