本次分享一篇今年2月才發表於Nature Methods的基於單細胞轉錄組數據推斷基因調控網絡的方法比較的文章,“Benchmarking algorithms for gene regulatory network inference from single-cell transcriptomic data[1]”,對應代碼repo:https://github.com/murali-group/BEELINE。
摘要:他們對於從單細胞轉錄組數據中推斷出的基因調控網絡提出了一種系統級評價的最新算法。提出的評價框架叫做BEELINE。基於這些結果,他們可以對終端用戶作出推薦。
隨着單細胞測序技術的發展,一個中心的問題就是是否我們能夠發現控制細胞分化和驅動細胞類類型轉換的基因調控網絡。在這樣一個基因調控網絡中,每條邊連接一個轉錄因子到其調控的一個基因。理想情況下,這個邊是從轉錄因子到目標基因的有向邊,代表了直接而不是間接調控,並且對應於激活或者抑制狀態。
他們提出了BEELINE,一個綜合性的評價框架去評價基於單細胞基因表達數據的GRN推斷技術的准確率,穩定性,有效性(圖1,即整個框架的pipeline)。該框架包含了12種不同的GRN推斷算法。以docker鏡像的形式對每種方法提供了一個易於使用的標准接口。他還實現了許多種評價方法。
結果:
算法概覽:他們使用這個框架在400個仿真數據集和5個實驗數據集(人and鼠)去評價了這些方法。因為8個算法都需要偽時間順序的細胞,所以他們的數據集都是關於細胞分化和發展的。也就是說細胞狀態有一個有意義的時序過程。
然后他們結合三個數據集(來源於合成網絡的數據集;來源於精選模型的數據集;實驗數據集)進行的詳細的論述,此處沒有展開。
討論:
圖六總結了這些算法的性質和從這個研究中得到的一些看法觀點。
盡管說對於不同類型的數據,算法的性能有較大差異,我們還是注意到了一些趨勢。合成的網絡比精選出來的模型更容易恢復。原因可能就是因為合成的網絡有簡單並且定義好的軌跡。對於精選出來的模型,每一個都有多條軌跡,我們發現不需要偽時間信息的方法表現得最好。針對布爾模型的方法表現的也很好,它推斷出來的基因調控網絡對實驗數據集有比較好的准確率。然而,這些方法的總體性能都沒有理想的好。並且經過分析,分析表明,這些算法可能都對准確的偽時間敏感。
基於這些觀察,他們對用戶在應用這些方法的時候做了具體的推薦:
(1)PIDC,GENIE3和GRNBoost2是可以選擇的方法,因為他們在精選出來的模型和實驗數據集上的准確率都比較好。
(2)PIDC,GENIE3在多次運行后有較好的穩定性。GRNBoost2對於dropout事件不敏感。因為這些方法不需要偽時間順序的細胞,他們對偽時間計算中的錯誤是免疫的。隨着偽時間推斷質量提高,SINCERITIES可能變成一個一個好的選擇,尤其是它也對dropout穩定。
(3)GENIE3和GRNBoost2有多線程的實現,他們和PIDC一樣對小於等於2000個基因是有效的。
(4)他們的結果表明,加入更多的高可變基因或者是考慮所有關鍵的可變的轉錄因子,對結果是有提升的,尤其是EPR指標,對AUPRC指標沒有影響。最近一篇最好的實踐指導文章指出,使用1000到5000個高可變基因用於單細胞聚類或者分化表達任務,然而基因數量多可能會導致計算慢的問題。
雖然基因調控網絡的推斷已經研究了20年,但是我們的評價證明了在這個領域還存在一些具有挑戰性的問題。一個可能的原因就是單細胞RNA測序技術可能沒有提供足夠的分辨率和表達的多樣性。第二個可能就是一個固有的缺點來假設在表達模式和相應的調控交互之間的統計關系。最近的研究提出了多模態單細胞數據對於下一代基因調控網絡推斷算法可能是重要的。
BoolODE是我們分析的一個關鍵成分。可以考慮在研究新的基因調控網絡推斷方法的時候結合BEELINE和BoolODE一起使用。
方法:
首先簡要的介紹了一下這12種算法的核心思想,這個在圖6中已經有說明,我再用一個表格總結一下。
總結,大多數算法都需要有序的時間順序的數據作為輸入。除了PPCOR和PIDC,這里面幾乎所有的算法的輸出都是有向網絡。只有五種方法的輸出是有符號的。這些信息都反映在圖6里面。
本篇文章中的方法都是不需要監督或者額外信息的,並且邊都有權重。
BoolODE:
將布爾模型轉換為ODE。GeneNetWeaver (GNW) 是一個被廣泛使用的從GRN中仿真大量的轉錄數據 (bulk data) 的方法。當該工具被應用於單細胞分析的時候有限制。於是,他們提出了BoolODE,將Bool模型轉換為隨機微分方程SDEs。
對轉錄翻譯建立了數學模型,然后仿真了這個SDE系統生成需要的基因表達數據。
BoolODE使用布爾模型創建了仿真數據集。這兩個方法主要用於生成數據集。
后面是其他一些論文細節,最近會抽空補充完整!
Ref: Pratapa A, Jalihal A P, Law J N, et al. Benchmarking algorithms for gene regulatory network inference from single-cell transcriptomic data[J]. Nature Methods, 2020: 1-8.