單細胞測序 Trajectory analysis 軌跡推斷
細胞多樣性不能通過離散的分類系統(例如細胞聚類)充分描述。觀察到的細胞異質性發展的生物進程是一個連續過程(Tanay&Regev,2017)。因此,為了捕獲細胞身份之間的過渡狀態、不同的分化分支或生物學功能的漸進式非同步變化,我們需要動態的基因表達模型。這類方法稱為軌跡推斷(trajectory inference,TI)。
軌跡推斷方法將單細胞數據視為連續過程的一個個快照。這一過程通過最小化相鄰細胞之間的轉錄改變構建細胞空間的轉換路徑。這些路徑上的細胞排序由偽時間變量 (pseudotime variable)描述。雖然此變量是基於距離根細胞的轉錄距離計算的,但通常被解釋為發育時間的代名詞(Moignard et al.,2015; Haghverdi et al.,2016; Fischer et al.,2018; Griffiths et al.,2018)。
自Monocle(Trapnell et al. 2014)和Wanderlust(Bendall et al. 2014)建立了TI (trajectory inference)領域以來,可用的TI方法數量激增。當前可用的TI方法的差別在於構建的發育軌跡模型拓撲結構復雜性不同,從簡單的線性軌跡或二分支軌跡到復雜樹形軌跡、多分支軌跡或組合多種拓撲結構軌跡。在最近對TI方法進行的全面比較中(Saelens et al.,2018)發現沒有一種單獨的方法可以在所有類型的軌跡分析中都表現最優 (NBT|45種單細胞軌跡推斷方法比較,110個實際數據集和229個合成數據集)。相反,應根據預期軌跡的復雜性選擇TI(軌跡分析)方法,研究比較表明Slingshot(Street et al.,2018)在簡單軌跡分析如從線性軌跡到二分支和多分軌跡表現最佳。如果預期數據對應更復雜的軌跡,作者建議使用PAGA(Wolf et al.,2019)。如果知道精確的軌跡模型,則可以選擇使用更特定的方法來提高性能(Saelenset al.,2018)。通常,應使用多種方法來確定評估推斷出的軌跡,以避免方法偏差。
在典型的分析流程中,軌跡推斷(TI)方法應用於降維后的數據。如果使用的TI工具自帶了降維功能,則基於校正后的數據進行分析。由於通常在細胞內同時發生多種生物學過程,因此消除其他生物過程的影響對鑒定預期軌跡可能很有用。例如,T細胞在成熟過程中可能會經歷細胞周期轉換(Buettner et al.,2015)。此外,由於幾種性能最好的TI方法依賴於聚類后的數據,因此TI通常在聚類之后執行。軌跡中的細胞簇可能表示穩態或亞穩態細胞。隨后,可以將RNA velocities (RNA速度,或RNA表達動力學)疊加到軌跡上確認發育方向(La Manno et al.,2018)。(注:新生轉錄本成熟過程中需要進行剪接操作。對於一個穩定表達的基因,總會在細胞中找到存在一定比例的未剪接的非成熟RNA形式,用於補充老的轉錄本的降解。如果一個基因剛被激活,短時間內將會有高比例的未成熟轉錄本。相反,當一個基因被抑制時,轉錄過程會早於轉錄本降解過程而被抑制,未成熟轉錄本的比例會降低。因此對於細胞中每個基因,未剪接的mRNA相對於剪接的mRNA的比例(RNA velocity)可以推斷瞬時表達動力學,進一步推演組織內發生的細胞轉變。https://www.nature.com/articles/d41586-018-05882-8)
推斷的軌跡不一定要完全對應生物發育過程。首先,推斷的軌跡僅表示轉錄相似性。很少有TI方法在其模型中包括不確定性評估(Griffiths et al., 2018)。因此,需要更多的信息來驗證是否確實捕獲了生物過程。這些信息可以來源於干擾實驗、推斷的調控基因動力學以及RNA velocity數據的支持等。
陷阱和建議:
建議使用Saelens et al.(2018)的綜述(NBT|45種單細胞軌跡推斷方法比較,110個實際數據集和229個合成數據集)作為指南 。
推斷的軌跡不需要完全對應生物過程,應該收集更多的證據來解釋軌跡。
https://www.embopress.org/doi/full/10.15252/msb.20188746
http://blog.sciencenet.cn/blog-118204-1220240.html
