單細胞測序數據的降維方法及細胞亞型的鑒定聚類方法總結 - 碼上歡樂

相關內容簡體繁體

單細胞測序數據的降維方法及細胞亞型的鑒定聚類方法總結

本文轉載自查看原文 2019-09-07 14:46 1398 醫學/ 生物信息學/ scRNA-seq/ 生物/ 單細胞測序/ 計算機

圖1、細胞亞型的鑒定及分析（Stegle et al. NATURE REVIEWS | GENETICS, 2015）

隨着單細胞測序技術的發展，每個研究或實驗中測定的細胞數量在顯著增加。現在很多單細胞研究中，少則產生幾百，多則產生幾十萬的細胞數量，甚至更多。其中，細胞亞型（cell subtype or cell subpopulations）的鑒定是單細胞測序技術一個非常重要的基礎應用。但由於單細胞測序數據通常涉及到很多細胞，而每個細胞中的基因數量又可能是幾萬個，所以，單細胞測序數據是一個高維的復雜數據。

圖2、基於單細胞測序數據的細胞亞型鑒定方法總結（Andrews and Hemberg, 2018, Mol. Aspects Med.）

為了有效地對單細胞測序數據進行各種處理分析，特別是細胞亞型的鑒定，通常需要首先對單細胞測序數據進行降維。單細胞測序數據的降維方法主要可分為兩大類（微信公眾號：AIPuFuBio）：

1、Dimensionality reduction（降維）。降維方法通常是把高維數據通過優化保留原始數據中的關鍵特征后投射到低維空間，從而可以通過二維或三維的形式把數據展示出來。

常用的降維方法有：

1）PCA（Principle Component Analysis），主成分分析，是一種線性的降維方法；

2）t-SNE（T-distributed stochastic neighbor embedding），是一種非線性的降維方法；

3）UMAP (uniform manifold approximation and projection) (Becht et al., 2018, Nat. Biotechnol.),

4）scvis (Ding et al., 2018, Nat. Commun.)

其中PCA和t-SNE被廣泛應用於已發表的單細胞測序相關文章中。特別注意，PCA和t-SNE是降維的方法，並不是聚類方法。

圖3、PCA、DM（Diffusion maps）、t-SNE（perplexity=10 (C) 和perplexity=50 (D)）聚類示意圖（Andrews and Hemberg, 2018, Mol. Aspects Med.）

2、Feature selection（特征選擇），主要是通過去除信息含量少的基因而保留信息含量最多的基因來降低數據的維度。

常用的Feature selection的方法有：

1）基於先驗信息的方法（如已知細胞的亞型）。比如通過SCDE軟件鑒定已知不同細胞亞型間的差異表達基因，然后再基於差異表達基因來聚類分析等。

2）非監督方法。又可細分為：

(i) 基於highly variable genes (HVG) ；

(ii) 基於spike-in，如scLVM (Buettner et al., 2015)和BASiCS (Vallejos et al., 2015)等；

(iii)基於 dropout，如M3Drop (Andrews and Hemberg, 2018)。

單細胞測序數據細胞亞型鑒定方法（更多請見AIPuFu：www.aipufu.com）

1、監督的方法。比如基於特定細胞亞型的已知marker基因來聚類分析。

2、非監督的方法（unsupervised clustering）。又可細分為：

(i) k-means，通常可結合PCA和t-SNE等來使用；

(ii) hierarchical clustering，運行速度比K-means要慢；

(iii) density-based clustering，需要基於大樣本才能提高聚類的精度；

(iv) graph-based clustering，是density-based clustering的一個延伸，可以應用於上百萬的細胞數量。

圖4、一些比較流行的單細胞亞型鑒定方法（Chen et al. Frontiers in Genetics, 2019）

***不同細胞亞型鑒定聚類方法運行時間和具體性能的比較***

圖5、不同聚類方法的運行時間比較（Duò et al. F1000Research, 2018）

圖6、不同聚類方法運行時間（橫軸）和性能（縱軸）的比較（Duò et al. F1000Research, 2018）

因此，從上面的圖中可知，不同的聚類方法所具備的特點可能不一樣，有些聚類方法運行時間短，有些聚類方法的結果更准確。可根據具體的數據情況，選擇相應的軟件。建議選擇最新發表、且發表在高質量期刊的軟件哦~（更多經典請見AIPuFu：www.aipufu.com）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 單細胞測序數據的降維方法及細胞亞型鑒定聚類方法總結單細胞測序數據的差異表達分析方法總結基於單細胞測序數據構建細胞狀態轉換軌跡(cell trajectory)方法總結單細胞轉錄組測序數據的可變剪接(alternative splicing)分析方法總結單細胞轉錄組測序技術及各類數據分析方法總結單細胞測序學習（一）單細胞測序學習（二）單細胞測序的知識單細胞數據normalization方法 | SCTransform 單細胞數據高級分析之初步降維和聚類 | Dimensionality reduction | Clustering

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM