
隨着單細胞測序技術的發展,每個研究或實驗中測定的細胞數量在顯著增加。現在很多單細胞研究中,少則產生幾百,多則產生幾十萬的細胞數量,甚至更多。其中,細胞亞型(cell subtype or cell subpopulations)的鑒定是單細胞測序技術一個非常重要的基礎應用。但由於單細胞測序數據通常涉及到很多細胞,而每個細胞中的基因數量又可能是幾萬個,所以,單細胞測序數據是一個高維的復雜數據。

為了有效地對單細胞測序數據進行各種處理分析,特別是細胞亞型的鑒定,通常需要首先對單細胞測序數據進行降維。單細胞測序數據的降維方法主要可分為兩大類(微信公眾號:AIPuFuBio):
1、Dimensionality reduction(降維)。降維方法通常是把高維數據通過優化保留原始數據中的關鍵特征后投射到低維空間,從而可以通過二維或三維的形式把數據展示出來。
常用的降維方法有:
1)PCA(Principle Component Analysis),主成分分析,是一種線性的降維方法;
2)t-SNE(T-distributed stochastic neighbor embedding),是一種非線性的降維方法;
3)UMAP (uniform manifold approximation and projection) (Becht et al., 2018, Nat. Biotechnol.),
4)scvis (Ding et al., 2018, Nat. Commun.)
其中PCA和t-SNE被廣泛應用於已發表的單細胞測序相關文章中。特別注意,PCA和t-SNE是降維的方法,並不是聚類方法。

2、Feature selection(特征選擇),主要是通過去除信息含量少的基因而保留信息含量最多的基因來降低數據的維度。
常用的Feature selection的方法有:
1)基於先驗信息的方法(如已知細胞的亞型)。比如通過SCDE軟件鑒定已知不同細胞亞型間的差異表達基因,然后再基於差異表達基因來聚類分析等。
2)非監督方法。又可細分為:
(i) 基於highly variable genes (HVG) ;
(ii) 基於spike-in,如scLVM (Buettner et al., 2015)和BASiCS (Vallejos et al., 2015)等;
(iii)基於 dropout,如M3Drop (Andrews and Hemberg, 2018)。
單細胞測序數據細胞亞型鑒定方法(更多請見AIPuFu:www.aipufu.com)
1、監督的方法。比如基於特定細胞亞型的已知marker基因來聚類分析。
2、非監督的方法(unsupervised clustering)。又可細分為:
(i) k-means,通常可結合PCA和t-SNE等來使用;
(ii) hierarchical clustering,運行速度比K-means要慢;
(iii) density-based clustering,需要基於大樣本才能提高聚類的精度;
(iv) graph-based clustering,是density-based clustering的一個延伸,可以應用於上百萬的細胞數量。



因此,從上面的圖中可知,不同的聚類方法所具備的特點可能不一樣,有些聚類方法運行時間短,有些聚類方法的結果更准確。可根據具體的數據情況,選擇相應的軟件。建議選擇最新發表、且發表在高質量期刊的軟件哦~(更多經典請見AIPuFu:www.aipufu.com)