單細胞測序之質控分析(QC)
為什么要做質控?
在細胞分離過程中的細胞損傷或者文庫制備的失敗(無效的逆轉錄或者PCR擴增失敗),往往會引入一些低質量的數據。這些低質量的數據的主要特點是(以下一行表示一個基因,一列表示一個細胞):
- 細胞整體上的counts值少(從列的角度看,一列數據的總和偏小)
- 基因的低表達(從行的角度看,一行數據普遍過小)
- 線粒體基因或者spike-in的比例相對較高
如果這些損傷的行或者列,沒有被移除的話,可能會對下游的分析結果產生影響(比如:歸一化,差異表達,細胞分類等)。所以我們在進行分析之前,一定要先移除這些低質量的行與列。
質控的指標
以下一行表示一個基因,一列表示一個細胞:
每一個細胞所有基因的counts值之和(一個細胞中的count之和過小;列上數值普遍過小)
在文庫制備的過程中,可能因為細胞的裂解或cDNA捕獲和擴增效率的低下,而使得RNA的丟失。具有較小的counts值之和的細胞被認為是低質量的細胞,考慮去除。
每一個細胞中單個基因的表達數量(一個基因在各個細胞中表達過低;行上數值普遍過小)
多樣化的轉錄本如果沒有被成功的捕獲到,因此任何一個細胞中有很少的基因表達,被認為是低質量的,考慮去除。
每一個細胞中,spike-in序列/線粒體基因占總的counts值的比例
每個細胞中添加的spike-in序列(人為添加的表達量的參照系)的濃度都是等量的。如果spike-in的比值很高,那么就意味着在實驗的過程中,大量的轉錄本丟失。
同樣的,線粒體基因的高比例,也意味着這可能是由於穿孔細胞的細胞質RNA丟失,從而產生低質量的細胞。理由是,在存在適度細胞損傷的情況下,細胞膜上的孔允許單個轉錄物分子外排(丟失),但過小而無法使線粒體逸出,從而導致線粒體轉錄物的相對富集。
低質量細胞的影響
細胞破壞后,可能會導致線粒體或核RNAs占比升高(大量細胞質中mRNA流失,而線粒體或核RNAs含量基本不變),很有可能會根據這個結果形成自己的一個個cluster。
低質量的細胞一般文庫比較小,而差異分析之前一般對文庫大小進行一個歸一化。比如正常細胞文庫大小是100,某個基因表達量是2;損傷細胞的文庫大小是10,這個基因表達量還是2。歸一化后,損傷細胞中的這個基因表達量計算結果明顯會高於正常細胞,呈現一種“本來不優秀,但班里人少了,排名就上升”的狀態。
細胞損傷可能會伴隨RNA的流失,因此許多基因可能會被認為“下調”,尤其體現在細胞質核糖體RNA(另外還包括一些細胞質轉錄本)。
影響方差估計和PCA結果。真實情況下,可能一個基因在兩個細胞中差異並不顯著,但是由於其中一個細胞質量低,導致基因表達量在這兩個細胞中差異明顯;反映在PCA結果就是:前幾個主成分會抓取細胞質量的差異,因為這種差異體現得更明顯,而將真正的生物學因素放到了后面幾個主成分中,因此得到的PCA結果其實也只是反映了細胞質量的差異,而非真正的生物學差異。
如果一個細胞群體異質性較高,那么很有可能一些高質量細胞本身表達的數量就是比其他細胞少,但事實上它不是技術誤差造成的。因此不能通過一個固定的閾值進行過濾,而要“因地制宜”,根據每群細胞各自的特性(比如各自的中位值),然后結合一定的統計指標(例如3倍的MAD)
過濾的細胞會不會屬於某一個具有生物意義的細胞類群,如果真的是,那么就會有相應的marker基因高表達。
————————————————
REF
https://blog.csdn.net/weixin_40640700/article/details/114538295
https://blog.csdn.net/weixin_40640700/article/details/114538295
https://www.plob.org/article/20886.html
https://www.bilibili.com/read/cv7221663/