什么是批次效應?
大型的單細胞測序項目一般都會產生許多細胞,這些樣本制備過程很難保持時間一致、試劑一致,另外上機測序的時候也不一定在同一個測序儀上。
具體可以看這篇文章:
https://www.nature.com/articles/nrg2825
Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study. For example, batch effects may occur if a subset of experiments was run on Monday and another set on Tuesday, if two technicians were responsible for different subsets of the experiments or if two different lots of reagents, chips or instruments were used.
簡而言之,不同時間、不同操作者、不同試劑、不同儀器導致的實驗誤差,反映到細胞的表達量上就是批次效應,這個很難去除但可以縮小。如果效應比較小還可以接受,如果批次效應很嚴重,就可能會和真實的生物學差異相混淆,讓結果難以捉摸。我們需要辨別到底存在多大程度的批次效應,對我們真實的生物學樣本會不會產生影響。
校正批次效應的目的就是:減少batch之間的差異,盡量讓多個batch的數據相一致,這樣下游分析就可以只考慮生物學差異因素。
https://www.plob.org/article/20845.html
----------------------------------
單細胞測序 批次效應 batch effect
批次效應,顧名思義,不同批次帶來的效應。
深層次造成批次效應的原因
宏觀層面
1)對樣本處理問題,2)細胞活性問題,3)試劑kit問題,4)測序問題,等
微觀本質上
1)造成了樣本間mRNA的相對不穩定,2)造成細胞破裂,其mRNA流出最后污染整個樣本,3)造成樣本間mRNA捕獲率不一致,4)造成測序飽和度不一致,或者數據質量不一,等
不同項目中,面臨的批次效應程度各有不同,有些可以不用特殊處理,有些甚至怎么處理都不管用。
----------------------------------
在數據分析的時候,我們的目標是找到樣本之間真實的生物學差異。但是這種真實的生物學因素往往會受到各種因素影響,舉幾個場景
不同樣本
同一樣本的生物學重復
同一樣本的技術重復
同一樣本在同一個實驗室由同一團隊在不同時間點處理
同一細胞系/小鼠在不同實驗室
不同建庫策略,10X平台,Drop-seq, SMART2-seq
不同測序平台,BGI/Illumina
不同分析流程(甚至一個工具的多個版本,如salmon,CellRanger)
這些因素之間有些是生物學真實的差異,有些是抽樣時的隨機波動。有些是系統性因素,比如說批次效應(batch effect)。
我們沒有足夠的信息來判斷此處是否存在批次效應。要做出決定,我們確實需要對每個簇所代表的細胞類型/狀態有所了解。(https://zhuanlan.zhihu.com/p/354341992)
----------------------------------
做單細胞測序的時候,我們往往用到不同時期或者不同測序平台的數據,即使是同樣的細胞類型,也可能完全不能聚類到一個類群中,如下所示,這兩個數據是不同時期做的同一個細胞,幾乎沒有交集,因此,我們分析的時候需要去除批次效應。
去除批次效應之前:
去除批次效應之后:
鏈接:https://www.jianshu.com/p/406ece042c26
----------------------------------
代碼示例:
https://www.plob.org/article/20845.html
數據:CEL-seq, GSE81076
數據是Grun et al. (2016) 利用CEL-seq方法,加入了UMI、ERCC,表達矩陣可以從GEO獲取(https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE81076)
https://blog.csdn.net/qq_38774801/article/details/112292947
----------------------------------
14種單細胞測序去批次效應哪家強
https://www.sohu.com/a/393003790_120691808
----------------------------------
2020年5月11日,在《Nature Communications》有一篇名為“Deep learning enables accurate clustering with batch effect removal in single-cell RNA-seq analysis”的文章。文中介紹了一種深度學習算法——DESC,它是一種無監督的深度嵌入算法,通過迭代優化聚類目標函數對單細胞RNA測序的數據進行聚類,並且能夠消除批次效應。通過全面的評估證明了DESC可以在群集精度和穩定性之間取得適當的平衡,並且內存占用空間很小,不需要批次信息就可以消除批次效應,同時還能利用GPU。隨着單細胞研究規模的不斷擴大,DESC能夠成為在生物醫學研究領域中一個十分有價值的工具。
https://zhuanlan.zhihu.com/p/140719429
----------------------------------
當將細胞分組操作時可能會帶來批次效應,比如不同芯片上的細胞、不同測序通道中的細胞或在不同時間點收集的細胞都歸類於不同的組。實驗操作過程中細胞所經歷的不同環境可能會影響轉錄組的測量結果或甚至影響細胞自身的轉錄變化。所產生的影響存在多個層面:同一實驗不同的細胞組、同一實驗室的不同實驗或不同實驗室的數據集之間。在這里,我們把第一種情況與后面兩種情況區分開。校正同一實驗中樣品或細胞之間的批次效應是bulk RNA測序批次效應的一種經典方案。我們將其與整合來自多個實驗的數據(稱為數據整合)區分開。通常批次效應校正使用線性方法,而非線性方法則用於數據整合。
https://www.embopress.org/doi/full/10.15252/msb.20188746
http://blog.sciencenet.cn/blog-118204-1220240.html
----------------------------------
https://blog.csdn.net/u012110870/article/details/115511818
https://www.bilibili.com/read/cv6412828/
https://zhuanlan.zhihu.com/p/354341992