單細胞轉錄組
從研究方向看上,發育生物學、免疫、神經生物學、腫瘤是排名靠前的方向,這和我們平時遇到的高頻研究方向基本吻合。另外,作為一個新興的領域,10X 單細胞轉錄組檢測到細胞多,數據龐大,信息復雜,對數據分析帶來諸多困難,因此算法類的文章(Computational method)也高達76篇。
從物種上看,小鼠和人牢牢占據主流。畢竟人類醫學研究還是生物領域的最大熱門,小鼠也是頭號模式動物。其他“飛禽走獸”已經慢慢都有涉及,但比較少的是植物(這里只有兩例擬南芥的文章)。植物因為細胞壁的存在,制備單細胞懸液的難度更大,從而限制了大規模應用。不過這些困難也已經慢慢在摸索中被克服。
從組織類型上看,研究內容幾乎涵蓋了動物體內大部分組織器官,尤其在腦、血液、實體瘤、肺等四類樣本發文的數量都已經超過50篇。所以,后續在人、小鼠領域沒有任何實驗設計,僅僅對此類已被大量研究的熱門組織直接進行測序是發不了好文章的。所以,對已被大量文獻報道的熱門組織開展研究,個性化的實驗設計尤為重要。當然,對於冷門的組織或者沒有文獻報道過的物種(例如大部分植物),只要成功測到數據,任何結果都是創新,則可以較少考慮復雜的實驗設計問題。
在已發表的文獻上看,截至2020年,10X單細胞轉錄組的文章依然很大比例發表在高分的主流期刊上。但這樣的新技術紅利不會一直持續下去,所以對於關注新技術的老師,還是早關注,早啟動,早發文章才能保證有好的產出。
圖2 10x單細胞轉錄組文章涉及的領域方向
(注意,分類上會有重復,比如研究方向涉及兩個,所以細分之和會超過總數)
10x 免疫組庫(VDJ-seq)
截至2020年5月,一共發文56篇。這是僅次於10X RNA-seq的熱點方向,因為很多關心免疫細胞的老師會進行10X RNA-seq的時候,配對進行scVDJ-seq。但目前10X scVDJ-seq標准化試劑盒只針對人和小鼠,其他物種的用戶如果想做只能自己去設計定制探針系統(顯然難度比較大),這限制了其他動物利用該技術開展研究。10X scVDJ-seq因為通常需要先分類淋巴細胞(T/B細胞)然后進行檢測,目前最多是對血液開展研究,其次是研究腫瘤浸潤的淋巴細胞,其他組織則目前研究報道還比較少,不少空白還留着大家去補充。
圖3 10x單細胞免疫組文章涉及的領域方向
4. 空間轉錄組(ST-seq)
截至2020年5月,一共發文19篇。從發表文章上看,居然排名第一的是Scientific Report,實在太“辣眼睛”了:這么好的技術,暴殄天物啊。不過不用激動,這個技術其實直到2019年才被10X genomics公司收購,當年年底優化升級后推出。再此之前,這個技術所屬的瑞典公司Spatial Tranomics一直不溫不火的,發文章大部分也是一些瑞典的研究機構自己在玩。
圖4 10x單細胞ATAC-seq文章涉及的領域方向
5. 10X ATAC-seq
截至2020年5月,一共發文12篇文章,數量還不多。而且,其中有近一半(5篇)是涉及生物信息分析方法探索的文章。這是由於對單細胞ATAC-seq這種信息龐大,噪音復雜的數據,應該如何分析還有很多值得探索的地方。
圖5 10x單細胞ATAC-seq文章涉及的領域方向
從以上介紹,你可能已經發現,10X單細胞相關的轉錄調控組學技術目前主要圍繞模式生物開展。那么10x單細胞技術是否可以研究非模式物種呢?
10X 單細胞技術可以檢測哪些RNA以及應用於哪些物種
1. 10X單細胞技術是否需要參考基因組
以比較代表性的10X RNA-seq、VDJ-seq、ATAC-seq和ST-seq(空間轉錄組)來說。VDJ-seq受限於試劑只針對人和小鼠開發,因此其他物種目前無法開展商業化的服務。ATAC-seq作為檢測基因組開放性的技術,其檢測的區域大部分為非編碼區,因此參考基因組不但必須要有,而且參考基因組的質量對ATAC-seq的影響非常大。
而對於RNA-seq或者ST-seq,本質上就是轉錄組,研究的目標分子是帶ployA尾巴的RNA。因此,並非必須要有參考基因,只要有質量足夠好的參考轉錄本就可以了。下來,我們重點剖析下10X RNA-seq和ST-seq的應用需求。
2. 10X RNA-seq/ST-seq可以檢測哪些類型的RNA
從上文介紹,我們可以知道10X RNA-seq和ST-seq(空間轉錄組)依賴於圍繞ployA結構開展擴增。那么我們分析一下10X RNA-seq/ST-seq可以檢測哪些RNA。
(1)mRNA
由於真核生物mRNA都有ployA結構,所以理論上mRNA就是10X RNA-seq/ST-seq主要的檢測目標。當然,由於只是擴增mRNA 3‘端或者5‘端的一小段用於定量,所以並不能能用於分析可變剪切。
(2)lncRNA
高等生物的LncRNA只有一部分有ployA結構(另外一部分自然沒有),因此10X RNA-seq/ST-seq只能檢測這些有ployA結構的lncRNA。另外,由於lncRNA表達量普遍比較低,而10X RNA-seq/ST-seq這類大規模單細胞/准單細胞測序的技術,對低豐度lncRNA分子的檢測能力比較弱,因此結果中lncRNA的數量將比較少。
(3)其他RNA
近年來研究大熱的環狀RNA由於沒有ployA結構,因此不在10X RNA-seq/ST-seq的檢測范圍內。同樣的,其他類型的小RNA,例如miRNA,也是10X RNA-seq/ST-seq無法檢測的。
3. 10X RNA-seq/ST-seq可以用於哪些物種研究
10X RNA-seq/ST-seq質上就是轉錄組測序。某個物種是否可以用10X RNA-seq/ST-seq開展轉錄組研究,需要考慮兩個方面的問題:
(1)實驗層面的問題
對於10X RNA-seq來說,主要考慮該物種是否可以制備單細胞或單細胞核懸液?大部分高等動物/植物的樣本理論上都滿足這個要求。而對於10X ST-seq主要要考慮該物種是否可以制作切片,以及切片中的組織是否可以被順利解離釋放RNA。對某些植物來說,在無法制作單細胞懸液的情況下,制作切片進行空間轉錄組測序或許是更可行的研究切入方式。這些技術的具體的實驗方法,我們在后續章節討論。
另外,細菌的細胞太小,且沒有ployA結構,自然不適合10X genomics的檢測。
(2)分析層面的問題
同常規RNA-seq一樣,10X RNA-seq/ST-seq需要將測序數據比對到作為參考的基因組,才能實現對基因的定量。那么參考基因組是影響分析結果的主要問題。10X RNA-seq/ST-seq由於只對轉錄本的3‘端或者5‘端進行測序,然后通過比對參考基因組實現對RNA的定量。那么,這要求用於作為參考的基因組要有較高的質量。因為如果參考基因組組裝質量差,基因注釋不完整,那么會影響測序結果的比對以及基因定量。
基於參考基因組,我們可以分為3種情況:
1)參考基因組質量很高
比如,人類、小鼠、擬南芥、水稻等,參考基因組質量高,基因組注釋都優化了很多版本了,開展10X RNA-seq/ST-seq分析自然沒有問題了。
2)參考基因組質量值得懷疑
這10年來,基於二代測序組裝技術的發展,很多非模式生物的參考基因組已經被發表。但實際上由於預算或急着發表等諸多因素,這些已經發表的基因組質量參差不齊。比如,很多基因組在注釋的時候,只有CDS區注釋,而缺乏5‘UTR或者3‘UTR區。而10X RNA-seq/ST-seq檢測的是RNA的5’端或者3‘端序列,其實大部分就是5’UTR或者3‘UTR序列。如果參考基因組沒有將UTR區域注釋出來,自然就會影響測序結果的比對和定量。
所以,對哪些組裝組質量較差的物種,如果比對率異常(比對在基因區的數據偏少),可以考慮人為對基因組注釋文件的5’UTR區或者3‘UTR區進行延伸,這樣可能會改善比對和定量的結果。另外,如果預算許可,可以考慮在實驗設計中加入一些常規轉錄組或者3代全長轉錄組,用於優化參考基因組的注釋(不過,10X RNA-seq/ST-seq這么貴的技術都用上了,好像也不會在乎多測幾個常規轉錄組了吧)。
3)沒有參考基因組
沒有參考基因組當然沒法做比對和定量,也就無法開展10X RNA-seq/ST-seq分析。對於沒有參考基因組的物種,從而組裝一個基因組費用比較高且周期比較長。對於無參考基因組的物種,如果老師很想進行10X RNA-seq/ST-seq研究,那么也可以考慮對轉錄組數據進行拼接,構建一個轉錄本參考用於10X RNA-seq/ST-seq數據的比對和定量。
但如果采用轉錄組de novo拼接構建轉錄組,一定要注意3個問題:
a)一定要使用三代測序進行轉錄組拼接而非二代測序
基於常規的二代測序結果的 de novo 拼接獲得的轉錄本大部分是不完整的,大概率缺失UTR區的序列,所以基於常規二代測序拼接的 de novo 轉錄組參考序列集並不適合用於作為10X RNA-seq/ST-seq的參考庫。唯一合適的方法應該是基於三代全長轉錄組測序技術進行 de novo 拼接,去獲得完整的轉錄本全長序列,才適合作為10X RNA-seq/ST-seq的參考庫。
b)三代轉錄組較低的基因檢出率需要數據量做保障
我們做過的大量有參考基因組物種三代轉錄組測序數據表明,三代全長轉錄組對基因的檢出率平均在40%(即基因組如果有2萬個基因,但三代全長轉錄組平均只能檢出8000個基因)。這主要原因三代全長轉錄組只有獲得mRNA全長,被算一個有效檢出的完整轉錄本。但在全部數據里,全長轉錄本所占的比例並不高,尤其對低豐度基因的轉錄本漏檢較多。
為了保證三代全長轉錄組能夠較多檢測低豐度的轉錄本,以保證 de novo 拼接的轉錄組參考集涵蓋更多的基因,可以考慮適當加大測序的數據量(現在三代測序也比較便宜了)。
c) de novo 參考轉錄組冗余度的影響
de novo 從頭拼接的結果有一個比較麻煩的問題是序列冗余度比較大,即同一個基因的多個可變剪切同時被檢測和拼接出來。這會導致10X genomics數據進行比對時,多重比對(即一條測序的reads會比對上多個轉錄本)比例比較大。而多重比對的reads在10X RNA-seq/ST-seq定量的時候,默認要被丟棄。
所以,對於 de novo 拼接來源的轉錄本需要適當進行去冗余處理,從而減少多重比對的影響,提高數據量的有效率。在無參考轉錄組 de novo 拼接方面,基迪奧有非常豐富的項目經驗。在已有的案例中,我們已經證明了無參考轉錄組 de novo 拼接結果在進行適當優化后,可以作為10X RNA-seq/ST-seq的參考。
參考文獻
[1] Svensson V, Vento-Tormo R, Teichmann S A. Exponential scaling of single-cell RNA-seq in the past decade[J]. Nature protocols, 2018, 13(4): 599.
[2] Rosenberg A B, Roco C M, Muscat R A, et al. Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding[J]. Science, 2018, 360(6385): 176-182.
[3] Macosko EZ, Basu A, Satija R, Nemesh J et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell 2015 May 21;161(5):1202-1214
[4] CytoSeq: Fan H. C., Fu G. K. and Fodor S. P. (2015) Expression profiling. Combinatorial labeling of single cells for gene expression cytometry. Science 347: 1258367
[5] Birey F, Andersen J, Makinson C D, et al. Assembly of functionally integrated human forebrain spheroids[J]. Nature, 2017, 545(7652): 54-59.
[6]單細胞在線課堂:https://www.omicshare.com/class/home/index/series?id=44
lncRNA
- 1.長度在200-100,000nt
- 2.沒有編碼蛋白質潛能
- 3.具有細胞或組織類型特異性
- 4.表達量和保守性比mRNA低
- 5.部分lncRNA不含有polyA尾巴
- 6.部分也會翻譯小肽段
https://my.oschina.net/u/4503882/blog/4423031
https://www.sohu.com/a/397834526_278730