選用DNA rm 還是DNA sm


本文轉載自嘉因微信公眾號,已獲得授權。查看最新文章,敬請關注嘉因,微信ID:rainbow-genome

作者:小哈  來源:嘉因

大家都會做方便面,有人做辛拉面,有人做三鮮伊面,工藝有何不同?

 

大家都會做RNA-seq,有人能篩出有意義的基因,有人能找出有價值的線索,有人。。。差別在哪?

 

前五期介紹了回帖、均一化處理、差異基因篩選、畫heatmap和富集分析的合理方法:

 

第五期:gene model同樣算read counts,為什么公司跟師兄算的結果不一樣?| Ensembl、UCSC、Refseq,該用哪個

 

第一期:數據預處理同一套RNA-seq,為什么公司做的跟師兄跑的結果不一樣? | TPM、read counts、RPKM/FPKM你選對了嗎?

 

第二期:差異基因篩選同一套RNA-seq,公司篩出的差異基因跟師兄篩出的為什么不一樣?| Pvalue, FDR, cutoff

 

第三期:heatmapheatmap畫不好會得出錯誤結論 | 數據預處理、聚類分析,HCL、 K means里的講究

 

第四期:富集分析富集分析,倆人做的結果差5歲 | 你用的注釋文件有多老?

 

本文先解決去除rRNA的RNA-seq問題,后面談ensembl基因組使用的注意事項

 


 

實驗和分析去除rRNA

 

通常做lncRNA-seq時會用到特殊的建庫方式,去除rRNA,而不是抓polyA尾巴,這樣可以看到不帶polyA尾巴的lncRNA。


第五期說Ensembl的基因注釋最准確,基因最全;

 

好!我用Ensembl的GTF做mapping;

 

 

第一期說衡量基因的豐度要用TPM;

 

好!我用TPM排序,看看哪個基因表達豐度最高。

 

 

Q:暈!怎么這么多rRNA !?哥花了大價錢買kit去除rRNA,怎么測序還是測到這么多rRNA?!

 

A:淡定!通常實驗去除rRNA,還是會剩0.1-10%的rRNA

 

sample間rRNA去除效率不同,剩下那些rRNA的read count會影響TPM的計算。因此,在mapping前,先刪掉GTF文件里的rRNA。ensembl的GTF有一列專門標注了gene biotype,用“grep -v rRNA”一條命令搞定。

 

用刪掉rRNA的GTF做mapping,不影響rRNA mapping到genome,也就是不影響回帖率;只是在算TPM的時候,不把rRNA的read counts算在內。這樣就不會因為rRNA去除效率的差異而影響其他基因豐度的計算。

 

看看用刪掉rRNA的GTF文件做mapping后,Top 10的基因是誰吧!

暈!怎么最多的還是無聊的snRNA?

 

Q:我想把snRNA、snoRNA也刪掉!Ensembl的GTF gene biotype有這么多種ncRNA。只留下lincRNA,其余的都刪掉多清凈?


A:不能刪

 

tRNA(76-90 nt)、scRNA(100 nt)、miRNA(22 nt)因為長度太短撈不到,所以read counts很低,影響不到TPM的計算。剩下的snoRNA、snRNA,你確定它們在group間沒有差異表達?也許他們也有着重要的功能,在你的處理條件或組織類型里表達量提高或被抑制,從而發揮了調控作用,或被調控。

 


所以,如果rRNA去除效率差異太大,刪掉GTF文件里的rRNA就好。其實,通常也不需要這樣處理,rRNA read count的差異對DESeq2和edgeR結果不會影響很大

 

 

關於GTF里gene biotype的處理,沒有找到文獻支持,只有comment,例如:

 

https://www.biostars.org/p/130420/

https://www.biostars.org/p/106590/

 

 


 

 

Ensembl基因組使用注意事項

 

Q:我又想到一個辦法:rRNA通常是repeat,ensembl有三種fasta文件,其中dna_rm的fasta文件已經將repeat變成N,所以,rRNA的read就無法mapping回去,這是個好主意嗎?

 

A:推薦dna或dna_sm版本的fasta文件,不要用dna_rm。點擊左下角“閱讀原文”直達原貼

 


 

Q:同樣是dna或dna_sm,又有Primary assembly和toplevel,該選哪個?

 

A:通常推薦Primary assembly。因為Primary assembly去掉了toplevel當中的單倍體和patch,它們會干擾分析結果。

 


Q:我只想要chr1-22和X、Y,那些單個chromosome文件是primary assembly?還是toplevel?

 

A:是Toplevel。所以,還是用primary assembly吧。

 


如果你不想要scaffolds,可以提取primary assembly文件里的chromosome。不過,不建議這樣做,因為那些scaffolds上面還有300多個基因。


Q:ensembl的版本號更新太頻繁,我需要每次mapping都下載最新版本嗎?

 

A:對於基因組成熟的物種,例如人和小鼠等模式生物,最近版本間差異不大,hg19、hg38和mm9、mm10對應的版本都可以。這取決於你想要一起分析的數據用的是哪個基因組版本。ENCODE項目最新版本都用hg38和mm10了。不過geo上的大多數數據都是hg19和mm9的。用liftover轉換基因組版本,簡單快捷,但會損失信息。實在不行,就把公共數據用最新版本重新跑一下。

 

 

其他該避免的陷阱

  • 確保文件下載完整

  • fasta文件和gtf文件版本對應

  • 注意其他來源的index文件的基因組版本

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM