史上最全 | 39個RNAseq分析工具與對比


文獻:Sahraeian S M E, Mohiyuddin M, Sebra R, et al. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis[J]. Nature Communications, 2017, 8(1):59.

這是一篇在NC上發表的使用RNAseq工具對比的一篇文獻,解讀這篇文獻對我們使用RNAseq發文提供了思路。下面小編具體解說一下。

 

文獻摘要:

RNA-sequencing(RNA-seq)是一個重要的轉錄組學研究技術,數百款分析工具目前已經開發出來。盡管最近相關研究評估了最新的可用的RNAseq工具,但他們沒有全面綜合的評估RNAseq分析的工作流。這里我們進行廣泛的RNA-seq工作流的研究分析,不僅包括表達分析,我們的工作還包括了評估的RNA variant-calling,RNA編輯和RNA融合檢測技術。更為獨特的是我們對二代RNAseq和三代Isoseq技術都進行了研究,39個分析工具,~ 120種組合,涉及15個樣品與各種生殖系、癌症和干細胞的數據集的~490種分析。我們報告了各流程性能並提出一個全面的,分析准確性高的RNA-seq分析流程,名字叫做RNACocktail。在不同的樣品中驗證表明,我們提出的流程可以幫助研究人員通過轉錄組的分析獲取更多的生物有關的預測結果。

流程下載地址:http://bioinform.github.io/rnacocktail/

 

附錄:39個工具版本號、重要參數及下載地址:

比對工具

 

1.TopHat2: –no-coverage-search

http://ccb.jhu.edu/software/tophat/index.shtml

2.STAR: -twopassMode Basic –outFilterType BySJout

https://github.com/alexdobin/STAR/releases

3.HISAT2 2.0.1-beta –dta (or –dta-cufflinks)

http://www.ccb.jhu.edu/software/hisat/index.shtml

4.RASER 0.52 -b 0.03

https://www.ibp.ucla.edu/research/xiao/RASER.html

 

有參考轉錄本組裝工具

1.Cufflinks 2.2.1 –frag-bias-correct

http://cole-trapnell-lab.github.io/cufflinks/

2.StringTie 1.2.1 -v -B

http://www.ccb.jhu.edu/software/stringtie/

 

無參考轉錄本組裝工具

1.SOAPdenovoTrans 1.04 -K 25

https://github.com/aquaskyline/SOAPdenovo-Trans/

 2.Oases 0.2.09 (Velvetv1.2.10) (velveth haslength: 25) (velvetg options: -read trkg yes)

http://www.ebi.ac.uk/~zerbino/oases/

3. Trinity 2.1.1 –normalize reads 

http://trinityrnaseq.sourceforge.net/

 

三代長read分析工具

1.LoRDEC 0.6 -k 23 -s 3 

http://atgc.lirmm.fr/lordec/

2.GMAP 12/31/15 -f 1

http://research-pub.gene.com/gmap/

3. STARlong 2.5.1b

https://github.com/alexdobin/STAR/releases

 Followed the recommended options : 

–outSAMattributes NH HI NM MD

 –readNameSeparator space 

–outFilterMultimapScoreRange 1 

–outFilterMismatchNmax 2000 

–scoreGapNoncan -20

 –scoreGapGCAG -4

 –scoreGapATAC -8 

–scoreDelOpen -1

 –scoreDelBase -1

 –scoreInsOpen -1

 –scoreInsBase -1

 –alignEndsType Local 

–seedSearchStartLmax 50

 –seedPerReadNmax 100000

 –seedPerWindowNmax 1000

 –alignTranscriptsPerReadNmax 100000

 –alignTranscriptsPerWindowNmax 10000

 –outSAMstrandField intronMotif 

–outSAMunmapped Within

 4. IDP 0.1.9 

https://www.healthcare.uiowa.edu/labs/au/IDP/

 

定量工具

1. eXpress 1.5.1 (bowtie2 v2.2.7) (bowtie2 options: -a -X 600 –rdg 6,5 –rfg 6,5 –score-min L,-.6,-.4 –no-discordant –no-mixed)

https://pachterlab.github.io/eXpress/index.html

2. kallisto 0.42.4 

http://pachterlab.github.io/kallisto/about.html

3. Sailfish 0.9.0 

http://www.cs.cmu.edu/~ckingsf/software/sailfish/

4. Salmon-Aln 0.6.1 

https://github.com/COMBINE-lab/salmon

5. Salmon-SMEM 0.6.1

https://github.com/COMBINE-lab/salmon

 index: –type fmd 

quant: -k,19 

6. Salmon-Quasi 0.6.1 

https://github.com/COMBINE-lab/salmon

index: –type quasi -k 31 

7. featureCounts 1.5.0-p1 -p -B -C

http://subread.sourceforge.net/

 

差異表達分析工具

1. DESeq2 1.14.1 

http://bioconductor.org/packages/release/bioc/html/DESeq2.html

2. edgeR 3.16.5

http://www.bioconductor.org/packages/release/bioc/html/edgeR.html

3. limma 3.30.7 

http://bioconductor.org/packages/release/bioc/html/limma.html

4. Cuffdiff 2.2.1

 –frag-bias-correct –emit-count-tables

http://cole-trapnell-lab.github.io/cufflinks/

5. Ballgown 2.6.0 

https://github.com/alyssafrazee/ballgown

6. sleuth 0.28.1

https://github.com/pachterlab/sleuth

 

變異分析工具

 

1. SAMtools 1.2 (bcftools v1.2) 

samtools mpileup -C50 -d 100000

https://github.com/samtools/samtools

2. bcftools filter -s LowQual -e ‘%QUAL<20 —— DP>10000’

https://github.com/samtools/bcftools

 3.GATK v3.5-0-g36282e4 (picard 1.129)

https://software.broadinstitute.org/gatk/download/

 Picard AddOrReplaceReadGroups: SO=coordinate

 Picard MarkDuplicates: CREATE INDEX=true VALIDATION STRINGENCY=SILENTGATK

 SplitNCigarReads: -rf ReassignOneMappingQuality -RMQF 255 -RMQT 60

 -U ALLOW N CIGAR READSGATK 

HaplotypeCaller: -stand call conf 20.0

 -stand emit conf 20.0 -A StrandBiasBySample

 -A StrandAlleleCountsBySampleGATK 

VariantFiltration: -window 35 -cluster 3 -filterName FS -filter

 “FS >30.0” -filterName QD -filter “QD <2.0”

 

RNA編輯

1. GIREMI 0.2.1

https://github.com/zhqingit/giremi

2.  Varsim 0.5.1

https://github.com/bioinform/varsim

 

基因融合

1.FusionCatcher 0.99.5a beta 

https://github.com/ndaniel/fusioncatcher

2.JAFFA 1.0.6 

https://github.com/Oshlack/JAFFA

3.SOAPfuse 1.27

http://soap.genomics.org.cn/soapfuse.html

 4.STAR-Fusion 0.7.0 

https://github.com/STAR-Fusion/STAR-Fusion

5.TopHat-Fusion 2.0.14

http://ccb.jhu.edu/software/tophat/fusion_index.shtml

 

一、數據集

    來源於人的 15個Illumina和 Pacific Biosciences (PacBio) 數據集 

二、分析結果

 

(一)比對工具評價

 

  不同方案檢測到的剪接點利用與dbEST數據庫中鑒定到的可靠的剪接點的一致性衡量各方案的准確性。 一個可靠的EST剪接點由至少兩個EST支持, 圓圈的大小反映出來每個方案鑒定出的剪接位點數目。 對於每個工具,顯示出鑒定剪接位點數和驗證率(括號中)。每個數據集的驗證率也在Venn圖上顯示。 b read比對效率分析:測序片段的read映射狀態的分布(左)(對於NA12878,MCF7和SEQC樣品,顯示配對末端read的映射狀態,而對於hESC,反映的是唯一映射(藍色),多映射(橙色)和未映射(紅色)單端read的映射情況),映射片段中soft-clipped的數目分布(中),映射片段中錯配的數目的分布(右)

 

 

HISAT2所有樣本中剪接位點驗證率最高,盡管總數少於TopHat或STAR(圖2a;補充圖1-3)。STAR唯一映的read比例最高,特別是在MCF7-300上,大概是由於read增加長度(圖2b)。 STAR映射只接受雙端比對,不像TopHat和HISAT2一樣可以接受單端read的比對。另一方面,STAR也產生了較差質量的比對結果,具有更多的soft-clipped和錯配數(圖2b)。 TopHat不允許截斷read(圖2b)。雖然這些結果證實了以前的發現,從較長的read的樣本(MCF7-300)和單端測序樣本(hESC)比對結果中可以看出STAR相對於TopHat和HISAT2具有更高的容忍性,用於接受不匹配和soft-clipped,以調整獲得更高的mapping率。(圖2b)。平均來說,HISAT2的速度分別比STAR和TopHat快2.5和〜100×(補充表3)

 

(二)基於比對的轉錄組組裝

 

spliced aligned之后就是轉錄本組裝了,有參考二代轉錄組數據組裝常用的兩個工具:Cufflinks和StringTie。除此之外你還評價了二+三混合組裝工具IDP(分別使用GAMP和STARlong作為比對工具)和Pacbio官方轉錄本組裝工具Iso-Seq,准確性評價采用GENCODE v19中的參考轉錄組。

Cufflinks和StringTie報告了更多單一外顯子轉錄本(圖3a;補充圖4和5),其主要是假陽性的(補充圖6)。 StringTie比cufflinks多預測50-200%的轉錄本。 IDP在各個樣本中均預測出外顯子數目最少,因為它不報告單外顯子基因設計,在多個外顯子轉錄本上,預測出的數目與Cufflinks數量相似

(圖3a;補充圖5)。而且,IDP的預測出的外顯子數目分布更好地類似於GENCODE,特別是對於多外顯子轉錄本(圖3a)。平均來說,Iso-Seq算法預測差不多94%的單個外顯子轉錄本和77%的多外顯子轉錄本在GENCODE缺少。這個可能反映了Iso-Seq方法的組裝准確性較差,但檢測新的轉錄本靈敏度高。對於MCF7-300樣本,STAR預測的數量多於其他比對軟件(圖3a;補充圖5),可能是由於它處理更長的read能力。使用長read比對工具GMAP和短read比對工具HISAT2的IDP可以預測更多的可變剪接。

與短read組裝工具不同,IDP傾向於檢測一個基因的多個轉錄本(補充圖7)。和cufflinks相比,StringTie平均預測基因數目多50倍以上且每個基因具有超過五種可變剪接。 StringTie的每個基因的可變剪接數量的分布與GENCODE中觀察到更加一致(補充圖7)。

對於基因水平評估,IDP在所有樣品中達到最佳精度和靈敏度(圖3b;補充圖8和9)。此外,cufflinks比StringTie更敏感和精確。在MCF7-300樣本上,不同比對工具之間有更多的差異,其中TopHat和HISAT2好與STAR。 Iso-Seq算法敏感度最低,而其精度在IDP和Cufflinks、StringTie之間。

 

 

        轉錄本水平IDP比其他軟件在精度上超過20%以上(圖3b)。但是,它的預測結果准確性僅限制在多外顯子上,它的敏感度比StringTie低,但是比cufflinks高。在短序列組裝工具中,StringTie比cufflinks在轉錄本水平上高出平均有11%的精確度和25%的敏感性(圖3b;補充圖8和9)。 Iso-Seq接近零精確度,主要由於其構建轉錄本較差。對於StringTie和IDP,被預測出更多內含子的基因更有可能代表新的可變剪接,與以前使用長read的研究結果一致(補充圖12)

 

StringTie是最快的工具,組裝速度分別高〜60×和〜50×比cufflinks和IDP(輸入的是錯誤糾正和對齊數據)(補充表4)。我們觀察到,與以前的研究不同,在更多具有挑戰性的例子中,如MCF7-300,STAR報道的更多的轉錄本數量(主要是單個外顯子)但是也有更高的假陽性率(圖3a;補充圖4和5)。

 

(三) 從頭組裝

 

在這里我們分析了三種廣泛應用從頭組裝工具Trinity,Oases和SOAPdenovo-Trans。

Trinity傾向於預測更長的可變剪接,更多的基因和轉錄本,但是許多是斷裂的轉錄本(圖4a;補充圖16和17)。Oases在所有樣本中產生了最高的N10至N50值(圖4b;補充圖18),表明其檢測長的可變剪接的優越性;各軟件檢測到的不同表達量基因情況如(圖4c;補充圖19)。 SOAPdenovo-Trans最高峰在小的百分位數上(表達量從大到小排,類似於基因組N50),表明其傾向於檢測高表達轉錄本。另一方面,Oases擅長檢測低表達的基因(峰靠近右邊)。

將重建的轉錄本與參考轉錄本進行比較表明,SOAPdenovo-Trans和Trinity在內含子水平分別具有最高精度和靈敏度(補充圖21a)。對於內含子鏈級水平上,Oase和Trinity優於SOAPdenovo-Trans(補充圖21b)。在較低的內存和計算要求下,SOAPdenovo-Trans表現最佳(補充表5)。

 

(四)三代長Read直接獲取轉錄本

 

人類轉錄本長度(GENCODE v19注釋)中位數為783 bp,比目前NGS技術可以提供的讀長長得多。然而,長讀長測序平台不用組裝便可以輕松獲得完全跨越大多數轉錄本的Read。 在hESC上樣本,例如,原始PacBio的SubRead的中位數長度是1164bp,這足以覆蓋大部分轉錄本(64%)。 因此,長讀技術可以方便精確的發現轉錄本,無需外顯子 - 外顯子連接點預測或者組裝。

我們使用GMAP和STARlong進行比對,結果作為IDP的輸入。平均而言,GMAP的比對率比STARlong高28%(補充表7)。IDP另外一種可選輸入是PacBio的Iso-Seq流程比對MCF7樣品的結果。

在不同的樣本上,基於長讀技術的IDP和Iso-Seq預測了許多新的轉錄本或者已知的任何短讀長測序技術都未檢測到的參考轉錄本(補充圖22)。對通過長讀長或短讀長預測的轉錄本統計分析表明只有IDP預測的轉錄本具有廣泛的長度(達到10,000 bp),而由Iso-Seq預測的大部分轉錄本長度在1000到4000bp之間。

在速度方面,STARlong比GMAP快68倍(補充表8),而IDP每個樣品大約耗時170個CPU小時

 

(五)轉錄本定量

 

基於比對的轉錄本定量。比較傳統方法是將read比對(spliced -aligned)到參考基因組,然后利用Cufflinks和StringTie進行轉錄本組裝,最后進行定量。如果具有參考轉錄本序列,reads可以直接跟轉錄本序列比對(aligned),然后使用RSEM和eXpress進行定量。

不經過比對(alignment-free)的轉錄本定量。主要提供了四個工具:Sailfish、Salmon、quasi-mapping和kallisto。不經過比對就可以確定哪個轉錄本生成哪些read或者尋找部分比對回轉錄本的reads。

在這里我們比較了基於基因組比對的cufflinks和StringTie(使用不同的比對工具),基於轉錄本比對的工具,eXpress和Salmon-Aln,不需要比對的kallisto,Sailfish,Salmon-SMEM和Salmon-Quasi,以及基於長讀長技術的IDP(使用不同的短讀長和長讀長比對工具)四種方式的性能。

基於不同的定量方法所得表達值的Spearman相關性分析表明,具有相似方法的定量方案聚類在一起(圖5a;補充圖23和24)。不經過比對的方法各個工具也集中在一起,並且相比Cufflinks更接近於StringTie的位置。 Salmon-SMEM 與基於轉錄組比對的各工具聚在一起。鑒於Salmon-SMEM更快的速度,這使得其優於eXpress和Salmon-Aln。涉及IDP的組合也聚集在一起,與其他組合的相似性較小,特別是其中的涉及cufflinks的組合(圖5a)。

兩個免比對工具kallisto和Salmon-SMEM對MCF7-100和MCF7-300豐度估計具有最一致的結果(圖5b,c)。反映出免比對工具在其豐度估計中無樣本特異性和讀長偏好性。 IDP對MCF7-100和MCF7-300豐度估計也表現出高度的一致性,特別是排除低表達基因(圖5c)。在短讀長比對工具中, HISAT2在不同樣本中豐度估計的一致性最好(圖5c)。

一般來說,免比對工具非常有效(補充表9),而帶有高效比對工具如HISAT2的StringTie在基於對齊的方法中是最為高效的(比免比對工具慢一個數量級)。以前的研究表明在豐度估計准確性上估計的方法相對於比對工具而言具有更突出的作用,.我們的結果(圖5c)清楚地描繪了HISAT2和TopHat相對STAR的優越性。

 

Fig. 5 轉錄本豐度估計各方法性能. a Clustering of different schemes based on the Spearman rank correlation of their log expressions on NA12878. b Distribution of log2-fold change of expressions between MCF7-100 and MCF7-300 samples. For each method, dashed line represents the mean of the distribution and the dotted lines represents the quartiles. c Percentage of expression disagreement between MCF7-100 and MCF7-300

samples when low-expressed transcripts are discarded with different thresholds

 

(六)差異表達

 

不同的時空以及不同的條件下差異基因分析是RNAseq分析的重要目標。差異表達分析方法包括:基於Read數目的DESeq、limma和edgeR;基於組裝技術的Cuffdif和Ballgown;基於免比對的定量方法sleuth。

通過QPCR對各工具經行評價。與其他工具相比,DESeq2表現最佳。sleuth、edgeR和limma性能較差。Cuffdiff和Ballgown的准確度沒有基於計數的工具准確度高。對於AUC-30的測量,edgeR表現最佳。平均而言,DESeq2在不同定量方法中均優於其他技術,而 sleuth,edgeR 和 limma的性能略有下降,這在之前文獻中已經證實。Cuffdiff和 Ballgown准確度均低於基於原始read差異分析的技術。Salmon-SMEM, Salmon-Aln, kallisto和eXpress與基於原始read差異分析技術是最佳組合方案。在ROC曲線下低於30%(AUC-30)條件下,edgeR優於其他技術。

作為另一種准確度量,比較了不同的方案在預測92個External RNA

Control Consortium (ERCC) spike-in genes in the SEQC數據集上的性能(圖6b;補充圖29,35-38)。用Spearman相關性衡量,edgeR 和 limma明顯着超過其他工具。用Spearman和RMSD同時評估,DESeq2仍然表現最好,而 sleuth優於edgeR和limma。然而,在AUC-30測量中,采用 Cufflinks的Ballgown的表現優於其他組合。基於read計數的工具比基於組裝的工具更有效率,尤其是采用基於轉錄本的比對方法或免方法(補充表10)。Cuffdiff比Ballgown慢四到五倍,是最慢的工具。

總體而言,免對齊工具Salmon 和 kallisto能夠提供高質量的差異基因預測。

Fig. 6 Performance of differential gene expressions analysis tools on SEQC-A vs. SEQC-B samples. a Spearman rank correlation, root-mean-score-deviation (RMSD), and AUC-30 scores for qPCR measured genes. Spearman rank correlation and RMSD scores are measured between the log2-fold change of the qRT-PCR and RNA-seq tools. AUC-30 score represents the area under the ROC curve up to the false positive rate of 30%. b ROC analysis of qRT-PCR measured genes (left) and ERCC (right) genes. For each differential analysis tool the plot reflects average performance when different alignment-based and alignment-free tools are used for abundance estimation and error bar shows the maximum and minimum variations. Results for each tool combination are

shown in Supplementary Figs. 30 and 35

 

(七)基因融合

 

基於短讀長測序技術,FusionCatcher敏感性和准確性最高,SOAPfuse也顯示高的敏感性。長讀長技術 IDP fusion融合提供了最高的准確性(圖7f)。STAR-Fusion是最快的方法(比其他方法快超過10×),而FusionCatcher和TopHat-Fusions具有更高的計算需求(補充表13)。

 

三、高准確度的分析流程

 

作者提出一個新的高准確度分析流程,RNACocktail,使用的具體軟件如下圖所示。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM