tophat的用法

本文轉載自查看原文 2017-07-01 22:31 2278 常用生信軟件的使用和問題

概述：tophat是以bowtie2為核心的一款比對軟件。

tophat工作分兩步：

1.將reads用bowtie比對到參考基因組上。

2.將unmapped-reads打斷成更小的fragments，比對到參考基因組上，如果比對成功，建立剪切點。

用法：tophat [options]* <index_base> <reads1_1[,…,readsN_1]> [reads1_2,…readsN_2]

<index_base>：參考基因組的index文件的具體目錄，例如，index文件存放在當前目錄下的index文件夾，文件的名字是hg19.*.*, index數據的文件應該是：./index/hg19，不用寫到./index/hg19.*.*。參考基因組應該和index文件放在同一目錄中。

reads：PE reads必須放在不同的兩個文件中，文件名必須按照*_1, *_2的規范成對出現。如：A.reads1_1.fastq B.reads1_1.fastq A.reads1_2.fastq B.reads1_2fastq

常用options:

-o | --output default: ./tophat_out 輸出的文件夾路徑。

-r | --mate-inner-dist default: 50 成對的reads之間的平均inner距離。例如：fragments長度300bp，reads長度50bp，則其inner距離為200bp，該值該設為200。

--mate-std-dev default:20 inner距離的標准偏差。

-a | --min-anchor-length default: 8 read的錨定長度：該參數能設定的最小值為3；錨定在junction兩邊的reads長度只有都大於此值，才能用於junction的驗證。

--library-type Tophat處理的reads具有鏈特異性。比對結果中將會有個XS標簽。一般Illumina數據的library-type為 fr-unstranded。

-G | --GTF 提供基因模型的注釋文件，GTF 2.2 或者 GFF 3 格式的文件。如果設置了該參數，Tophat 則先提取出轉錄子序列，然后使用Bowtie2將reads比對到提取的轉錄組中；只有不能比對上的reads再比對到genome；比對上的reads再打斷轉變成genomic mappings；再融合新的mappings和junctions作為最后的輸出。值得注意的是GTF/GFF文件代表chromosome和contig的第一列要和bowtie index中的參考序列名一致。




參考文章：
http://blog.sina.com.cn/s/blog_8808cae20101amqp.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TopHat2 的安裝 tophat輸出結果junction.bed tophat cufflinks cuffcompare cuffmerge 的使用使用Tophat+cufflinks分析差異表達使用bowtie2 tophat2 及 cufflinks 處理RNA-SEQ數據 ${ }的用法用法 if not用法 if not用法 $ 和 @ 的用法