概述:tophat是以bowtie2為核心的一款比對軟件。
tophat工作分兩步:
1.將reads用bowtie比對到參考基因組上。
2.將unmapped-reads打斷成更小的fragments,比對到參考基因組上,如果比對成功,建立剪切點。
用法:tophat [options]* <index_base> <reads1_1[,…,readsN_1]> [reads1_2,…readsN_2]
<index_base>:參考基因組的index文件的具體目錄,例如,index文件存放在當前目錄下的index文件夾,文件的名字是hg19.*.*, index數據的文件應該是:./index/hg19,不用寫到./index/hg19.*.*。參考基因組應該和index文件放在同一目錄中。
reads:PE reads必須放在不同的兩個文件中,文件名必須按照*_1, *_2的規范成對出現。如:A.reads1_1.fastq B.reads1_1.fastq A.reads1_2.fastq B.reads1_2fastq
常用options:
-o | --output default: ./tophat_out 輸出的文件夾路徑。
-r | --mate-inner-dist default: 50 成對的reads之間的平均inner距離。例如:fragments長度300bp,reads長度50bp,則其inner距離為200bp,該值該設為200。
--mate-std-dev default:20 inner距離的標准偏差。
-a | --min-anchor-length default: 8 read的錨定長度:該參數能設定的最小值為3;錨定在junction兩邊的reads長度只有都大於此值,才能用於junction的驗證。
--library-type Tophat處理的reads具有鏈特異性。比對結果中將會有個XS標簽。一般Illumina數據的library-type為 fr-unstranded。
-G | --GTF 提供基因模型的注釋文件,GTF 2.2 或者 GFF 3 格式的文件。如果設置了該參數,Tophat 則先提取出轉錄子序列,然后使用Bowtie2將reads比對到提取的轉錄組中;只有不能比對上 的reads再比對到genome;比對上的reads再打斷轉變成genomic mappings;再融合新 的mappings和junctions作為最后的輸出。 值得注意的是GTF/GFF文件代表chromosome和contig的第一列要和bowtie index中的 參考序列名一致。
參考文章:
http://blog.sina.com.cn/s/blog_8808cae20101amqp.html