tophat的用法


概述:tophat是以bowtie2為核心的一款比對軟件。

 

tophat工作分兩步:

1.將reads用bowtie比對到參考基因組上。

2.將unmapped-reads打斷成更小的fragments,比對到參考基因組上,如果比對成功,建立剪切點。

 

用法:tophat [options]* <index_base> <reads1_1[,…,readsN_1]> [reads1_2,…readsN_2]

 

 <index_base>:參考基因組的index文件的具體目錄,例如,index文件存放在當前目錄下的index文件夾,文件的名字是hg19.*.*, index數據的文件應該是:./index/hg19,不用寫到./index/hg19.*.*。參考基因組應該和index文件放在同一目錄中。

reads:PE reads必須放在不同的兩個文件中,文件名必須按照*_1, *_2的規范成對出現。如:A.reads1_1.fastq B.reads1_1.fastq A.reads1_2.fastq B.reads1_2fastq

 

常用options:

    -o | --output default: ./tophat_out 輸出的文件夾路徑。

-r | --mate-inner-dist default: 50 成對的reads之間的平均inner距離。例如:fragments長度300bp,reads長度50bp,則其inner距離為200bp,該值該設為200。

   --mate-std-dev default:20 inner距離的標准偏差。

-a | --min-anchor-length default: 8 read的錨定長度:該參數能設定的最小值為3;錨定在junction兩邊的reads長度只有都大於此值,才能用於junction的驗證。
--library-type Tophat處理的reads具有鏈特異性。比對結果中將會有個XS標簽。一般Illumina數據的library-type為 fr-unstranded。

    -G | --GTF 提供基因模型的注釋文件,GTF 2.2 或者 GFF 3 格式的文件。如果設置了該參數,Tophat 則先提取出轉錄子序列,然后使用Bowtie2將reads比對到提取的轉錄組中;只有不能比對上 的reads再比對到genome;比對上的reads再打斷轉變成genomic mappings;再融合新 的mappings和junctions作為最后的輸出。 值得注意的是GTF/GFF文件代表chromosome和contig的第一列要和bowtie index中的 參考序列名一致。 




參考文章:
http://blog.sina.com.cn/s/blog_8808cae20101amqp.html




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM