bwa的使用需要兩中輸入文件:
Reference genome data(fasta格式 .fa, .fasta, .fna)
Short reads data (fastaq格式 .fastaq, .fq)
step 1: 建立 Index
根據reference genome data(e.g. reference.fa) 建立 Index File
bwa index -a bwtsw reference.fa
bwa index 指令更多的用法及 options,通過以下的命令來查看
bwa index
step 2: 尋找 SA coordinates
如果是pair-end 數據(leftRead.fastq和rightRead.fastq)兩個文件分別處理
bwa aln reference.fa leftRead.fastq > leftRead.sai
bwa aln reference.fa rightRead.fastq > rightRead.sai
bwa aln reference.fa singleRead.fastq > singleRead.sai
如果希望多線程運行,在其中加入 -t這個參數,另外-f這個參數可以指定結果輸出文件,如:
bwa aln -c -t 3 -f leftreads.sai reference.fa leftreads.fastq
step 3:轉換SA coordinates輸出為sam
如果是pair-end數據
bwa sampe -f pair-end.sam reference.fa leftRead.sai rightRead.sai leftRead.fastq rightread.fastq
如果是single reads數據
bwa samse -f single.sam reference.fa single.sai single.fastq
其他:
fai是對ref基因組文件建的索引,方便軟件快速隨機讀取基因組序列
sai是將fastq比對后出來的文件,用於最后輸出比對結果sam文件的
官方文檔
http://www.bbioo.com/lifesciences/40-113315-1.html
http://bio-bwa.sourceforge.net/bwa.shtml