生物信息分析中會用到很多的比對軟件,比較常用的有bowtie、bowtie2、bwa等,比對文件的標准格式是sam格式,但是bowtie比對默認輸出的格式卻不是sam格式,由於bowtie適用於短序列比對,並且看突變鹼基比較方便,因此它的默認輸出格式還是有一定優勢的,下面就來說明一下它的默認輸出格式。
example:
說明:
1. query id,也就是你自己用於比對的序列的ID。
2. + 表示正向比對上這條reads;- 表示對反向比對上這條reads。
3. 對應比對上的參考序列的ID,ref。
4. 自己用於比對的reads比對到參考序列的起始位置,注意下標是從0開始計數,例如10代表從第11個鹼基開始比對上。第2列為"+"時,表示query第一個鹼基map到reference上的位置;第2列為"-"時,表示query的反向互補序列第一個鹼基map到reference上的位置。
5. 如果第2列為"+",則和query序列一致;否則,和query序列反向互補。
6. 質量文件,如果query文件為fasta格式,則無法獲取質量文件,用I代替,I的數量與query序列長度一致。
7. 當前query能map到GENOME的4個不同位置
8. 如果存在第8列,表示有錯配,bowtie的mismatch最大可設置為3。第8列可以分為三個部分,最左端的數字,中間的鹼基為reference鹼基,最右端的鹼基為query鹼基,下面分情況討論:
第2列為"+"時:最左端的數字9表示query從5'端數起,第10個鹼基為"T",而對應的reference為"G";
第2列為"-"時:最左端的數字9表示query先作反向互補,然后從3'端數起,第10個鹼基為"T",而對應的reference為"G";