參考資料:
- SAMtools(官網)
- SAM Spec v1.4 (SAM格式 說明書) (重要)
- samtools-1.3.1 使用手冊 (SAMtools軟件說明書)
- samtools常用命令詳解(博客園)
- SAM格式定義(博耘生物)
- samtools使用方法(plob)
這個學習急不來,而且比對非常重要,先把上面的官方SAM/BAM格式說明文件看透`Sequence Alignment/Map Format Specification`
SAMtools解決的問題
- 非常多序列(read),mapping到多個參考基因組(reference)上;
- 同一條序列,分多段(segment)比對到參考基因組上;
- 無限量的,結構化信息表示,包括錯配、刪除、插入等比對信息;
samtools 格式詳解
@SQ SN:Supercontig_6 LN:4218384 SRR1216519.3960650 73 Supercontig_6 5 0 67M13S = 5 0 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCACACCCCACACC EEEEED?CEEFFDFFFDBFEEEDEAB=EBC@-?@?BE=EB?-B?#################################### NM:i:2 AS:i:57 XS:i:57
#R498-三代組裝比對信息 @SQ SN:tig00000000 LN:110432 @SQ SN:tig00000001 LN:42601 @SQ SN:tig00000002 LN:14821 @PG ID:bwa PN:bwa VN:0.7.10-r789 CL:/public/software/bwa-0.7.10/bwa mem -e breakpoint.contigs breakpoint.contigs.fasta
tig00000000 0 tig00000002 6796 60 99995S62M1D17M2I2 * 0 0 TGAAAACACCAGTCGGTGGTCGGC * NM:i:228 MD:Z:7G16G34T2 AS:i:840 XS:i:0 SA:Z:tig00000001,41895,+,
SAM格式,即序列比對文件格式,由頭部區(@開頭)和 主體區組成,均以tab分列。
- 頭部區:體現比對的總體信息,如SAM格式版本,參考序列,使用軟件。
- 主體區:比對結果,每一列都是一個比對結果,有11個主列 和 1個可選列。
以上:
@SQ行:SN是參考序列名;LN是參考序列長度。
下一行分別是:
- QNAME(比對序列名);
- FLAG(比對類型,由2的次方的累加,如73=64+8+1);
- RNAME(比對上的參考序列名字)
- POS(比對上的序列最左邊的鹼基的位置)
- MAPQ(比對質量,BWA算出來的)
- CIGAR(比對結果信息,簡寫)
- MENM(pair序列比對在參考基因組上的名字,同上RNAME)
- MPOS(pair比對位置,同上POS)
- ISIZE(插入片段長度)
- SEQ(序列信息,來自fastQ)
- QUAL(質量信息,來自fastQ)
- 可選列(格式為TAG:TYPE:VALUE,提供額外信息)
局部組裝常用命令及其參數
$samtoolsdir/samtools view -@ $NP -Sb $out/bwamem_$sample.sam -o $out/bwamem_$sample.bam
-@ 硬件參數
-S 輸入為SAM文件
-b 輸出為BAM文件
-o 指定輸出文件 $samtoolsdir/samtools sort -@ $NP $out/bwamem_$sample.bam -o $out/bwamem_$sample.sorted.bam $samtoolsdir/samtools index $out/bwamem_$sample.sorted.bam
注意:目前使用的參數中均沒有影響結果的參數