SAM格式 及 比對工具之 samtools 使用方法


參考資料:

這個學習急不來,而且比對非常重要,先把上面的官方SAM/BAM格式說明文件看透`Sequence Alignment/Map Format Specification`

SAMtools解決的問題

  • 非常多序列(read),mapping到多個參考基因組(reference)上;
  • 同一條序列,分多段(segment)比對到參考基因組上;
  • 無限量的,結構化信息表示,包括錯配、刪除、插入等比對信息;

samtools 格式詳解

@SQ    SN:Supercontig_6    LN:4218384
SRR1216519.3960650    73    Supercontig_6    5    0    67M13S    =    5    0    CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCACACCCCACACC    EEEEED?CEEFFDFFFDBFEEEDEAB=EBC@-?@?BE=EB?-B?####################################    NM:i:2    AS:i:57    XS:i:57
#R498-三代組裝比對信息
@SQ    SN:tig00000000    LN:110432
@SQ    SN:tig00000001    LN:42601
@SQ    SN:tig00000002    LN:14821
@PG    ID:bwa    PN:bwa    VN:0.7.10-r789    CL:/public/software/bwa-0.7.10/bwa mem -e breakpoint.contigs breakpoint.contigs.fasta
tig00000000    0    tig00000002    6796    60    99995S62M1D17M2I2    *    0    0    TGAAAACACCAGTCGGTGGTCGGC    *    NM:i:228    MD:Z:7G16G34T2    AS:i:840    XS:i:0    SA:Z:tig00000001,41895,+,

SAM格式,即序列比對文件格式,由頭部區(@開頭)和 主體區組成,均以tab分列。

  • 頭部區:體現比對的總體信息,如SAM格式版本,參考序列,使用軟件。
  • 主體區:比對結果,每一列都是一個比對結果,有11個主列 和 1個可選列。

以上:

@SQ行:SN是參考序列名;LN是參考序列長度。

下一行分別是:

  1. QNAME(比對序列名);
  2. FLAG(比對類型,由2的次方的累加,如73=64+8+1);
  3. RNAME(比對上的參考序列名字)
  4. POS(比對上的序列最左邊的鹼基的位置)
  5. MAPQ(比對質量,BWA算出來的)
  6. CIGAR(比對結果信息,簡寫)
  7. MENM(pair序列比對在參考基因組上的名字,同上RNAME)
  8. MPOS(pair比對位置,同上POS)
  9. ISIZE(插入片段長度)
  10. SEQ(序列信息,來自fastQ)
  11. QUAL(質量信息,來自fastQ)
  12. 可選列(格式為TAG:TYPE:VALUE,提供額外信息)

 

局部組裝常用命令及其參數

$samtoolsdir/samtools view -@ $NP -Sb $out/bwamem_$sample.sam -o $out/bwamem_$sample.bam
-@ 硬件參數
-S 輸入為SAM文件
-b 輸出為BAM文件
-o 指定輸出文件
$samtoolsdir/samtools sort -@ $NP $out/bwamem_$sample.bam -o $out/bwamem_$sample.sorted.bam

$samtoolsdir/samtools index $out/bwamem_$sample.sorted.bam

 

注意:目前使用的參數中均沒有影響結果的參數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM