Pysam 处理bam文件

本文转载自查看原文 2019-12-05 17:03 469

Pysam可用来处理bam文件

安装：

用 pip 或者 conda即可

使用：

Pysam的函数有很多，主要的读取函数有：

AlignmentFile：读取BAM/CRAM/SAM文件
VariantFile：读取变异数据（VCF或者BCF）
TabixFile：读取由tabix索引的文件；
FastaFile：读取fasta序列文件；
FastqFile：读取fastq测序序列文件

一般常用的是第一个和第二个。

例子：

1 import pysam
2 
3 bf = pysam.AlignmentFile("in.bam","rb");  其中r = read， b：binary.  二进制文件。   bam文件index

bf是一个迭代器，可以next（）或者for读取

1  for i in bf:
2     print i.reference_name,i.pos,i.mapq,i.isize

结果：

1 ctg000331_np121 144935 27 -284
2 ctg000331_np121 144940 48 291
3 ctg000331_np121 144941 48 309
4 ctg000331_np121 144944 48 255
5 ctg000331_np121 144946 27 -370
6 ctg000331_np121 144947 27 -346

i.reference_name代表read比对到的参考序列染色体id；
i.flag bam的flag值
i.pos代表read比对的位置；
i.mapq代表read的比对质量值；
i.isize代表PE read直接的插入片段长度，有时也称Fragment长度；

很多功能见下图：

** pysam中的坐标位点是0开始，染色体起始位置为0，不是1

 1 ## sam 文件依次对应的12列
 2 r.qname:  reads 名
 3 r.flag ：Flag
 4 r.reference_name: 比对到的染色体
 5 r.pos+1： 比对位置，必须得加一
 6 r.mapq： 比对质量
 7 r.cigarstring： CIGAR
 8 r.next_reference_name：另外一条reads比对的参考基因组，若和第一条相同，则输出=
 9 r.mpos+1： 比对的位置，必须得加1
10 r.isize： 插入片段长度
11 r.seq：reads seq
12 r.qual： reads 质量

一些功能：

check_index()

检测index文件是否存在存在即为true

1 bf.check_index()
2 True

close（）

用完记得关闭

1 bf.close()

count(self，contig=None, start=None, stop=None, region=None, until_eof=False, read_callback='nofilter', reference=None，end=None)

计算目标区域内比对上的reads数目

1 bf.count(contig="ctg000331_np121", start=1, stop=6000)
2 24

count_coverage(self, contig=None, start=None, stop=None, region=None, quality_threshold=15, read_callback='all', reference=None, end=None)

计算目标区域内的覆盖度。返回1个4维的array，代表ACGT的覆盖度，而每个维度的array长度为100，里面的数字代表该碱基在各个位置上的覆盖度。

1   bf.count_coverage(contig="ctg000331_np121",start=1,stop=100)

fetch(self, contig=None, start=None, stop=None, region=None, tid=None, until_eof=False, multiple_iterators=False, reference=None, end=None)

提取出比对到目标区域内的全部reads。返回的是一个迭代器，可以通过for循环或者next函数从中取出reads，我们使用next()函数取出第一条reads，reads是用 AlignedSegment对象表示，可以通过该对象的内置方法再对这条reads进行一些查询操作。

1 allreads=bf.fetch(contig="ctg000331_np121",start=1,stop=10000)
2 是一个迭代器，可以用for循环获得

get_index_statistics(self)
通过index统计该BAM文件中在各个染色体上mapped/unmapped的reads个数

1 bf.get_index_statistics()

fetch函数定位特定区域

有时候我们并不需要遍历整一份BAM文件，我们可能只想获得区中的某一个区域（比如chr1中301-310中的信息），那么这个时候可以用Alignmen模块中的fetch函数：

bam文件必须要index

1 for r in bf.fetch('chr1', 300, 310)：  
2     print r
3 bf.close()

关注下方公众号可获得更多精彩

参考

1、如何使用Pysam处理BAM

2、使用Pysam操作BAM文件

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 SAM/BAM文件处理 pysam - 多种格式基因组数据（sam/bam/vcf/bcf/cram/…）读写与处理模块（python） SAMTOOLS使用 SAM BAM文件处理处理bam文件提取信息 pysam操作sam文件 bam文件格式说明使用Python处理BAM的方法 bam/sam 文件格式详解 bam文件测序深度统计-bamdst bam文件softclip ， hardclip ，markduplicate的探究