原文:pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)

在开发基因组相关流程或工具时,经常需要读取 处理和创建bam vcf bcf文件。目前已经有一些主流的处理此类格式文件的工具,如samtools picard vcftools bcftools,但此类工具集成的大多是标准功能,在编程时如果直接调用的话往往显得不够灵活。 本文介绍的是一个处理基因组数据的python模块,它打包了htslib . samtools . 和 bcftools . 的核 ...

2016-09-26 12:58 0 8381 推荐指数:

查看详情

基因组Python --PyVCF 好用的vcf文件处理

vcf文件的全称是variant call file,即突变识别文件,它是基因组工作流程中产生的一种文件,保存的是基因组上的突变信息。通过对vcf文件进行分析,可以得到个体的变异信息。嗯,总之,这是很重要的文件,所以怎么处理它也显得十分重要。它的文件信息如下: 文件的开头是一堆 ...

Wed Jun 20 23:36:00 CST 2018 0 940
Pysam 处理bam文件

Pysam可用来处理bam文件 安装: 用 pip 或者 conda即可 使用: Pysam的函数有很多,主要的读取函数有: AlignmentFile:读取BAM/CRAM/SAM文件 VariantFile:读取变异数据VCF或者BCF ...

Fri Dec 06 01:03:00 CST 2019 0 469
SAM/BAM文件处理

当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B取自binary)。 那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件 ...

Mon Dec 12 03:46:00 CST 2016 0 5502
bam/sam格式说明

SAM输出的结果中每一行都包括十二项通过Tab分隔(\t),从左到右分别是: 1 QNAME,序列的名字(Read的名字) 2 FLAG, 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比对结果是一个pair-end比对的末端 ...

Fri Apr 08 17:24:00 CST 2016 0 6291
基因组数据分析原始数据到变异数据(Fastq->VCF

WGS数据分析目的:检测出每个样本基因组中的变异集合(不同样本中的差异序列)WGS数据分析流程分为三步:原始数据质控 -> 数据处理 -> 变异检测1.原始数据质控阶段:拿到原始测序数据 -> QC过滤低质量的read数据2.数据处理阶段:read比对 -> sort ...

Sat May 30 06:20:00 CST 2020 0 771
bam/sam 文件格式详解

sam/bam 是一种序列比对格式标准,由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。通常是把FASTQ文件格式的测序数据比对到对应的参考基因组版本得到的。 header 部分 sam 分为两部分,注释 ...

Tue Jun 01 01:27:00 CST 2021 0 1389
如何从NCBI下载基因组数据

本文关于如何在 NCBI 的 FTP 里下载需要的基因组数据。 已知信息 例如:我从文献里看到作者测了 Escherichia coli ATCC 25922 的基因组,想从NCBI下载。 原文提供的信息是: This Whole Genome Shotgun ...

Fri Nov 24 17:59:00 CST 2017 0 9524
基因组数据

植物基因组数据库:1、NCBI中的genome,直接下载NCBI上的基因组文件 ftp://ftp.ncbi.nlm.nih.gov/genomes/ 2、植物基因组数据库(包含约30个左右的植物,具体查看:) 30个左右植物基因组对应列表 下载 http ...

Sun Jun 07 05:11:00 CST 2020 0 1657
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM