原文:基因组与Python --PyVCF 好用的vcf文件处理器

vcf文件的全称是variant call file,即突变识别文件,它是基因组工作流程中产生的一种文件,保存的是基因组上的突变信息。通过对vcf文件进行分析,可以得到个体的变异信息。嗯,总之,这是很重要的文件,所以怎么处理它也显得十分重要。它的文件信息如下: 文件的开头是一堆以 开始的注释行,包含了文件的基本信息。然后是以 开头的一行,共 n个部分,前九部分标注的是后面行每部分代表的信息,相当于 ...

2018-06-20 15:36 0 940 推荐指数:

查看详情

pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python

在开发基因组相关流程或工具时,经常需要读取、处理和创建bam、vcf、bcf文件。目前已经有一些主流的处理此类格式文件的工具,如samtools、picard、vcftools、bcftools,但此类工具集成的大多是标准功能,在编程时如果直接调用的话往往显得不够灵活。 本文介绍的是一个处理 ...

Mon Sep 26 20:58:00 CST 2016 0 8381
VCF文件处理工具PyVCF

vcf格式示例 ##fileformat=VCFv4.1 ##FILTER=<ID=LowQual,Description=”Low quality”> ##FORMAT=<ID=AD,Number=.,Type=Integer,Description ...

Thu Jul 19 04:52:00 CST 2018 0 1529
基因组注释

基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1 重复序列的识别。 1.1 重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列 ...

Mon Jan 11 19:48:00 CST 2016 0 4001
参考基因组

Reference Consortium Human Build 38),GRCh38 在UCSC基因组浏览中还有个 ...

Sat Jun 12 20:52:00 CST 2021 0 1267
【转录入门】4:参考基因组和注释文件

作业要求: 在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。 作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构 ...

Sun Jul 01 05:27:00 CST 2018 0 9768
基因组数据分类并写出文件python,awk,R data.table速度PK

由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比。 首先是awk处理 ...

Sun Mar 26 18:01:00 CST 2017 0 1354
基因组数据分析原始数据到变异数据(Fastq->VCF

WGS数据分析目的:检测出每个样本基因组中的变异集合(不同样本中的差异序列)WGS数据分析流程分为三步:原始数据质控 -> 数据预处理 -> 变异检测1.原始数据质控阶段:拿到原始测序数据 -> QC过滤低质量的read数据2.数据预处理阶段:read比对 -> sort ...

Sat May 30 06:20:00 CST 2020 0 771
 
粤ICP备18138465号  © 2018-2026 CODEPRJ.COM