原文:pysam - 多種格式基因組數據(sam/bam/vcf/bcf/cram/…)讀寫與處理模塊(python)

在開發基因組相關流程或工具時,經常需要讀取 處理和創建bam vcf bcf文件。目前已經有一些主流的處理此類格式文件的工具,如samtools picard vcftools bcftools,但此類工具集成的大多是標准功能,在編程時如果直接調用的話往往顯得不夠靈活。 本文介紹的是一個處理基因組數據的python模塊,它打包了htslib . samtools . 和 bcftools . 的核 ...

2016-09-26 12:58 0 8381 推薦指數:

查看詳情

基因組Python --PyVCF 好用的vcf文件處理

vcf文件的全稱是variant call file,即突變識別文件,它是基因組工作流程中產生的一種文件,保存的是基因組上的突變信息。通過對vcf文件進行分析,可以得到個體的變異信息。嗯,總之,這是很重要的文件,所以怎么處理它也顯得十分重要。它的文件信息如下: 文件的開頭是一堆 ...

Wed Jun 20 23:36:00 CST 2018 0 940
Pysam 處理bam文件

Pysam可用來處理bam文件 安裝: 用 pip 或者 conda即可 使用: Pysam的函數有很多,主要的讀取函數有: AlignmentFile:讀取BAM/CRAM/SAM文件 VariantFile:讀取變異數據VCF或者BCF ...

Fri Dec 06 01:03:00 CST 2019 0 469
SAM/BAM文件處理

當測序得到的fastq文件map到基因組之后,我們通常會得到一個sam或者bam為擴展名的文件。SAM的全稱是sequence alignment/map format。而BAM就是SAM的二進制文件(B取自binary)。 那么SAM文件的格式是什么樣子的呢?如果你想真實地了解SAM文件 ...

Mon Dec 12 03:46:00 CST 2016 0 5502
bam/sam格式說明

SAM輸出的結果中每一行都包括十二項通過Tab分隔(\t),從左到右分別是: 1 QNAME,序列的名字(Read的名字) 2 FLAG, 概括出一個合適的標記,各個數字分別代表 1 序列是一對序列中的一個 2 比對結果是一個pair-end比對的末端 ...

Fri Apr 08 17:24:00 CST 2016 0 6291
基因組數據分析原始數據到變異數據(Fastq->VCF

WGS數據分析目的:檢測出每個樣本基因組中的變異集合(不同樣本中的差異序列)WGS數據分析流程分為三步:原始數據質控 -> 數據處理 -> 變異檢測1.原始數據質控階段:拿到原始測序數據 -> QC過濾低質量的read數據2.數據處理階段:read比對 -> sort ...

Sat May 30 06:20:00 CST 2020 0 771
bam/sam 文件格式詳解

sam/bam 是一種序列比對格式標准,由sanger制定,是以TAB為分割符的文本格式。主要應用於測序序列mapping到基因組上的結果表示,當然也可以表示任意的多重比對結果。通常是把FASTQ文件格式的測序數據比對到對應的參考基因組版本得到的。 header 部分 sam 分為兩部分,注釋 ...

Tue Jun 01 01:27:00 CST 2021 0 1389
如何從NCBI下載基因組數據

本文關於如何在 NCBI 的 FTP 里下載需要的基因組數據。 已知信息 例如:我從文獻里看到作者測了 Escherichia coli ATCC 25922 的基因組,想從NCBI下載。 原文提供的信息是: This Whole Genome Shotgun ...

Fri Nov 24 17:59:00 CST 2017 0 9524
基因組數據

植物基因組數據庫:1、NCBI中的genome,直接下載NCBI上的基因組文件 ftp://ftp.ncbi.nlm.nih.gov/genomes/ 2、植物基因組數據庫(包含約30個左右的植物,具體查看:) 30個左右植物基因組對應列表 下載 http ...

Sun Jun 07 05:11:00 CST 2020 0 1657
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM