原文:基因組與Python --PyVCF 好用的vcf文件處理器

vcf文件的全稱是variant call file,即突變識別文件,它是基因組工作流程中產生的一種文件,保存的是基因組上的突變信息。通過對vcf文件進行分析,可以得到個體的變異信息。嗯,總之,這是很重要的文件,所以怎么處理它也顯得十分重要。它的文件信息如下: 文件的開頭是一堆以 開始的注釋行,包含了文件的基本信息。然后是以 開頭的一行,共 n個部分,前九部分標注的是后面行每部分代表的信息,相當於 ...

2018-06-20 15:36 0 940 推薦指數:

查看詳情

pysam - 多種格式基因組數據(sam/bam/vcf/bcf/cram/…)讀寫與處理模塊(python

在開發基因組相關流程或工具時,經常需要讀取、處理和創建bam、vcf、bcf文件。目前已經有一些主流的處理此類格式文件的工具,如samtools、picard、vcftools、bcftools,但此類工具集成的大多是標准功能,在編程時如果直接調用的話往往顯得不夠靈活。 本文介紹的是一個處理 ...

Mon Sep 26 20:58:00 CST 2016 0 8381
VCF文件處理工具PyVCF

vcf格式示例 ##fileformat=VCFv4.1 ##FILTER=<ID=LowQual,Description=”Low quality”> ##FORMAT=<ID=AD,Number=.,Type=Integer,Description ...

Thu Jul 19 04:52:00 CST 2018 0 1529
基因組注釋

基因組注釋主要包括四個研究方向:重復序列的識別;非編碼RNA的預測;基因結構預測和基因功能注釋。我們將分別對這四個領域進行闡述。 1 重復序列的識別。 1.1 重復序列的研究背景和意義:重復序列可分為串聯重復序列(Tendam repeat)和散在重復序列 ...

Mon Jan 11 19:48:00 CST 2016 0 4001
參考基因組

Reference Consortium Human Build 38),GRCh38 在UCSC基因組瀏覽中還有個 ...

Sat Jun 12 20:52:00 CST 2021 0 1267
【轉錄入門】4:參考基因組和注釋文件

作業要求: 在UCSC下載hg19參考基因組,我博客有詳細說明,從gencode數據庫下載基因注釋文件,並且用IGV去查看你感興趣的基因的結構,比如TP53,KRAS,EGFR等等。 作業,截圖幾個基因的IGV可視化結構!還可以下載ENSEMBL,NCBI的gtf,也導入IGV看看,截圖基因結構 ...

Sun Jul 01 05:27:00 CST 2018 0 9768
基因組數據分類並寫出文件python,awk,R data.table速度PK

由於基因組數據過大,想進一步用R語言處理擔心系統內存不夠,因此想着將文件按染色體拆分,發現python,awk,R 語言都能夠非常簡單快捷的實現,那么速度是否有差距呢,因此在跑幾個50G的大文件之前,先用了244MB的數據對各個腳本進行測試,並且將其速度進行對比。 首先是awk處理 ...

Sun Mar 26 18:01:00 CST 2017 0 1354
基因組數據分析原始數據到變異數據(Fastq->VCF

WGS數據分析目的:檢測出每個樣本基因組中的變異集合(不同樣本中的差異序列)WGS數據分析流程分為三步:原始數據質控 -> 數據預處理 -> 變異檢測1.原始數據質控階段:拿到原始測序數據 -> QC過濾低質量的read數據2.數據預處理階段:read比對 -> sort ...

Sat May 30 06:20:00 CST 2020 0 771
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM