人類基因組在三大基因數據庫中的不同版本

本文轉載自查看原文 2016-02-14 17:49 5823

在數據分析中，經常需要下載物種的參考基因組序列，這時有很多數據庫可以選擇，比如NCBI, Ensembl, UCSC這三個通用的數據庫，或者該物種特有的數據庫，

比如模式生物擬南芥等有專門的數據庫。

在NCBI, Ensembl 和 UCSC中對於同一個物種，編號不統一，在這里整理一下它們之間的關系，以人類基因組為例：

在NCBI中，對於不同的拼裝版本，以NCBI Build Number 進行區分，而相同的版本之間又有微小的區別，以Version 表示不同的小版本，

在下面的連接中可以看到人類基因組之前的版本，

比如BUILD.36.1, NCBI Build Number 為36， Version 為1，從BUILD 37.1 開始，又有了新的命名方式，GRCh37

有個CRC的組織(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/)，該組織是由EBI,NCBI等組織聯合起來的學術團體，對基因組的不同拼裝版本進行簡短而統一的命名，h表示人類，37

表示版本號，對於同一個版本，會有小的修改，此時用p加上編號進行標識，比如Build 37.3 又命名為GRCh37.p5 ，p代表patch, 補丁；

目前比較常用的版本有GRCh37 和CRCh38 兩個版本；

在Ensembl 中，有不同的release ,比如

人類基因組從release-76到release-83對應 GRCh38, 從release-55到release-75對應GRCh37

這個從命名方式可以看出來，以release-83為例：

人類基因組第一條染色體命名為 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼裝的版本

在UCSC中，

hg38對應GRCh38

hg19對應GRCh37

還有一點需要注意的是， Ensembl下載下來的fasta序列, 其標識符中不包含chr，

比如人類基因組1號染色體，在UCSC和NCBI中下載下來的標識符為>chr1,而Ensembl 中為>1

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HGNC 數據庫-人類基因組數據庫人類基因組概況--整理用Annovar注釋非人類基因組，如小鼠mm9 抗性基因數據庫CARD介紹 FunGene 功能基因數據庫基因組數據庫人類線粒體基因組簡介如何識別自己基因組數據是哪個全基因組參考版本（Genome Reference Versions/ Genome Build）千人基因組計划數據庫下載某段區域SNP 基因組注釋