人類基因組在三大基因數據庫中的不同版本


在數據分析中,經常需要下載物種的參考基因組序列,這時有很多數據庫可以選擇,比如NCBI, Ensembl, UCSC這三個通用的數據庫,或者該物種特有的數據庫,

比如模式生物擬南芥等有專門的數據庫。

在NCBI, Ensembl 和 UCSC中對於同一個物種,編號不統一,在這里整理一下它們之間的關系,以人類基因組為例:

在NCBI中,對於不同的拼裝版本,以NCBI Build Number 進行區分,而相同的版本之間又有微小的區別,以Version 表示不同的小版本,

在下面的連接中可以看到人類基因組之前的版本,

比如BUILD.36.1, NCBI Build Number 為36, Version 為1, 從BUILD 37.1 開始,又有了新的命名方式,GRCh37

有個CRC的組織(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/),該組織是由EBI,NCBI等組織聯合起來的學術團體,對基因組的不同拼裝版本進行簡短而統一的命名,h表示人類,37

表示版本號,對於同一個版本,會有小的修改,此時用p加上編號進行標識,比如Build 37.3 又命名為GRCh37.p5 ,p代表patch, 補丁;

目前比較常用的版本有GRCh37 和CRCh38 兩個版本;

在Ensembl 中,有不同的release ,比如

人類基因組從release-76到release-83對應 GRCh38, 從release-55到release-75對應GRCh37

這個從命名方式可以看出來,以release-83為例:

人類基因組第一條染色體命名為 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼裝的版本

 

在UCSC中,

hg38對應GRCh38

hg19對應GRCh37

還有一點需要注意的是, Ensembl下載下來的fasta序列, 其標識符中不包含chr,

比如人類基因組1號染色體,在UCSC和NCBI中下載下來的標識符為>chr1,而Ensembl 中為>1

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM