在數據分析中,經常需要下載物種的參考基因組序列,這時有很多數據庫可以選擇,比如NCBI, Ensembl, UCSC這三個通用的數據庫,或者該物種特有的數據庫,
比如模式生物擬南芥等有專門的數據庫。
在NCBI, Ensembl 和 UCSC中對於同一個物種,編號不統一,在這里整理一下它們之間的關系,以人類基因組為例:
在NCBI中,對於不同的拼裝版本,以NCBI Build Number 進行區分,而相同的版本之間又有微小的區別,以Version 表示不同的小版本,
在下面的連接中可以看到人類基因組之前的版本,
比如BUILD.36.1, NCBI Build Number 為36, Version 為1, 從BUILD 37.1 開始,又有了新的命名方式,GRCh37
有個CRC的組織(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/),該組織是由EBI,NCBI等組織聯合起來的學術團體,對基因組的不同拼裝版本進行簡短而統一的命名,h表示人類,37
表示版本號,對於同一個版本,會有小的修改,此時用p加上編號進行標識,比如Build 37.3 又命名為GRCh37.p5 ,p代表patch, 補丁;
目前比較常用的版本有GRCh37 和CRCh38 兩個版本;
在Ensembl 中,有不同的release ,比如
人類基因組從release-76到release-83對應 GRCh38, 從release-55到release-75對應GRCh37
這個從命名方式可以看出來,以release-83為例:
人類基因組第一條染色體命名為 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼裝的版本
在UCSC中,
hg38對應GRCh38
hg19對應GRCh37
還有一點需要注意的是, Ensembl下載下來的fasta序列, 其標識符中不包含chr,
比如人類基因組1號染色體,在UCSC和NCBI中下載下來的標識符為>chr1,而Ensembl 中為>1