常用生物信息 ID 及轉換方法


眾多不同的數據庫所采用的對 Gene 和 Protein 編號的 ID 也是不同的, 所以在使用不同數據庫數據的時候需要進行 ID 轉換.


常用數據庫 ID

ID 示例 ID 來源
ENSG00000116717 Ensemble ID
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1 HGNC Gene Symbol
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717 Entrez ID, NCBI
uc001ett, uc031tla.1 UCSC ID

Ensembl stable IDs

Ensembl stable ID 的結構是根據不同物種設置的前綴, 加上數據所指的類型, 如基因蛋白質, 再加上一系列的數字. 有的時候可以有不同的版本, 則在 Ensembl ID 后面加上小數點和版本號.

常用物種前綴

前綴 學名
ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSXET Xenopus tropicalis (Xenopus)

類型前綴

前綴 類型
E exon
FM Ensembl protein family
G gene
GT gene tree
P protein
R regulatory feature
T transcript

UniProt

UniProt 中錄入的數據都被分配了一個唯一的 entry name.

UniProtKB/Swiss-Prot entry name

UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大寫字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五個便於記憶的蛋白質編號, "_" 是下划線, "Y" 是最多五個便於記憶的物種編號.

蛋白質編號示例如下:

Code(X) Recommended protein name Gene name
B2MG Beta-2-microglobulin B2M
HBA Hemoglobin subunit alpha HBA1
INS Insulin INS
CAD17 Cadherin-17 CDH17

物種編號示例如下:

Code Species
BOVIN Bovine
CHICK Chicken
ECOLI Escherichia coli
HORSE Horse
HUMAN Homo sapiens
MAIZE Maize (Zea mays)
MOUSE Mouse
PEA Garden pea (Pisum sativum)
PIG Pig
RABIT Rabbit
RAT Rat
SHEEP Sheep
SOYBN Soybean (Glycine max)
TOBAC Common tobacco (Nicotina tabacum)
WHEAT Wheat (Triticum aestivum)
YEAST Baker’s yeast (Saccharomyces cerevisiae)

UniProtKB/TrEMBL entry name

UniProtKB/TrEMBL entry name 是最多 16 位包含大寫字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是 6 到 10 個字符組成的 accession number, "_" 是下划線, "Y" 是最多五個便於記憶的物種編號.

Accession Number

UniProtKB 的 Accession Number 相當於數據庫的主鍵, 由 6 到 10 個大寫字母或者數字組成. 其構成規律為: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}

實際上, accession number 是三種類型:

1 2 3 4 5 6 7 8 9 10
[O P Q] [0-9] [A-Z 0-9] [A-Z 0-9] [A-Z 0-9] [0-9]        
[A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]        
[A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]

如果一個條目被分成兩個, 或者多個條目合成一個, 則有相應的 accession number 繼承規則.


HUGO Gene Nomenclature Committee

Gene Symbol

Gene Symbol 是用來表示基因的編碼, 由大寫字母構成, 或由大寫字母和數字構成, 首字母均應該是字母.

如: GLA "galactosidase, alpha"; GLB "galactosidase, beta"; UGT1A1 "UDP glycosyltransferase 1 family, polypeptide A1" 再到 UGT1A13 代表了 13 個不同的 gene symbol.


NCBI

GenBank Accession Number

GenBank 的通用 accession number 通常是由一個大寫字母加上 5 個數字的組合, 或者兩個大寫字母加上 6 個數字的組合.

RefSeq Accession Number

RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 兩個大寫字母, 一個下划線, 6 個或更多的數字.

Accession 前綴 類型 說明
AC_ Genomic Complete genomic molecule, usually alternate assembly
NC_ Genomic Complete genomic molecule, usually reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGS
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence
NZ_ Genomic Unfinished WGS
NM_ mRNA  
NR_ RNA  
XM_ mRNA Predicted model
XR_ RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein Associated with an NM_ or NC_ accession
YP_ Protein  
XP_ Protein Predicted model, associated with an XM_ accession
ZP_ Protein Predicted model, annotated on NZ_ genomic records
  • WGS: Whole Genome Shotgun sequence data, 鳥槍法測序.

Entrez ID

Entrez 是 NCBI 使用的能夠對眾多數據庫進行聯合搜索的搜索引擎, 其對不同的 Gene 進行了編號, 每個 gene 的編號就是 entrez gene id. 由於 entrez id 相對穩定, 所以也被眾多其他數據庫, 如 KEGG 等采用. Entrez Gene ID 就是一系列數字, 也比較容易辨識. R 或網站都有眾多的工具可以幫助從不同的 ID 轉換為 entrez id 或者反向轉換.


UCSC ID

UCSC ID 由小寫字母和數字構成, 起始均為 uc, 然后是三位數字, 接着又是三位小寫字母, 最后有小數點和數字構成版本號.

如: uc010qfk.3, uc010qfk.3.


ID Mapping

  • Uniprot ID mapping 可以很方便地把 ID 轉換為其他 ID 類型, 所包含的類型十分全面.
  • bioDBnet 網站提供了常見的 ID 轉換的選項, 類型全面.
  • DAVID Gene ID Conversion Tool 可以把 Gene ID 轉換為多種常用類型和 DAVID ID, 方便進一步用 DAVID 做 GO 分析.
  • BridgeDB 一套提供 ID 轉換的框架.
  • Human genes converter 把常用的 Ensambl ID 或 Symbol 轉換為 Gene 的 Entrez ID.
By  @Wolfson Liu in 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM