眾多不同的數據庫所采用的對 Gene 和 Protein 編號的 ID 也是不同的, 所以在使用不同數據庫數據的時候需要進行 ID 轉換.
常用數據庫 ID
ID 示例 | ID 來源 |
---|---|
ENSG00000116717 | Ensemble ID |
GA45A_HUMAN | UniProtKB/Swiss-Prot, entry name |
A5PJB2_BOVIN | UniProtKB/TrEMBL, entry name |
A2BC19, P12345, A0A022YWF9 | UniProt, accession number |
GLA, GLB, UGT1A1 | HGNC Gene Symbol |
U12345, AF123456 | GenBank, NCBI, accession number |
NT_123456, NM_123456, NP_123456 | RefSeq, NCBI, accession number |
10598, 717 | Entrez ID, NCBI |
uc001ett, uc031tla.1 | UCSC ID |
Ensembl stable IDs
Ensembl stable ID 的結構是根據不同物種設置的前綴, 加上數據所指的類型, 如基因蛋白質, 再加上一系列的數字. 有的時候可以有不同的版本, 則在 Ensembl ID 后面加上小數點和版本號.
常用物種前綴
前綴 | 學名 |
---|---|
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
類型前綴
前綴 | 類型 |
---|---|
E | exon |
FM | Ensembl protein family |
G | gene |
GT | gene tree |
P | protein |
R | regulatory feature |
T | transcript |
UniProt
UniProt 中錄入的數據都被分配了一個唯一的 entry name.
UniProtKB/Swiss-Prot entry name
UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大寫字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五個便於記憶的蛋白質編號, "_" 是下划線, "Y" 是最多五個便於記憶的物種編號.
蛋白質編號示例如下:
Code(X) | Recommended protein name | Gene name |
---|---|---|
B2MG | Beta-2-microglobulin | B2M |
HBA | Hemoglobin subunit alpha | HBA1 |
INS | Insulin | INS |
CAD17 | Cadherin-17 | CDH17 |
物種編號示例如下:
Code | Species |
---|---|
BOVIN | Bovine |
CHICK | Chicken |
ECOLI | Escherichia coli |
HORSE | Horse |
HUMAN | Homo sapiens |
MAIZE | Maize (Zea mays) |
MOUSE | Mouse |
PEA | Garden pea (Pisum sativum) |
PIG | Pig |
RABIT | Rabbit |
RAT | Rat |
SHEEP | Sheep |
SOYBN | Soybean (Glycine max) |
TOBAC | Common tobacco (Nicotina tabacum) |
WHEAT | Wheat (Triticum aestivum) |
YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name 是最多 16 位包含大寫字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是 6 到 10 個字符組成的 accession number, "_" 是下划線, "Y" 是最多五個便於記憶的物種編號.
Accession Number
UniProtKB 的 Accession Number 相當於數據庫的主鍵, 由 6 到 10 個大寫字母或者數字組成. 其構成規律為: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}
實際上, accession number 是三種類型:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|
[O P Q] | [0-9] | [A-Z 0-9] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] |
如果一個條目被分成兩個, 或者多個條目合成一個, 則有相應的 accession number 繼承規則.
HUGO Gene Nomenclature Committee
Gene Symbol
Gene Symbol 是用來表示基因的編碼, 由大寫字母構成, 或由大寫字母和數字構成, 首字母均應該是字母.
如: GLA "galactosidase, alpha"; GLB "galactosidase, beta"; UGT1A1 "UDP glycosyltransferase 1 family, polypeptide A1" 再到 UGT1A13 代表了 13 個不同的 gene symbol.
NCBI
GenBank Accession Number
GenBank 的通用 accession number 通常是由一個大寫字母加上 5 個數字的組合, 或者兩個大寫字母加上 6 個數字的組合.
RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}
, 兩個大寫字母, 一個下划線, 6 個或更多的數字.
Accession 前綴 | 類型 | 說明 |
---|---|---|
AC_ | Genomic | Complete genomic molecule, usually alternate assembly |
NC_ | Genomic | Complete genomic molecule, usually reference assembly |
NG_ | Genomic | Incomplete genomic region |
NT_ | Genomic | Contig or scaffold, clone-based or WGS |
NW_ | Genomic | Contig or scaffold, primarily WGS |
NS_ | Genomic | Environmental sequence |
NZ_ | Genomic | Unfinished WGS |
NM_ | mRNA | |
NR_ | RNA | |
XM_ | mRNA | Predicted model |
XR_ | RNA | Predicted model |
AP_ | Protein | Annotated on AC_ alternate assembly |
NP_ | Protein | Associated with an NM_ or NC_ accession |
YP_ | Protein | |
XP_ | Protein | Predicted model, associated with an XM_ accession |
ZP_ | Protein | Predicted model, annotated on NZ_ genomic records |
- WGS: Whole Genome Shotgun sequence data, 鳥槍法測序.
Entrez ID
Entrez 是 NCBI 使用的能夠對眾多數據庫進行聯合搜索的搜索引擎, 其對不同的 Gene 進行了編號, 每個 gene 的編號就是 entrez gene id. 由於 entrez id 相對穩定, 所以也被眾多其他數據庫, 如 KEGG 等采用. Entrez Gene ID 就是一系列數字, 也比較容易辨識. R 或網站都有眾多的工具可以幫助從不同的 ID 轉換為 entrez id 或者反向轉換.
UCSC ID
UCSC ID 由小寫字母和數字構成, 起始均為 uc, 然后是三位數字, 接着又是三位小寫字母, 最后有小數點和數字構成版本號.
如: uc010qfk.3, uc010qfk.3.
ID Mapping
- Uniprot ID mapping 可以很方便地把 ID 轉換為其他 ID 類型, 所包含的類型十分全面.
- bioDBnet 網站提供了常見的 ID 轉換的選項, 類型全面.
- DAVID Gene ID Conversion Tool 可以把 Gene ID 轉換為多種常用類型和 DAVID ID, 方便進一步用 DAVID 做 GO 分析.
- BridgeDB 一套提供 ID 轉換的框架.
- Human genes converter 把常用的 Ensambl ID 或 Symbol 轉換為 Gene 的 Entrez ID.