生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot

生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot | OMIM

本文轉載自查看原文 2021-03-10 15:05 574 工具

rsid

common SNP的ID，一般以rs開頭，其實完全可以用坐標代替，那樣可讀性就很差了。

https://www.ncbi.nlm.nih.gov/snp/
https://www.ncbi.nlm.nih.gov/snp/rs223337 【案例】

我們來看看一個SNP有哪些基本信息？

Position，最基本的，染色體，坐標，可見一個SNP就是一個基因組site
annotation：取決於它落到了哪一個區間，可能有多種注釋，因為一個genomic的region可以有多種注釋
Alleles：這個很重要，對於雙倍體，大部分只有兩個alleles，如果跟疾病有關，那一個就是protective，一個是risk allele。【一個mutation如何才能變為一個SNP？】
Frequency：就是一個allele在一個物種里的頻率，排第二的就是MAF，MAF太小的GWAS就分析不了了，技術限制

Gene ID

這個標准比較多，有Ensembl ID，HGNC ID，Entrez ID（NCBI），Refseq ID

Ensembl：https://asia.ensembl.org/index.html

HGNC：https://www.genenames.org/

Entrez：https://www.ncbi.nlm.nih.gov/gene/672 【案例】

Refseq：https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物種，很少用】

HUGO symbol

Gene symbol

這部分極其麻煩，急需統一。給基因取名字是比較隨意的事情，導致一個基因在歷史上有很多Aliases [ˈeɪliəs]

https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2

在gtf文件里這個基因叫FAM208B，在VEP注釋結果里這個基因叫TASOR2，他們的ENSG ID都是ENSG00000108021【無意發現VEP的symbol有一半無法與gtf里的symbol匹配，才發現這個問題】

如果不負責任，簡單的remove掉不匹配的，也可以出結果，但會丟失掉很多信息。

接下來我就要想辦法，如何用R包來統一不同系統的symbol。

Multi-symbol checker 完美解決這個問題【HGNC提供】

接下來把gtf里的Previous symbol導出來，用這個工具就可以得到Approved symbol。

統計得出gtf里的34153個symbol，有11290是在HGNC里找不到名字的，其中1162個是alias，可見gene symbol的歷史復雜性，想統一是何其的難。

下載最新的HGNC symbol，以及對應的ENSG ID，https://www.genenames.org/download/custom/。

Transcript ID

isoform

ENST

現有的ID都是已知的，由於技術的更新，這部分會飛速更新。

Protein ID

Uniprot ID to other ID (ENSG etc.)

https://www.uniprot.org/uploadlists/【ID轉換】
https://www.uniprot.org/uniprot/P09917 【案例】

Uniprot里提供了哪些信息：

參與的具體的生化反應
涉及到的所有化合物
信息太多了，看不過來

發現：一個 Uniprot ID可能對應多個ENSG ID，但基因名卻是一樣的。

LOX5_HUMAN	ENSG00000012779  ALOX5
LOX5_HUMAN	ENSG00000275565  ALOX5

　這是為啥？

因為一個蛋白可能是由多個DNA序列產生的，這里就是，ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】，而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】

而且產生的transcript的名字也不一樣。

這里可以明白：一個protein對應一個gene，但一個gene可以對應多個基因組區域，而ENSG ID則可以區別不同區域的同名gene。

uniprot ID也存在重名的情況，但是很少。【有統一標准】

E9PEK4_HUMAN	ENSG00000182578
CSF1R_HUMAN	ENSG00000182578

OMIM ID

某個基因對應的疾病的信息

https://omim.org/entry/113705

pathology病理學，從病的角度來看一切。

看看這個數據庫里有還什么信息：

Cytogenetic location，細胞遺傳學位置，如：17q21.31
Genomic coordinates
Phenotype，疾病的名字
歷史研究，189篇文獻引用，相當於文獻綜述。

會詳解這些ID之間的相互轉換

待續~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 生物信息類期刊全集大全常用生物信息 ID 及轉換方法 NCBI的gene id, ENTREZID 與Ensembl Gene ID的轉換生物信息 perl 腳本實戰【生物信息】RPKM, FPKM和TPM gene ID轉換（gene ID轉為protein ID） pathway注釋 string數據庫的方法 UniProt 生物信息bowtie比對軟件的結果格式說明生物信息常用數據庫集錦生物信息Python-從入門到精通？生物信息軟件安裝（不定時更新）