生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot | OMIM


rsid

common SNP的ID,一般以rs開頭,其實完全可以用坐標代替,那樣可讀性就很差了。

我們來看看一個SNP有哪些基本信息?

  • Position,最基本的,染色體,坐標,可見一個SNP就是一個基因組site
  • annotation:取決於它落到了哪一個區間,可能有多種注釋,因為一個genomic的region可以有多種注釋
  • Alleles:這個很重要,對於雙倍體,大部分只有兩個alleles,如果跟疾病有關,那一個就是protective,一個是risk allele。【一個mutation如何才能變為一個SNP?】
  • Frequency:就是一個allele在一個物種里的頻率,排第二的就是MAF,MAF太小的GWAS就分析不了了,技術限制

 

Gene ID

這個標准比較多,有Ensembl ID,HGNC ID,Entrez ID(NCBI),Refseq ID

Ensembl:https://asia.ensembl.org/index.html

HGNC:https://www.genenames.org/

Entrez:https://www.ncbi.nlm.nih.gov/gene/672 【案例】

Refseq:https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物種,很少用】

 

HUGO symbol

Gene symbol

這部分極其麻煩,急需統一。 給基因取名字是比較隨意的事情,導致一個基因在歷史上有很多Aliases [ˈeɪliəs]

https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2

在gtf文件里這個基因叫FAM208B,在VEP注釋結果里這個基因叫TASOR2,他們的ENSG ID都是ENSG00000108021【無意發現VEP的symbol有一半無法與gtf里的symbol匹配,才發現這個問題】

如果不負責任,簡單的remove掉不匹配的,也可以出結果,但會丟失掉很多信息。

接下來我就要想辦法,如何用R包來統一不同系統的symbol。

 

Multi-symbol checker 完美解決這個問題【HGNC提供】

接下來把gtf里的Previous symbol導出來,用這個工具就可以得到Approved symbol。

統計得出gtf里的34153個symbol,有11290是在HGNC里找不到名字的,其中1162個是alias,可見gene symbol的歷史復雜性,想統一是何其的難。

 

下載最新的HGNC symbol,以及對應的ENSG ID,https://www.genenames.org/download/custom/。 

 

Transcript ID

isoform

ENST

現有的ID都是已知的,由於技術的更新,這部分會飛速更新。

 

Protein ID

Uniprot ID to other ID (ENSG etc.)

Uniprot里提供了哪些信息:

  • 參與的具體的生化反應
  • 涉及到的所有化合物
  • 信息太多了,看不過來

 

發現:一個 Uniprot ID可能對應多個ENSG ID,但基因名卻是一樣的。

LOX5_HUMAN	ENSG00000012779  ALOX5
LOX5_HUMAN	ENSG00000275565  ALOX5

 這是為啥?

因為一個蛋白可能是由多個DNA序列產生的,這里就是,ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】,而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】

而且產生的transcript的名字也不一樣。

這里可以明白:一個protein對應一個gene,但一個gene可以對應多個基因組區域,而ENSG ID則可以區別不同區域的同名gene。

 

uniprot ID也存在重名的情況,但是很少。【有統一標准】

E9PEK4_HUMAN	ENSG00000182578
CSF1R_HUMAN	ENSG00000182578

 

 

OMIM ID

某個基因對應的疾病的信息

https://omim.org/entry/113705

pathology病理學,從病的角度來看一切。

看看這個數據庫里有還什么信息:

  • Cytogenetic location,細胞遺傳學位置,如:17q21.31  
  • Genomic coordinates
  • Phenotype,疾病的名字
  • 歷史研究,189篇文獻引用,相當於文獻綜述。

 

會詳解這些ID之間的相互轉換

 

待續~

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM