rsid
common SNP的ID,一般以rs開頭,其實完全可以用坐標代替,那樣可讀性就很差了。
我們來看看一個SNP有哪些基本信息?
- Position,最基本的,染色體,坐標,可見一個SNP就是一個基因組site
- annotation:取決於它落到了哪一個區間,可能有多種注釋,因為一個genomic的region可以有多種注釋
- Alleles:這個很重要,對於雙倍體,大部分只有兩個alleles,如果跟疾病有關,那一個就是protective,一個是risk allele。【一個mutation如何才能變為一個SNP?】
- Frequency:就是一個allele在一個物種里的頻率,排第二的就是MAF,MAF太小的GWAS就分析不了了,技術限制
Gene ID
這個標准比較多,有Ensembl ID,HGNC ID,Entrez ID(NCBI),Refseq ID
Ensembl:https://asia.ensembl.org/index.html
HGNC:https://www.genenames.org/
Entrez:https://www.ncbi.nlm.nih.gov/gene/672 【案例】
Refseq:https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物種,很少用】
HUGO symbol
Gene symbol
這部分極其麻煩,急需統一。 給基因取名字是比較隨意的事情,導致一個基因在歷史上有很多Aliases [ˈeɪliəs]
https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2
在gtf文件里這個基因叫FAM208B,在VEP注釋結果里這個基因叫TASOR2,他們的ENSG ID都是ENSG00000108021【無意發現VEP的symbol有一半無法與gtf里的symbol匹配,才發現這個問題】
如果不負責任,簡單的remove掉不匹配的,也可以出結果,但會丟失掉很多信息。
接下來我就要想辦法,如何用R包來統一不同系統的symbol。
Multi-symbol checker 完美解決這個問題【HGNC提供】
接下來把gtf里的Previous symbol導出來,用這個工具就可以得到Approved symbol。
統計得出gtf里的34153個symbol,有11290是在HGNC里找不到名字的,其中1162個是alias,可見gene symbol的歷史復雜性,想統一是何其的難。
下載最新的HGNC symbol,以及對應的ENSG ID,https://www.genenames.org/download/custom/。
Transcript ID
isoform
ENST
現有的ID都是已知的,由於技術的更新,這部分會飛速更新。
Protein ID
Uniprot ID to other ID (ENSG etc.)
Uniprot里提供了哪些信息:
- 參與的具體的生化反應
- 涉及到的所有化合物
- 信息太多了,看不過來
發現:一個 Uniprot ID可能對應多個ENSG ID,但基因名卻是一樣的。
LOX5_HUMAN ENSG00000012779 ALOX5 LOX5_HUMAN ENSG00000275565 ALOX5
這是為啥?
因為一個蛋白可能是由多個DNA序列產生的,這里就是,ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】,而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】
而且產生的transcript的名字也不一樣。
這里可以明白:一個protein對應一個gene,但一個gene可以對應多個基因組區域,而ENSG ID則可以區別不同區域的同名gene。
uniprot ID也存在重名的情況,但是很少。【有統一標准】
E9PEK4_HUMAN ENSG00000182578 CSF1R_HUMAN ENSG00000182578
OMIM ID
某個基因對應的疾病的信息
pathology病理學,從病的角度來看一切。
看看這個數據庫里有還什么信息:
- Cytogenetic location,細胞遺傳學位置,如:17q21.31
- Genomic coordinates
- Phenotype,疾病的名字
- 歷史研究,189篇文獻引用,相當於文獻綜述。
會詳解這些ID之間的相互轉換
待續~