HGNC 全稱為HUGO Gene Nomenclature Committee, 叫做 HUGO基因命名委員會,負責對人類基因組上包括蛋白編碼基因, ncRNA基因,甲基因和其他基因在內的所有基因提供一個唯一的,標准的,可以廣泛傳播的symbol;
數據庫的主頁為 http://www.genenames.org/
對於每個human的基因來說,在HGNC數據庫中會有一個數字標識的唯一ID, 也會有一個唯一的symbol,
HCNC數據庫提供了免費下載的功能;
下載對應的鏈接,命令為
lftp -c "pget -n 20 ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt"
查看下載內容,可以如下的字段信息,以第一行為例,解釋下每個字段的含義:
后面的其他字段都是對應的其他數據庫信息,在分析時,我們經常使用的就是基因的symbol, 對於human 來說, 這個symbol 就是來源於HGNC 數據庫
以 "A1BG" 這個symbol 為例, 在NCBI的GENE 數據庫中進行檢索,結果如下:
https://www.ncbi.nlm.nih.gov/gene/1
可以看到official Symbol 來源於HGNC 數據庫,對應的HGNC數據庫中的ID為5,其他的信息也能夠和HGNC數據庫中的進行對應;
對於整個HGNC 數據庫來說,和其他數據庫的鏈接也為我們的研究提供了遍歷,對於不同類型的基因,提供的參考數據庫也不一樣;
1)蛋白編碼基因
對於蛋白編碼基因來說,HGNC提供了其編碼的蛋白質在uniprot 數據庫中的ID, eg
"A1BG" 編碼的蛋白質在uniprot 數據庫中的ID 為 P04217;
2) lncRNA 基因
對於lncRNA 基因而言,HCNC 提供了lncRNAdb 中的相關信息, eg
"TP53COR1" 對應的lncRNAdb 數據庫中的ID為 "lincRNA-p21"
3)microRNA 基因
對於microRNA 基因而言,HGNC提供了mirbase 數據庫中的信息 eg
"MIR1-1" 對應的mirbase 數據庫中的ID為"MI0000651"
上述只是對研究的較多的幾種基因給出了相關說明,其實還有很多其他類型的基因,給出的參考信息也是類似的