-
DAVID網站提供了id轉換的功能
- 1 選擇上傳gene list文件
- 2 選擇上傳ID的類型,我們ID-list.txt中的是Ensembl Gene ID,所以這里選ENSEMBL_GENE_ID
- 3 這個是類型,因為只做ID轉換,所以選Gene List就ok了
- 4 選擇你要轉換的ID類型,這里我選的ENTREZ_GENE_ID
- 5 然后選擇提交就ok了
-
- 1 輸入文件ID類型
- 2 輸出ID類型,這里的Gene ID就是指ENTREZ GENE ID
- 3 輸入ID列表,點擊確定。測試的時候發現輸出的結果不會超過5000個ID,如果需要轉換的id比較多可以考慮分割文件再轉換
3.ENSEMBL biomart
ensembl的官方網站提供的工具,ID轉換比較齊全,而且除了轉換ID之外,還有其他有意思的功能(留給你們自己去挖掘了),缺點就是不能做大量的ID轉化,不過2000應該能行吧。
- 1 選擇數據庫:Ensembl Gene 86,Homo sapiens就ok
- 2,3 過濾,主要是輸入要轉換的ID,選擇Ensembl Gene ID,將ID-list.txt導進去,如果想獲取這個物種所有的對應關系,那么久什么都不用選;
- 4 attribute,主要是選擇輸出的內容,這里作為ID轉換,輸出就是Ensembl Gene ID和ENTREZ GENE ID就行。
- 5 設置完了以后最后點擊results就會返回結果了。
4 從NCBI下載Gene ID 對應Ensemble ID的文件,寫腳本進行轉換ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/
Ensembl的Gene ID想要得到它的GENE Symbol的時候,一轉換之后就有些對應不上了,有的Ensembl Gene ID對應不上Gene Symbol了,其實這是正常的,因為Ensembl屬於EMBL-EBI,也就是歐洲生物信息學中心,NCBI屬於美國生物信息學中心,他們對於基因組注釋肯定是不同的,但是比較公認的一個觀點是Ensembl Gene ID的注釋更加詳細,所以會出現一個Ensembl Gene ID對應幾個Entrez Gene ID(Gene Symbol),或者一個Entrez Gene ID對應幾個Ensembl Gene ID也是可能的,而我在對測序數據進行注釋的時候幾乎都是選用Ensembl提供的參考序列以及注釋文件,一般不用NCBI的。
參考博客:http://blog.163.com/bioinfo_wen/blog/static/234301034201610510153827/