KEGG Pathway Anonatation


 

轉載於 

KEGG 數據庫中,把功能相似的蛋白質歸為同一組,然后標上 KO 號。通過相似性比對,可以為未知功能的蛋白序列注釋上 KO 號。通過KEGG數據庫的注釋極大的方便我們進行生物學通路的研究,可以直接查看物種某條生物學通路上基因的存在情況。

最簡單的方法是看公司給的KEGG注釋或者直接下載本物種每個基因的注釋結果(比如,植物Phytozome;動植物Ensemble),然后對應到自己的差異基因集里面。

當然如果自己的物種沒有KEGG注釋結果,那只能自己動手了!

截止到 2015 年 6 月 12 日,KEGG 數據庫中共收錄了 3,904 個完整的基因組。其中 304 個為真核生物,3,600 個為原核生物。在真核生物中,共有 299 個物種(一個物種可能不止一個基因組),分為 172 科,227 屬;在原核生物中,共有 1,858 個物種,分為 809 屬。

KEGG 對這些物種的基因序列構成了一個非冗余的 KEGG GENES 數據庫;通過 BlastKOALA 和 GhostKOALA, 可對用戶提交的蛋白質序列,與 KEGG GENES 數據庫分別進行 BLAST 或 GHOSTX 相似性比對,為蛋白質序列注釋上 K number,即 KO 號。其中,GHOSTX 比對和 BLAST 比對類似,能夠檢測到分歧度較大的同源序列(remote homologues),在速度上比 BLAST 大約快 100 倍,兩者的區別是:

  • BlastKOALA:用於注釋高質量基因組,只能提交 5,000 - 10,000 條蛋白質序列。

  • GhostKOALA:用於注釋宏基因組,文件大小為 300 M 以內。

有了 KO 號,就可以重構 KEGG 數據庫中的 KEGG pathways 及其他分子網絡,然后進行其它分析。

這里以 BlastKOALA 為例,對蛋白質序列進行 KO 注釋。

分析步驟如下:

  • 到這個網頁:http://www.kegg.jp/blastkoala/

  • 上傳 fasta 格式的蛋白質序列

      選擇物種所屬的分類單元,如這里選擇植物“plant”

選擇一個數據庫進行比對。這些數據庫由 KEGG GENES 分別在種、屬、科水平去冗余后生成。這里選“屬”水平的真核生物,如下圖右表所示,上傳的蛋白質序列限制為 7,500 條序列。

填寫自己的郵箱地址,並提交任務,開始分析

回跳轉到這個界面,耐心等待即可

分析完成后,會收到郵件通知。

點擊鏈接,返回如下結果。需要注意的是分析結果會在 7 天后刪除,所以盡快將結果下載到本地。

在這個結果界面,可以查看 pathway 等信息。

 

Reference: Kanehisa, M., Sato, Y., and Morishima, K. (2016) BlastKOALA and GhostKOALA: KEGG tools for functional characterization of genome and metagenome sequences. J. Mol. Biol. 428, 726-731.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM