KEGG注釋 - 碼上歡樂

相關內容簡體繁體

KEGG注釋

本文轉載自查看原文 2019-07-11 09:52 1363

在 KEGG 數據庫中，把功能相似的蛋白質歸為同一組，然后標上 KO 號。通過相似性比對，可以為未知功能的蛋白序列注釋上 KO 號。

截止到 2015 年 6 月 12 日，KEGG 數據庫中共收錄了 3,904 個完整的基因組。其中 304 個為真核生物，3,600 個為原核生物。在真核生物中，共有 299 個物種（一個物種可能不止一個基因組），分為 172 科，227 屬；在原核生物中，共有 1,858 個物種，分為 809 屬。

KEGG 對這些物種的基因序列構成了一個非冗余的 KEGG GENES 數據庫；通過 BlastKOALA 和 GhostKOALA，可對用戶提交的蛋白質序列，與 KEGG GENES 數據庫分別進行 BLAST 或 GHOSTX 相似性比對，為蛋白質序列注釋上 K number，即 KO 號。其中，GHOSTX 比對和 BLAST 比對類似，能夠檢測到分歧度較大的同源序列（remote homologues），在速度上比 BLAST 大約快 100 倍，兩者的區別是：

BlastKOALA：用於注釋高質量基因組，只能提交 5,000 - 10,000 條蛋白質序列。
GhostKOALA：用於注釋宏基因組，文件大小為 300 M 以內。

有了 KO 號，就可以重構 KEGG 數據庫中的 KEGG pathways 及其他分子網絡，然后進行其他分析。

這里以 BlastKOALA 為例，對蛋白質序列進行 KO 注釋。

分析步驟如下：

到這個網頁：http://www.kegg.jp/blastkoala/
上傳 fasta 格式的蛋白質序列

選擇物種所屬的分類單元，如這里選擇植物“plant”
選擇一個數據庫進行比對。這些數據庫由 KEGG GENES 分別在種、屬、科水平去冗余后生成。這里選“屬”水平的真核生物，如下圖右表所示，上傳的蛋白質序列限制為 7,500 條序列。
填寫自己的郵箱地址，並提交任務，開始分析。
回跳轉到這個界面，耐心等待即可。
分析完成后，會收到郵件通知。
點擊鏈接，返回如下結果。

# 功能注釋

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 KEGG pathway注釋過程 GO | KEGG的注釋是怎么來的？ AnnotationHub, clusterProfiler 進行GO，KEGG注釋 GO 和 KEGG 的區別 | GO KEGG數據庫用法 | 基因集功能注釋 | 代謝通路富集 R包對植物進行GO，KEGG注釋使用GEO數據庫來篩選差異表達基因，KOBAS進行KEGG注釋分析 KEGG PATHWAY KEGG數據庫 KEGG Pathway Anonatation KEGG數據庫介紹

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM