GO 和 KEGG 的區別 | GO KEGG數據庫用法 | 基因集功能注釋 | 代謝通路富集


一直都搞不清楚這兩者的具體區別。

其實初學者搞不清楚很正常,因為它們的本質是相通的,都是對基因進行歸類注釋的數據庫。

建議初學者自己使用一下這兩個數據庫,應該很快就能明白其中的區別。

以下以一個案例來詳細說明兩者的區別:

推薦一個沒有任何基礎的人都能使用的gene set注釋工具

http://www.webgestalt.org/option.php

GCLC
TFPI
HSPB6
TSPOAP1
ITGA2B
OSBPL7
BAIAP2L1
NOS2
PAX6
CD4
PIK3C2A
PRICKLE3
RGPD5
PLEKHB1
EHD2
RRAGD
FAS
PNPLA6
ATP6V1H
RRM2B
FSTL4
LAMA3
SYNE2
SLC2A3
PSD
DGAT2
SEZ6
SLC6A16
CHI3L2
GSTO2
SEC61A2
TLE2
SLC9A7
ZMYND12
NGEF
METTL22
RASGRP2
PITX1
GAL
DRD4
PTPN3
MYO3B
LNX1
ACAP1
PANX2
LLGL2
CLCN4
FMO4
TPD52
NMRK2
MAP2
RBFOX1
MYH7B
RAPGEF3
RFX3
IGSF9B
CROCCP3
OVGP1
SNX10
HSD17B2
HSD17B14
FTL
MT3
LPCAT2
TESC
LYZ
GOLGA3
EFNB1
MYO15A
ZFHX4
JAK2
ERMP1
HSD17B7P2
CATSPERG
PICK1
ACR
PVALB
PROCR
SGK2
EEF1A2
SIRPB1
MROH8
LIPG
LAMA1
NOL4
GPR143

 把以上gene copy到txt里,命名為gene.txt 

選項如下:

提交。。。

結果如下:

這是一種GO的分析結果,可以看到我們的基因被歸類到一個一個的叫GO term的東西里。

GO數據庫是一個樹狀的結構,頂層有三個根節點,分別問:BP,MF和CC。(具體是啥百度一下即可知)

同樣我們把 Select Functional Database 改成 “pathway”,選“KEGG”就可以做道謝通路富集了。

KEGG數據庫是網狀的,由很多張以下的圖組成,都是人工注釋的。

 

以上使用的都是ORA方法,還有一種著名的工具叫做GSEA (Select Method of Interest里選擇)。

GSEA 還可以利用每個基因的 rank 信息,來做富集分析。

 

總結一下:

GO數據庫的基礎就是一個一個的GO term,它們是樹狀的結構,存在冗余。GO database的root node有三個,分別為BP、CC、MF。KEGG就是人工注釋的一張又一張代謝通路,是網狀的。

GO term是一個純粹的基因集,沒有定義里面基因的相互關系;KEGG不僅有基因集,還定義了基因和代謝物之間的復雜的相互關系,所以才能叫做pathway。

論相似性,從純基因集的角度,GO的BP和KEGG有較高的相似性。

 

進階推薦:

想用R做GO和KEGG注釋的可以看我的其他文章。

GO | KEGG的注釋是怎么來的?

R獲取指定GO term和KEGG pathway的gene list基因集

GSEA - Gene set enrichment analysis 基因集富集 | ORA - Over-Representation Analysis

 

參考:

一文掌握GO和pathway分析


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM