一直都搞不清楚這兩者的具體區別。
其實初學者搞不清楚很正常,因為它們的本質是相通的,都是對基因進行歸類注釋的數據庫。
建議初學者自己使用一下這兩個數據庫,應該很快就能明白其中的區別。
以下以一個案例來詳細說明兩者的區別:
推薦一個沒有任何基礎的人都能使用的gene set注釋工具
http://www.webgestalt.org/option.php
GCLC TFPI HSPB6 TSPOAP1 ITGA2B OSBPL7 BAIAP2L1 NOS2 PAX6 CD4 PIK3C2A PRICKLE3 RGPD5 PLEKHB1 EHD2 RRAGD FAS PNPLA6 ATP6V1H RRM2B FSTL4 LAMA3 SYNE2 SLC2A3 PSD DGAT2 SEZ6 SLC6A16 CHI3L2 GSTO2 SEC61A2 TLE2 SLC9A7 ZMYND12 NGEF METTL22 RASGRP2 PITX1 GAL DRD4 PTPN3 MYO3B LNX1 ACAP1 PANX2 LLGL2 CLCN4 FMO4 TPD52 NMRK2 MAP2 RBFOX1 MYH7B RAPGEF3 RFX3 IGSF9B CROCCP3 OVGP1 SNX10 HSD17B2 HSD17B14 FTL MT3 LPCAT2 TESC LYZ GOLGA3 EFNB1 MYO15A ZFHX4 JAK2 ERMP1 HSD17B7P2 CATSPERG PICK1 ACR PVALB PROCR SGK2 EEF1A2 SIRPB1 MROH8 LIPG LAMA1 NOL4 GPR143
把以上gene copy到txt里,命名為gene.txt
選項如下:
提交。。。
結果如下:
這是一種GO的分析結果,可以看到我們的基因被歸類到一個一個的叫GO term的東西里。
GO數據庫是一個樹狀的結構,頂層有三個根節點,分別問:BP,MF和CC。(具體是啥百度一下即可知)
同樣我們把 Select Functional Database 改成 “pathway”,選“KEGG”就可以做道謝通路富集了。
KEGG數據庫是網狀的,由很多張以下的圖組成,都是人工注釋的。
以上使用的都是ORA方法,還有一種著名的工具叫做GSEA (Select Method of Interest里選擇)。
GSEA 還可以利用每個基因的 rank 信息,來做富集分析。
總結一下:
GO數據庫的基礎就是一個一個的GO term,它們是樹狀的結構,存在冗余。GO database的root node有三個,分別為BP、CC、MF。KEGG就是人工注釋的一張又一張代謝通路,是網狀的。
GO term是一個純粹的基因集,沒有定義里面基因的相互關系;KEGG不僅有基因集,還定義了基因和代謝物之間的復雜的相互關系,所以才能叫做pathway。
論相似性,從純基因集的角度,GO的BP和KEGG有較高的相似性。
進階推薦:
想用R做GO和KEGG注釋的可以看我的其他文章。
R獲取指定GO term和KEGG pathway的gene list基因集
GSEA - Gene set enrichment analysis 基因集富集 | ORA - Over-Representation Analysis
參考: