DAVID 進行 GO/KEGG 功能富集分析


何為功能富集分析?

功能富集分析是將基因或者蛋白列表分成多個部分,即將一堆基因進行分類,而這里的分類標准往往是按照基因的功能來限定的。換句話說,就是把一個基因列表中,具有相似功能的基因放到一起,並和生物學表型關聯起來。

何為GO和KEGG?

為了解決將基因按照功能進行分類的問題,科學家們開發了很多基因功能注釋數據庫,。這其中比較有名的一個就是Gene Ontology(基因本體論,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書,KEGG)。

其中,GO是基因本體論聯合會建立的一個數據庫,旨在建立一個適用於各種物種的、對基因和蛋白功能進行限定和描述的、並能夠隨着研究不斷深入而更新的語義詞匯標准。GO注釋分為三大類:分子生物學功能(Molecular Function,MF)、生物學過程(Biological Process,BP)和細胞學組分(Cellular Components,CC),通過這三個功能大類,對一個基因的功能進行多方面的限定和描述。

而KEGG,大多數人會將其當做一個基因通路(Pathway)的數據庫,其實KEGG的功能遠不止於此。KEGG是一個整合了基因組、化學和系統功能信息的綜合數據庫。KEGG下屬4個大類和17個子數據庫,而其中有一個數據庫叫做 KEGG Pathway,專門存儲不同物種中基因通路的信息,也是用的最多的一個,久而久之,KEGG被大家當做一個通路數據庫了。

下面兩個圖展示了GO和KEGG Pathway的面貌。

如何做功能富集分析?

做功能富集分析的算法有很多,能夠做功能富集分析的工具也非常多,見下面的列表

 Funrich 也可以做功能富集分析

以上的工具中,DAVID最為常用也最為權威。DAVID是由美國Leidos生物醫學研究公司的LHRI團隊開發的一個在線基因注釋及功能富集網站(https://david.ncifcrf.gov/)

使用DAVID做功能富集分析

第一步

打開DAVID官網:https://david.ncifcrf.gov/

點擊左側功能菜單:Functional Annotation

 

 

 進入到如下的頁面中,頁面中的紅框中就是進行分析所用的主要操作區域。

 

 

 第二步

進入分析頁面后,通過如下三步即可完成分析:

提交基因列表 --> 選定提交列表類型 --> 開始分析

具體操作如下:

(1) 在 "Enter Gene List" 中上傳基因列表,格式是每行一個基因。按照 DAVID 的要求,總的基因個數不得超過 3000 個。

(2) 在 “Select Identifier” 中選擇上傳的基因類型,因為我們上傳的是基因名(Gene Symbol),所以在下拉菜單中選擇 “OFFICIAL_GENE_SYMBOL”

(3) 在 “List Type” 中有兩個單選框,我們統一選擇 “Gene List” 這一項

(4) 點擊 “Submit List” 即可

 

 

 點擊 “Submit” 提交基因列表之后,經過幾秒鍾的等待,如果分析順利,就會彈出下面一個提示(如下圖所示):Please note that multiple species have been detected in your gene list. 這句話的意思就是在我們提交的基因列表中檢測到多個物種,需要我們選擇相應的物種。怎么選擇物種?點擊彈出框中的 “確定”,然后在 “List” 中的選擇相應物種,這里我們選擇 “Homo sapiens”,並點擊下方的 “Select Species” 即可。

 

 

 

 

 

第三步

操作完成后,就可以得到如下圖所示的分析結果。紅框所示折疊框中分別就是GO和KEGG的分析結果。

 

 

第四步

做完了分析,我們就來看看如何提取結果,並實現結果的可視化吧。

如下圖所示,在功能富集分析的結果中有多個折疊欄,其中 Gene_Ontology 這一折疊欄中有有三個欄目:GOTERM_BP_FAT、GOTERM_CC_FAT、GOTERM_MF_FAT 就是我們想要的 GO 功能富集分析結果。而 Pathways 里面有一個 KEGG_PATHWAY 就是我們想要的結果。如何找到 BP、CC、MF 和 KEGG 對應的詳細結果呢? 點擊每個欄目后面的 “Chart” 即可。

 

 

 點擊 “Chart” 之后,即可出現如下圖所示的結果,這里面有幾列數據分別是:Category、Term、RT、Genes、Count、%、P-Value 和 Benjamini。這幾列中我們比較關心的是:Term(GO語義)、P-Value(P值)、Count(基因數)、%(基因比例)。后面我們要解決的問題是,如何將這些結果下載下來?點擊紅框中的 Download File 即可。打開一個新的網頁,新打開的網頁就是分析結果的文本文件,可以下載或者導入到作圖軟件中進行后續的操作。

 

 

 

 

 

第五步 結果導出和可視化

 

 

閱讀文獻時,大家遇到最多的就是柱狀圖(一般是水平柱狀圖),柱子的高低與 P-value 相關,柱子越高則越顯著。

高級氣泡圖用來表征富集分析的結果,x軸是 Gene Ratio,對應的就是 DAVID 結果表格中的 % 一列;y軸是富集出來的通路或者 GO Term;點的大小表示 Gene 數;點的顏色最為重要,代表 P值的高低。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM