功能富集分析概述


基因功能的富集分析已成為高通量組學數據分析的常規手段,對於揭示生物醫學分子機制具有重要意義。關於GO、KEGG、GSEA等等這些詞,網上也有很多教程,教大家怎么做GO分析、怎么做GSEA分析等等。但我們不僅要知其然,還要知其所以然。這里,我找到兩篇富集分析的綜述,跟大家一起學習一下。

照例,先給出這兩篇文章
Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges
基因功能富集分析的研究進展


一、為什么要進行功能富集分析?

隨着高通量技術的發展,生物醫學相關研究領域進入了組學時代,單個基因的研究已經不能滿足研究人員的需要。然而,如此龐大的數據使得信息的有效提取和分析帶來了新的挑戰。以測序數據為例,測序結果分析往往會得到差異表達的基因或蛋白列表。但對許多研究人員來說,將這一長串基因或蛋白與某個待研究的生物學現象及其潛在機制聯系起來是很困難的。應對這一挑戰的一種方法就是將一個基因或者蛋白列表分成多個部分,從而減少分析的復雜度。研究人員為了解決分成哪些類,開發了多個注釋數據庫。為了解決怎么分成不同類,研究者通常會對基因功能進行富集分析, 期望發現在生物學過程中起關鍵作用的生物通路, 從而揭示和理解生物學過程的基本分子機制,在這過程中開發了多種軟件。

功能富集分析可以將成百上千個基因、蛋白或者其他分子分到不同的通路中,以減少分析的復雜度。另外,在兩種不同實驗條件下,激活的通路顯然比簡單的基因或蛋白列表更有說服力。

二、基因功能富集分析的基因功能數據庫及軟件

常用注釋數據庫:GOKEGGReactomeBiocartaMsigDB等等;
常用軟件:

 
Figure 1

 

 

三、基因功能富集分析方法

目前,功能富集分析方法主要分成四大類:

ORA: over-representation analysis 過表達分析
FCS:functional class scoring 功能集打分
PT:pathway topology 通路拓撲結構
NT:network topology 網絡拓撲結構

 
Figure 2

1. ORA法

又稱為"2X2法";
首先,獲得一組感興趣的基因(一般是差異表達基因),然后給定的基因列表與某個通路中的基因集做交集,找出其中共同的基因並進行計數(統計值),最后利用統計檢驗的方式來評估觀察的計數值是否顯著高於隨機,即待測功能 集在基因列表中是否顯著富集。最常用的統計檢驗包括:超幾何分布、卡方檢驗、二項分布。

這里常用的軟件或者網站有DAVID等;

優點

基於完備的統計學理論, 具有結果穩健、可靠的優點

缺點

(1)僅使用了基因數目信息,而沒有利用基因表達水平或表達差異值,而為了獲得感興趣或者差異表達基因,需要人為的設置閾值;
(2)ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因。在獲得感興趣的基因時, 往往需要選取合適的閾值, 而這樣有可能會丟失顯著性較低但比較關鍵的基因, 導致檢測靈敏性的降低;
(3)將基因同等對待,ORA法假設每個基因都是獨立的,忽視了基因在通路內部生物學意義的不同(如調控和被調控基因的不同)及基因間復雜的相互作用;
(4)ORA假設通路與通路間是獨立的,但這個前提假設是錯誤的。

2. FCS法

首先根據案例和對照狀態下的基 因表達譜對基因組中所有基因表達水平的差異值進行打分或排序,或直接輸入排序好的基因表達譜;其次是把待測基因功能集中的每個基因的分數通過特定的統計模型轉換為待測基因功能集的分數或統計值;最后利用隨機抽樣獲得的待測基因功能集統計值的背景分布來檢驗實際觀測的統計值的顯著水平,並判斷待測基因功能集在案例和對照實驗狀態下是否發生了統計上的顯著變化。

除了上述處理和對照組比較的方法外,FCS還有一類基於單樣本的分析方法,如PLAGE/ZSCORE/SSGSEA,這些方法的一大優點是可以通過調整相關協變量,相對簡單地分析一些非常復雜的,如包含時間進度的多樣本設計。

優點

總體而言, FCS 相較於 ORA 方法 在理論上有明顯突破, 考慮到了基因表達值的屬性 信息, 而且以待測基因功能集為對象來進行檢驗, 也 使得檢驗結果更加靈敏.

缺點

(1)與ORA類似,FCS仍獨立分析每一條通路,但同一個基因可能涉及多條通路,所以不同通路間的基因出現重疊,所以別的通路可能由於重疊的基因,也出現顯著富集;
(2)FCS 方法仍然把待測基因功能集中的每個基因作為獨立的個體, 忽略了基因的生物學屬性和基因間的復雜相互作用關系。


3. PT法

ORA和FCS方法在進行通路的富集分析時, 都將通路中的每個基因視作獨立個體,而實際上通路內的基因需要通過調控、被調控、相互作用等復雜的關系一起來影響細胞的發育、分化或疾病等生物學過程。因而,在進行通路的富集分析時,尤其是基因表達的通路富集分析時,有必要考慮到通路中基因的生物學屬性。例如,在一個調控通路中,上游基因的表達水平改變顯然要遠大於下游基因的表達水平改變對整個通路的影響。基於通路拓撲結構的PT富集分析方法就是把基因在通路中的位置(上下游關系),與其他基因的連接度和調控作用類型等信息綜合在一起來評估每個基因對通路的貢獻並給予相應的權重,然后再把基因的權重整合入功能富集分析。不同的PT方法在具體的權重打分時,采用了不同的方式。

 GO 等注釋數據庫中基因功能集中不包含任何拓撲結構信息,僅提供了可能屬於同一通路的所有基因列表。
所以,PT方法不能被用於GO通路的富集分析。

優點

對於研究較完善、拓撲結構完整的通路,基於PT的基因功能富集算法會有更強的顯著性;

缺點

對於通路拓撲結構存在依賴性,該類方法對於研究較少、信息不完善的通路穩健性較差,因此目前通路注釋的不完善也是限制基於PT的基因功能富集分析方法進一步發展的重要因素。


4. NT法

目前NT法有一些不同的思路:
(1)有一些基於生物網絡拓撲結構的富集分析方法,它們利用數據庫中的基因相互作用關系來間接地把基因的生物學屬性整合入功能的富集分析。這些方法的主要思路是利用現有的全基因組范圍的生物網絡,如HPRD、FunCoup、STRING等,來提取基因間的相互作用關系,包括基因的連接度及基因在網絡中的距離等,來計算一給定的基因列表與一待測的基因功能數據集在網絡中的連接關系,從而來推測待測基因功能集是否與給定基因列表緊密相關;如『NEA/EnrichNet等軟件』
(2)另一些方法是利用網絡拓撲結構來計算基因對特定生物通路的重要性並給予相應的權重, 然后再利用傳統的ORA 或 FCS 方法來評估特定生物通路的富集程度,如 GANPA 和 LEGO 等;
(3)有些方法是直接把基因列表中的功能富集問題利用網絡轉化為基因對的功能富集問題,如 NOA 等。

優點

與傳統方法相比,基於網絡的基因功能富集分析方法加入了系統層面的基因重要性程度及關聯信息,使得預測結果更加准確可靠。

缺點

更多信息的加入也容易導致算法過於復雜,計算速度較慢。


需要注意的是不同的方法均有其優缺點,研究人員應在對富集分析有一定了解的基礎上,選擇適當的方法。

上面的是廢話,要是真這么好選,那也不會存在100多個富集分析軟件、網站了。更多時候,大家就要常見的GO、GSEA分析就差不多夠了。



作者:生信family
鏈接:https://www.jianshu.com/p/5a4bda169247
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯系作者獲得授權並注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM