本文為入門級的基因調控網絡文章,主要介紹一些基本概念及常見的GRN模型。
概念:基因調控網絡 (Gene Regulatory Network, GRN),簡稱調控網絡,指細胞內或一個基因組內基因和基因之間的相互作用關系形成的網絡,特指基因調控 (gene regulation) 導致基因之間的作用。
GRN是生物體內控制基因表達的機制,基因表達的主要過程是轉錄+翻譯
GRN構建方法:
多數方法使用靜態數據來分析基因網絡,如基因表達矩陣,該矩陣是一個時刻的基因表達情況。實際上,我們需要考慮動態網絡,這樣才能逼近真實的GRN。
一些網絡模型:
1、布爾網絡
布爾網絡是一種最簡單的模型。布爾網絡中,每個基因的狀態只有“開”和“關”,“開”表示基因有表達,“關”表示基因未表達。基因間相互作用由布爾表達式表示:and, or, not,如 A and not B -> C。
該網絡過於簡化,存在局限。
2、線性模型
線性模型是一種連續的GRN模型。在線性模型中,一個基因的表達水平由若干其他基因表達水平的加權和表示,權是基因之間相互關系的定量化:正權表示基因激發,負權表示基因抑制,0權表示兩個基因沒有關系。
Xi(t+Δt)=∑wij Xj(t)+η
該網絡是一種簡單的數學模型,只能處理具有線性關系的基因表達數據,應用范圍小。
相關模型:加權矩陣模型
3、馬爾可夫模型
馬爾可夫鏈是一種隨機過程,適用於分析時間序列的基因表達數據。在馬爾可夫模型中,馬爾可夫鏈假設某一時刻的基因表達水平決定了下一時刻的基因表達水平,公式如下:
C(t)=J C(t-1)
構建GRN過程中,基於馬爾可夫模型對gene expression profile的特征提取和聚類都表現出良好的適應性。
如果要提高模型的准確性,可提高馬爾可夫模型的階數。
4、微分方程模型
微分方程模型假設一個基因為一個變量,由n個基因組成的網絡可以由如下n維微分方程表示:
dxi(t)/dt=fi(x1,x2,…,xn),xi(t)是第i個基因的表達水平,n表示網絡中的基因數。
根據生物數據和建模的不同要求,函數fi根據實際確定。通常有如下兩種形式:
fi(xj,Θij,α)=xjα/(xj+θijα)
fi(xj,α)=e-αxj/(1+e-αxj)
微分方程構建GRN的優點:強大靈活,有利於描述基因網絡中的復雜關系。
5、貝葉斯網絡模型
以貝葉斯定理和假設為理論基礎,用有向無環圖 (DAG) 的形式表示隨機變量間的概率關系,網絡中每個基因是一個節點,每個調控關系是一條邊。
該模型可以處理隨機事件,控制噪聲,可以獲得變量間的因果關系,在GRN模型中,貝葉斯網絡比其他模型更有優勢。
相關模型:神經網絡模型,圖解高斯模型
6、互信息關聯模型
互信息關聯模型用熵和互信息描述基因之間的關聯。
一個基因表達模式A的熵,P(xi)是基因表達值出現在xi的頻率,n為表達水平的區間數目。熵越大,基因表達水平越趨近隨機分布。
兩個基因表達模式之間的互信息MI(A,B)=H(A)+H(B)-H(A,B),若MI(A,B)=0,則兩個基因不相關,若MI(A,B)越大,兩個基因越非隨機相關,之間的生物關系越密切。
7、隨機方程模型
......
構建GRN模型時可參考的一些經驗:GRN是稀疏的,也就是並不是所有基因之間都有相互作用關系 [3];基因調控網絡的大多數變量是連續的,粗糙的離散化會丟失信息,精細的離散化參數太多,最好直接用連續變量 [4];
Ref:
[1]. https://baike.baidu.com/item/%E8%B0%83%E6%8E%A7%E7%BD%91%E7%BB%9C/5844691
[2]. https://wenku.baidu.com/view/34dff5ef19e8b8f67c1cb958.html
[3]. Maetschke S R, Ragan M A. Characterizing cancer subtypes as attractors of Hopfield networks[J]. Bioinformatics, 2014, 30(9): 1273-1279.
[4]. 雷耀山,史定華,王翼飛.基因調控網絡的生物信息學研究[J].自然雜志,2004(01):7-12.