詳解WGCNA

本文轉載自查看原文 2019-09-02 21:26 1064 WGCNA/ 共表達分析

建議查資料來源：

1、微信搜索，很多公眾號寫的比較全

2、 CSDN代碼解讀比較好，相關小點也說的比較好。報錯代碼一部分也能查到。

3、博客園

4、簡書

5、谷歌

一、了解到底什么是WGCNA。

先通讀了解相關概念。先不要去糾結代碼。看最基礎的概念就好，實在理解不了，那，那就算了叭，畢竟后面視頻還是會講的，逃不過的……但是WGCNA分析大概一個什么流程是的知道的。

加權基因共表達網絡分析 (WGCNA, Weighted correlation network analysis)是用來描述不同樣品之間基因關聯模式的系統生物學方法，可以用來鑒定高度協同變化的基因集, 並根據基因集的內連性和基因集與表型之間的關聯鑒定候補生物標記基因或治療靶點。

相比於只關注差異表達的基因，WGCNA利用數千或近萬個變化最大的基因或全部基因的信息識別感興趣的基因集，並與表型進行顯著性關聯分析。一是充分利用了信息，二是把數千個基因與表型的關聯轉換為數個基因集與表型的關聯，免去了多重假設檢驗校正的問題。

理解WGCNA，需要先理解下面幾個術語和它們在WGCNA中的定義。

共表達網絡：定義為加權基因網絡。點代表基因，邊代表基因表達相關性。加權是指對相關性值進行冥次運算(冥次的值也就是軟閾值 (power, pickSoftThreshold這個函數所做的就是確定合適的power))。無向網絡的邊屬性計算方式為abs(cor(genex, geney)) ^ power；有向網絡的邊屬性計算方式為(1+cor(genex, geney)/2) ^ power; sign hybrid的邊屬性計算方式為cor(genex, geney)^power if cor>0 else 0。這種處理方式強化了強相關，弱化了弱相關或負相關，使得相關性數值更符合無標度網絡特征，更具有生物意義。如果沒有合適的power，一般是由於部分樣品與其它樣品因為某種原因差別太大導致的，可根據具體問題移除部分樣品或查看后面的經驗值。
Module(模塊)：高度內連的基因集。在無向網絡中，模塊內是高度相關的基因。在有向網絡中，模塊內是高度正相關的基因。把基因聚類成模塊后，可以對每個模塊進行三個層次的分析：1. 功能富集分析查看其功能特征是否與研究目的相符；2. 模塊與性狀進行關聯分析，找出與關注性狀相關度最高的模塊；3. 模塊與樣本進行關聯分析，找到樣品特異高表達的模塊。

Connectivity (連接度)：類似於網絡中 “度” (degree)的概念。每個基因的連接度是與其相連的基因的邊屬性之和。
Module eigengene E: 給定模型的第一主成分，代表整個模型的基因表達譜。這個是個很巧妙的梳理，我們之前講過PCA分析的降維作用，之前主要是拿來做可視化，現在用到這個地方，很好的用一個向量代替了一個矩陣，方便后期計算。(降維除了PCA，還可以看看tSNE)
Intramodular connectivity: 給定基因與給定模型內其他基因的關聯度，判斷基因所屬關系。
Module membership: 給定基因表達譜與給定模型的eigengene的相關性。
Hub gene: 關鍵基因 (連接度最多或連接多個模塊的基因)。
Adjacency matrix (鄰接矩陣)：基因和基因之間的加權相關性值構成的矩陣。
TOM (Topological overlap matrix)：把鄰接矩陣轉換為拓撲重疊矩陣，以降低噪音和假相關，獲得的新距離矩陣，這個信息可拿來構建網絡或繪制TOM圖。