STRING Cytoscape 網絡互作圖


網絡圖(Network)看似復雜,其實構成非常簡單,網絡圖是一種圖解模型,形狀如同網絡,故稱網絡圖,由節點(node)和連線(edge)兩個因素組成的。其中 node 又分為 source node(源節點)和 target node(目標節點)兩個因素組成的。這里的 node 就是我們的基因,edge 就是基因間的相互作用關系。任何網絡圖都不外乎這些構成成分。知道了網絡圖的構成之后,再做圖分析就很簡單了。

節點(node)

所謂的節點,就是我們要分析的基因。在一個網絡圖當中往往有數十個乃至上百個節點,那就意味着,我們需要分析的基因有數十個或者上百個。這些基因是怎么來的呢?這就跟我們的研究目的相關了,這些基因可能是我們篩選出來的差異表達的基因,可能是腫瘤患者中高頻突變的一些基因,也可能是某一個 miRNA 的下游靶基因等等。

在進行網絡圖分析的時候,我們往往對基因的來源不做要求,只要是你認為是有意義的一群基因,就可以了。但是,在基因數量上,我們往往有一定的限制。因為,基因數少了,網絡圖中的 edge 太少,圖做不出來,或者做出來太丑;而基因數多了,網絡圖太大,導致沒辦法導入軟件中進行分析,耗時太久,同時背景噪聲和混雜影響也會更多。因此,通常要分析的網絡圖基因數量在 50 - 300 個左右,這樣的網絡圖比較適中,不會太大也不會太小。

連線(edge)

edge 就是基因之間的相互作用關系。比如兩個基因 TP53 和 CXCL12 之間是否有相互作用關系呢?通過什么方法進行判斷呢?這是一個比較困難的問題。好在,有一些非常好的數據庫幫我們解決了這一問題,比如最著名的就是 STRING database。

STRING 數據庫

STRING(https://string-db.org)是一個非常全面的蛋白互作網絡數據庫,里面存儲了非常多物種和基因的相互作用關系。我們只要把基因名字提交上去,就能夠判定他們之間時候有互作關系了。

STRING數據庫是一個搜尋已知蛋白質之間和預測蛋白質之間相互作用的系統。這種相互作用既包括蛋白質之間直接的物理的相互作用,也包括蛋白質之間間接的功能的相關性,是目前最為全面、最為權威的蛋白相互作用數據庫。

STRING數據庫中包含有實驗數據、從Pubmed摘要中文本挖掘的結果、綜合其他數據庫的數據,另外還有利用生物信息學的方法預測的結果,所應用的生物信息學的方法有:染色體臨近、基因融合、系統進化譜、基於芯片數據的基因共表達等。

Cytoscape

Cytoscape是一套完整的網絡圖分析系統,它不僅僅是一個軟件,還包括了一系列編程語言接口、app store 等諸多內容,是網絡分析領域的龍頭老大。Cytoscape 能夠幫助我們實現基因互作的可視化網絡圖,並且通過其諸多分析插件幫我們找到這里面的關鍵基因。

研究思路

step1 從 基因列表 到 蛋白互作

step2 從 蛋白互作 到 互作網絡

step3 從 互作網絡 到 關鍵基因

具體步驟

step1 准備基因列表

這個基因列表的文件說白了就是一列基因,對於基因的數量最好是 50 - 300 個。

step2 打開 STRING 數據庫

點擊 SEARCH,然后就會跳轉到讓我們輸入基因列表的頁面,如下圖所示,我們點擊 "Multiple proteins",再依次輸入我們的基因列表和物種名稱,點擊 SEARCH 即可。

 

然后 STRING 數據庫會搜索我們提交的蛋白,點擊 CONTINUE 即可。

之后就會出現這些基因的互作網絡圖了。這個網絡圖中有很多彩色的點,這個顏色是隨機分配的沒有生物學意義,有的點中還有花花綠綠的蛋白質的三維結構,這個對我們來說也不是非常重要,重要的是蛋白之間的連線,這就是相互作用。

圖的下面有很多的panel,這里面蘊含了很多功能,其中最主要的就是 Exports,從這里可以輸出我們想要的圖形和網絡。

對於初級分析來說,網絡圖就可以了;當時如果是高級分析和美觀的網絡圖,比如需要找到關鍵基因,需要發表質量的高級網絡圖,那就需要源文件了,源文件是一個tsv文件,通過它,可以制作各種各樣的網絡圖。

 step3 Cytoscape 美化網絡圖

網絡文件包括多種格式:TXT、SIF、GML等,這些都是Cytoscape能夠識別的,其中最常用的就是TXT文本格式。這種格式是最簡單的,其實就是從Excel中復制出來的表格,其格式如下:

(1)第一行,默認作為列名,所以不要有重復的名字

(2)從第二行開始就是節點之間的相互作用關系了

(3)數據至少包含兩列,第一列是Source Node,第二列是Target Node

就拿我們從STRING生成的網絡圖源文件為例,我們生成的是一個名為string_interactions.tsv的文件,這是一個文本文件,用Excel把它打開之后是這樣的

將該文件導入到Cytoscape中

File --> Import --> Network from File 即可導入文件

 

點擊導入文件,找到要導入的網絡文件,即string_interactions.tsv文件,導入之后是這樣的。Cytoscape會自動識別最重要的兩列:Source Node 和 Target Node,一般就是前面的兩列。

如果自動識別的不對,可以自己指定。點擊表頭,會出現一個下拉菜單,然后自己選擇指定即可。除了Source Node、Target Node 其他列數據的屬性還包括Interaction Type、Edge Attribution、Source Attribution、Target Attribution等,同時對應不同顏色和圖標標記。

 

 指定好數據列之后,點擊 OK 即可,數據導入到此為止,軟件會自動生成一個網絡圖。

頁面布局

Cytoscape是一個非常龐大的軟件,其功能非常豐富,頁面布局也很復雜,在我們導入網絡圖數據后,其會自動幫我們生成一個網絡圖,如下

 

 從上圖中可以看出,頁面相當復雜,而其中我們最常用的區域就是兩個:控制面板和網絡圖區。

控制面板是我們用的最多的地方,這里面至少包括了三個子面板:

1)Network:網絡圖列表,這里以樹形圖的方式羅列了我們打開的所有網絡圖

2)Style:外觀可視化控制面板,這個面板控制了我們的網絡圖的外觀,所有的外觀設計都在這個里面,這個面板也包括三個子面板:

    -- Node:控制節點的外觀,包括大小、顏色、形狀等,使用頻率很高

    -- Edge:控制連線的外觀,包括顏色、粗細等,使用頻率很高

    -- Network:控制網絡圖的外觀,如背景色等,使用較少

3)Select:篩選,即從整個網絡圖中按照用戶的要求去選定特定的Node或者Edge。

其實整個Cytoscape頁面布局中最重要的就是控制面板,而通過控制面板中特定屬性的設置,我們可以隨心所欲的改變網絡圖的外觀。

 

Cytoscape的應用商店

Cytoscape的菜單欄中有很多的功能欄,其中Apps就是很重要的一個,其提供了非常多的功能插件,使得Cytoscape的功能根據用戶的需求無限延伸。

 

尋找關鍵基因

通過使用Cytoscape插件MCODE或者Cytohubba可以從網路圖中找到關鍵基因

第一步 打開網絡圖

找到以 .cys 結尾的網絡圖文件,導入到Cytoscape中

第二步 安裝插件

點擊 App Manager,然后經過一段時間的聯網操作(注:有時候會經過很長時間連不上去,這時候需要耐心等待或者 VPN 操作一下),軟件能夠自動關聯 App store,並且幫我們羅列出軟件列表,如果我們要安裝哪個軟件,直接點擊 Install 即可。

 

 第三步 運行插件

MCODE的使用

在 Apps 中點擊 MCODE,然后會在控制面板中出現 Mcode這一面板,點擊 Analyze Current Network 即可。

 

 

 Cytohubba的使用

Cytohubba 的使用也比較簡單,但是相對於 MCODE 來說,Cytohubba 提供了更多的算法來對基因的重要性或者說核心程度進行排序。使用 Cytohubba 的話,首先也是在 Apps 當中找到 Cytohubba,點擊以后會在控制面板中出現Cytohubba 的子面板,然后按照我們下面的步驟操作,逐步點擊即可:

 

 

這里可以跟大家羅列一下Cytohubba所提供的核心基因篩選算法有哪些。算法雖多,但是這些算法的具體方法不需要我們大家掌握,只需要知道怎么用怎么選擇就行了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM