GSEA的使用


參考博客:https://blog.csdn.net/weixin_43569478/article/details/83745105
需要創建一個cls文件
cls文件格式

10 2 1
#AdA3_0h AdA3_16h
AdA3_0h AdA3_0h AdA3_0h AdA3_0h AdA3_0h AdA3_0h AdA3_16h AdA3_16h AdA3_16h AdA3_16h
  • 第一行的三個數字分別表示10個樣本,2個分組,總是設置為1

  • 第二行為組的名稱

  • 第三行為組的重復個數,也就是每個組有幾個重復就寫幾次
    另外需要一個mmu.kegg_optimal.symbol.gmt
    這個文件可以在GSEA官網下載也可以自己制作一個相應的格式,如果自己制作需要有kegg注釋的結果

  • 對差異表達的結果進行gsea分析

java -Xmx2048m -cp /biosoftware/gsea-3.0.jar xtools.gsea.Gsea -res Flox.HFHC.16W_vs_CKO.HFHC.16W.fpkm.txt -cls Flox.HFHC.16W_vs_CKO.HFHC.16W.class.cls -gmx mmu.kegg_optimal.symbol.gmt -out Flox.HFHC.16W_vs_CKO.HFHC.16W -rpt_label Flox.HFHC.16W_vs_CKO.HFHC.16W -collapse false -mode Max_probe -norm meandiv -nperm 1000 -permute gene_set-rnd_type no_balance -scoring_scheme weighted -rpt_label my_analysis -metric Signal2Noise -sort real-order descending -include_only_symbols true -make_sets true -median false -num 100 -plot_top_x 500-rnd_seed timestamp -save_rnd_lists false -set_max 500 -set_min 15 -zip_report false -gui false
  • GSEA的結果文件的理解

這是一張原理圖,GSEA的輸入是一個基因表達量矩陣,其中的樣本分成了A和B兩組,首先對所有基因進行排序,在之前的文章中也有提到排序的標准,這里簡單理解就是foldchange, 用來表示基因在兩組間表達量的變化趨勢。排序之后的基因列表其頂部可以看做是上調的差異基因,其底部是下調的差異基因

GSEA分析的是一個基因集下的所有基因是否在這個排序列表的頂部或者底部富集,如果在頂部富集,我們可以說,從總體上看,該基因集是上調趨勢,反之,如果在底部富集,則是下調趨勢。
GASE給出了一個匯總的html頁面。對於富集結果,根據上調還是下調分成了兩個部分,對應兩個分組,示例如下:

在每個組別下富集到的基因集,從總體上看,其表達量在該組中高表達。點擊enrichment results in html,可以在網頁查看富集的結果,示例如下

GS為基因集的名字,SIZE代表該基因集下的基因總數,ES代表Enrichment score, NES代表歸一化后的Enrichment score, NOM p-val代表pvalue,表征富集結果的可信度,FDR q-val代表qvalue, 是多重假設檢驗矯正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 對結果進行過濾。
點擊GS DESC可以跳轉到每個基因集詳細結果頁面,示例如下

首先是一個匯總的結果,Upregulated in class說明該基因集在MUT這組中高表達,其他信息和之前介紹的一樣,除此之外,還有一個詳細的表格,示例如下

對於該基因集下的每個基因給出了詳細的統計信息,RANK IN GENE LIST代表該基因在排序號的列表中的位置, RANK METRIC SCORE代表該基因排序量的值,比如foldchange值,RUNNIG ES代表累計的Enrichment score, CORE ENRICHMENT代表是否屬於核心基因,即對該基因集的Enerchment score做出了主要貢獻的基因。

這個表格中的數據對應下面這張圖

分成3個部分,第一部分為基因Enrichment Score的折線圖,橫軸為該基因下的每個基因,縱軸為對應的Running ES, 在折線圖中有個峰值,該峰值就是這個基因集的Enrichemnt score,峰值之前的基因就是該基因集下的核心基因。

第二部分為hit,用線條標記位於該基因集下的基因,第三部分為所有基因的rank值分布圖, 默認采用Signal2Noise算法,對應了縱軸的標題。

從該圖中可以看出,這個基因集是在MUT這一組高表達的,下面是一個在另一組組中高表達的示例

可以看到,其Enrichment score值全部為負數,對應的在其峰值右側的基因為該基因集下的核心基因。

除此之外,還有一種熱圖,示例如下

這張熱圖展示的是位於該基因集下的基因在所有樣本中表達量的分布,其中每一列代表一個樣本。每一行代表一個基因,基因表達量從低到高,顏色從藍色過渡到紅色。

在總的html頁面中,還給出了如下信息

Dataset details給出了基因總數,Gene Set details給出了基因集的信息,注意軟件默認根據基因集包含的基因個數是先對基因集進行過濾,最小15個,最大500個基因,過濾掉了158個基因集,剩余的168個基因集用於分析。

Gene markers給出了排序之后的基因列表和對應的統計量rank ordered gene list,根據排序的統計量,將基因分成了兩部分,對應在每一組中高表達。heatmap and gene list包含了所有基因表達量的熱圖和排序值的分布圖,示意如下


熱圖由於基因太多,截取了部分,排序值的分布圖其實就是每個基因集的Enrichment plot中的第三部分


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM