Fold Change和t分布


  • 基因表達譜數據

基因表達譜可以用一個矩陣來表示,每一行代表一個基因,每一列代表一個樣本(如圖1)。所有基因的表達譜數據在“gene_exp.txt”文件中存儲,第一列為基因的entrez geneid,第2~61列是疾病樣本的表達,第62~76列是正常樣本的表達。

 

圖1 基因表達譜的矩陣表示

 

  • 尋找差異表達的基因:

原理介紹:

差異表達分析是目前比較常用的識別疾病相關miRNA以及基因的方法,目前也有很多差異表達分析的方法,但比較簡單也比較常用的是Fold change方法。它的優點是計算簡單直觀,缺點是沒有考慮到差異表達的統計顯著性;通常以2倍差異為閾值,判斷基因是否差異表達。Fold change的計算公式如下:

 

即用疾病樣本的表達均值除以正常樣本的表達均值。

差異表達分析的目的:識別兩個條件下表達差異顯著的基因,即一個基因在兩個條件中的表達水平,在排除各種偏差后,其差異具有統計學意義。我們利用一種比較常見的T檢驗(T-test)方法來尋找差異表達的miRNA。T檢驗的主要原理為:對每一個miRNA計算一個T統計量來衡量疾病與正常情況下miRNA表達的差異,然后根據t分布計算顯著性p值來衡量這種差異的顯著性,T統計量計算公式如下:

 

對於得到的顯著性p值,我們需要進行多重檢驗校正(FDR),比較常用的是BH方法(Benjamini and Hochberg, 1995)。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM