差異表達分析之FDR
隨着測序成本的不斷降低,轉錄組測序分析已逐漸成為一種很常用的分析手段。但對於轉錄組分析當中的一些概念,很多人還不是很清楚。今天,小編就來談談在轉錄組分析中,經常會遇到的一個概念FDR,那什么是FDR?為什么要用FDR呢?一起來學習吧!
什么是FDR
FDR (false discovery rate),中文一般譯作錯誤發現率。在轉錄組分析中,主要用在差異表達基因的分析中,控制最終分析結果中,假陽性結果的比例。
為什么要用FDR
在轉錄組分析中,如何確定某個轉錄本在不同的樣品中表達量是否有差異是分析的核心內容之一。一般來說,我們認為,不同樣品中,表達量差異在兩倍以上的轉錄本,是具有表達差異的轉錄本。為了判斷兩個樣品之間的表達量差異究竟是由於各種誤差導致的還是本質差異,我們需要根據所有基因在這兩個樣本中的表達量數據進行假設檢驗。常用的假設檢驗方法有t-檢驗、卡方檢驗等。很多剛接觸轉錄組分析的人可能會有這樣一個疑問,一個轉錄本是不是差異表達,做完假設檢驗看P-value不就可以了么?為什么會有FDR這樣一個新的概念出現?這是因為轉錄組分析並不是針對一個或幾個轉錄本進行分析,轉錄組分析的是一個樣品中所轉錄表達的所有轉錄本。所以,一個樣品當中有多少轉錄本,就需要對多少轉錄本進行假設檢驗。這會導致一個很嚴重的問題,在單次假設檢驗中較低的假陽性比例會累積到一個非常驚人的程度。舉個不太嚴謹的例子。
假設現在有這樣一個項目:
● 包含兩個樣品,共得到10000條轉錄本的表達量數據,
● 其中有100條轉錄本的表達量在兩個樣品中是有差異的。
● 針對單個基因的差異表達分析有1%的假陽性。
由於存在1%假陽性的結果,在我們分析完這10000個基因后,我們會得到100個假陽性導致的錯誤結果,加上100條真實存在的結果,共計200個結果。在這個例子中,一次分析得到的200個差異表達基因中,有50%都是假陽性導致的錯誤結果,這顯然是不可接受的。為了解決這個問題,FDR這個概念被引入,以控制最終得到的分析結果中假陽性的比例。
如何計算FDR
FDR的計算是根據假設檢驗的P-value進行校正而得到的。一般來說,FDR的計算采用Benjamini-Hochberg方法(簡稱BH法),計算方法如下:
1. 將所有P-value升序排列.P-value記為P,P-value的序號記為i,P-value的總數記為m
2. FDR(i)=P(i)*m/i
3. 根據i的取值從大到小,依次執行FDR(i)=min{FDR(i),FDR(i+1)}
注:實際上,BH法的原始算法是找到一個最大的i,滿足P≤i/m*FDR閾值,此時,所有小於i的數據就都可以認為是顯著的。在實踐中,為了能夠在比較方便的用不同的FDR閾值對數據進行分析,采用了步驟3里的方法。這個方法可以保證,不論FDR閾值選擇多少,都可以直接根據FDR的數值來直接找到所有顯著的數據。
在這個例子中,第一列是原始的P-value,第二列是排序后的序號,第三列是根據P-value校正得到的初始FDR,第四列是最終用於篩選數據的FDR數值。如果我們設定FDR<0.05,那么綠色高亮的兩個數據就是最終分析認為顯著的數據。
FDR的閾值選擇在轉錄組分析中是非常重要的一個環節,常用的閾值包括0.01、0.05、0.1等。實踐中也可以根據實際的需要來靈活選擇。例如,在做真菌或者原核生物的轉錄組分析時,由於這些物種轉錄本數量較少,假陽性累積的程度較低,所以可以適當將FDR閾值設置的較高一些,這樣可以獲得較多的差異表達結果,有利於后續的分析。