對FPKM/RPKM以及TPM的理解


 

對FPKM/RPKM以及TPM的理解

雖然一直在接觸FPKM/RPKM以及TPM,但是僅僅是知道它們是轉錄本定量的值,並未究其根本。最近看了幾篇文獻,對其深層次的含義有了進一步的理解,因而在這里記錄下來。

首先來看FPKM/RPKM的起源:

  在RNA-Seq中,最簡單的定量基因表達量(gene expression)的方法就是將RNA-Seq數據比對到相應的參考序列上時,會有比對到各個基因的read數量,稱為raw read counts。但是如果要比較不同樣本中基因的表達量,光有raw counts是遠遠不夠的,因為raw cread counts受到很多因素的影響,如目標基因的轉錄本長度(transcript length)、總的有效比對的read數量(即測序深度 sequencing depth)以及測序的偏差(sequencing bias)等等,這些因素是如何影響raw read counts的后面會有解釋。那么為了將不同樣本的基因表達量歸一化到一個能夠量化比較的標准上,科學家們采取的措施是將raw counts同時除以目標基因的外顯子長度之和(也就是目標基因轉錄本長度)和總的有效比對的read總數。這就是RPKM的定義

  RPKM = (10^6 * nr) / (L * N)

其中 nr 代表比對至目標基因的read數量;L代表目標基因的外顯子長度之和除以1000,單位是Kb,不是bp;N是總的有效比對至基因組的reads數量。

注意這里的 nr:在single-end測序中,一個read就是一個read。而在pair-end測序中,若一對paired-read 都比對上了,當做兩個read;若只有一個read比對上,另一個未比對上,當做一個read計算。

類似的,FPKM的定義如下 

 FPKM = (10^6 * nf) / (L * N)

 其中 nf 代表比對至目標基因的fragment數量;L代表目標基因的外顯子長度之和除以1000,單位是Kb,不是bp;N是總的有效比對至基因組的fragment數量。

 注意這里的 nf:在single-end測序中,FPKM將read當做fragment計算,此時FPKM和RPKM是相同的。而在pair-end測序  中,  若一堆paired-read 都比對上了,當做一個fragment。

以上是這兩個量的計算方式,它們這樣計算的目都是為了解決在計算RNA-seq轉錄本豐度的兩個bias:
(1)即便是相同表達豐度的轉錄本,會由於其基因長度上的差異,導致測序獲得的Read(Fragment)數不同。因為在測序時,隨機抽樣的情況下,序列較長的轉錄本被抽到的概率更大,測得的Read(Fragment)數越多。

(2)由測序文庫的不同大小而引來的差異。即同一個轉錄本,其測序深度越深,通過測序獲得的Read(Fragment)數就越多。

 

FPKM和RPKM通過同時除以L(轉錄本長度)和N(有效比對的Read(Fragment)總數)的辦法,最終將不同樣本(或者同個樣本在不同條件下)的轉錄本豐度歸一化到一個能夠進行量化比較的標准上。

以上一切看起來都很合理

但是!!!

既然說了測序獲得的read(fragment)受到基因長度的影響,RPKM和FPKM計算中也去除了目標基因長度的影響,但是除以N時沒有考慮到這個影響,N是總的有效比對的read(fragment),它同樣會受到各個轉錄基因長度(distribution of transcript lengths)的影響。所以FPKM/RPKM是不准確的。那么有沒有一個統計量能解決這個問題呢?有!那就是TPM

TPMi={( nr/Lr )*10^6 } / sum( nr/Lr+……..+ nm/Lm )

nr:mapping到目標基因上的read數;
Lr:目標基因的外顯子長度的總和。

在一個樣本中一個基因的TPM:先對每個基因的read數用基因的長度進行校正,之后再用校正后的這個基因read數(nr/Lr)與校正后的這個樣本的所有校正后的read數(sum( nr/Lr+……..+ nm/Lm ))求商。

沒錯!TPM不是除以有效比對的read總數,而是除以經過基因長度歸一化后的有效比對的read總數,即歸一化后的測序深度。

因此,TPM在計算不同樣本的基因表達量比較時,是更加准確的統計量。

在網上瀏覽時,看到了這篇文章  http://www.fungenomics.com/article/30 是從另一個角度理解FPKM/RPKM與TPM的關系,講得很好很詳細,大家也可以看看。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM