基因表達量表示方法 RPKM VS FPKM VS TPM


之前不是很理解這兩個概念,看了本文之后就差不多理解了。

基因組學技術專題(二):為什么說FPKM/RPKM是錯的

轉自:安諾基因

我們都知道RNA-seq是通過NGS技術來檢測基因表達量的測序方法。在衡量基因表達量方面,若是單純以比對到參考基因的Reads個數(我們通常稱之為Count值)來衡量基因的表達量,在統計上是一件相當不合理的事。今天就為大家介紹一下衡量基因表達量的RPKM和FPKM兩種方法。

 

在隨機抽樣的情況下,序列較長的基因被抽到的概率本來就會比序列短的基因高,如此一來,序列長的基因永遠會被認為表達量較高,而錯估基因真正的表達量。在測序深度不同的情況下,測序深度更深的樣品中,比對到每個基因的Read數量更多。

 

為排除因基因的長度、測序深度等因素造成的干擾,RPKM(Reads Per Kilobase Million)和FPKM(Fragments Per Kilobase Million)等方法就應運而生了。

 

RPKM

RPKM是將Map到基因的Reads數除以Map到Genome的所有Read數(以Million為單位)與RNA的長度(以KB為單位)。

FPKMFPKM是將Map到基因的Fragments數除以Map到Genome的所有Read數(以Million為單位)與RNA的長度(以KB為單位)。

從公式上可以看出,方法是將Reads(Fragments)Count進行標准化,分別是對測序深度標准化(以Million為單位)和對基因長度標准化(以KB為單位),從而消除了因測序深度和基因長度不同對基因表達量的影響。

RPKM與FPKM的區別

FPKM計算的是片段(Fragments),而RPKM計算的是數據(Reads)。Fragment比Read的含義更廣,因此FPKM包含的意義也更廣,可以是Pair-end的一個Fragment,也可以是一個Read。RPKM的誕生是針對SE測序,FPKM則是在PE測序上對RPKM的校正。

F是fragments,R是reads,如果是pair-end測序,每個fragments會有兩個reads,FPKM只計算兩個reads能比對到同一個轉錄本的fragments數量,而RPKM計算的是可以比對到轉錄本的reads數量(即不管是不是兩個reads是不是能比到同一個轉錄本上)。如果是single-end測序,二者FPKM和RPKM是一致的。

TPM可以用於同一物種不同組織間的比較,因為Sum(TMPs)的值總是唯一的。
然而如果要在不同物種之間比較,則需要利用物種間的同源基因,取top 1000 rank 最保守的同源基因,取median expression levels,來計算scaling factor.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM