ERCC spike-in RNA的調研


ERCC的調研

RNA-seq數據分析中,為了比較不同樣本、不同基因之間的表達差異,通常會對數據進行標准化轉化,得到RPKM/FPKM/TPM等指標。但是這些指標都是相對定量,相對定量有兩個前提:1是絕大多數的gene表達量不變;2是高表達量的gene表達量不發生改變。

可是在一些比較特殊的樣本體系下,這兩個基本假設有可能不能同時符合。比如針對很多癌症樣本,經常會出現一些很重要的高表達gene發生普遍的上調或者下調,從而導致整個樣本不符合RNA-Seq正常定量的基本假設。那么這個時候,如果繼續使用常規的尋找差異表達的方法來對基因進行定量以及分析,就可能會出現偏差,這時候就需要通過參照物進行矯正。

矯正的思路是在變化的樣本中尋找不變的量。在RNA-Seq中一般有兩種方法矯正:第一種方法是通過持家基因(Housekeeping gene),因為默認為管家基因的表達量在樣本中是基本不變的。但其實這種辦法有一個非常強的先驗假設:housekeeping gene的表達量不怎么發生變化。其實housekeeping gene list有幾千個,這幾千個基因有一定程度上的變化是有可能的。第二種是在RNA-Seq建庫的過程中就摻入一些預先知道濃度和具體分子量的spike-in作為內參,然后使用內參進行矯正。這種方法能夠對基因表達起到絕對定量的作用。這就是本文需要調研的ERCC的方法。

 

調研大綱:

  1. ERCC的介紹,ERCC的歷史
  2. ERCCspike-in RNA有什么作用?
  3. ERCCRNA spike-in 有哪些序列,一般是怎使用的?
  4. ERCCRNA spike-in的結果一般是怎么分析的?我們是否有建立相應分析方法?
  5. ERCC spike-in 序列總共多長,需要增加多少數據量?
  6. RNA-seq中是必須有的嗎?
  7. ERCC在的探針自設計,再加外在購買標准品的方式是否可行?可能存在哪些困難?是否有人如此做過?
  1. ERCC是什么,ERCC的歷史?
  2. ERCCRNA spike-in有什么作用?

 ERCC的全稱是 External RNA Controls Consortium,翻譯過來就是外源RNA參照協會,這是個專門為了定制一套spike-in RNA而成立的組織。該組織成立於2003年,主要的工作就是設計了一套非常好用的spike-in RNA,方便當時的microarray,qRT-PCR以及后來的RNA-Seq進行內參定量。

  早期的用DNA芯片是一個突破性的技術,它可以通過測量多基因的表達水平來揭示生物活動。然而它存在嚴重的不足就是,它的結果在不同儀器、不同時間的實驗之間無法比較,也不可重復。也正是因為這點,美國標准技術研究所NIST才決定領導開發一個RNA spike-in工具,來解決這個問題。

  1. ERCCRNA spike-in 有哪些序列,一般是怎使用的?

  設計的RNA spike-in序列長度范圍是250-2000nt,GC含量在5-51%,這個長度模擬了真核生物轉錄本的長度狀態,ERCCC 2.0版本的RNA spike-in 有96條DNA分子,每條序列都有特異對應的序列。這些序列都是和human genome同源性低,不影響后續的比對分析。這些序列可以通過混合成“雞尾酒”的方式,spike in 生物RNA樣本中。ERCC controls 可以在獲得的生物RNA樣本中進行混入,一起進行Target preparation-->Data acquisition--> Proprocessing--> Interpretation的過程。在RNA-seq中,Data acquisition就是sequencing的過程。

 

Thermo官網也有RNA spike-in的購買,該官網的RNA spike-in包含92條轉錄本序列,其序列可通過官網下載得到。這些序列分成A、B、C、D四組,每組23個序列,每組的23個序列的分子濃度都是分布在大約106-fold 的濃度范圍,使用時可以進行稀釋,但是23個序列分子的濃度范圍不變。另外這些轉錄本有兩種mixture,分別是spike-in Mix1和Spike-in Mix2。這兩種組的轉錄本序列是一樣的,但是A/B/C/D的濃度不同,具體如下Table1

 

所以它的產品包括ERCC RNA Spike-In Mix (Part no 4456740)和ERCC ExFold RNA Spike-In Mixes (Part no 4456739)兩種。其中ERCC RNA Spike-In Mix (Part no 4456740)只包含Spike-In Mix 1,而ERCC ExFold RNA Spike-In Mixes (Part no 4456739)包括Spike-in mix1和Spike-in mix2。他們的功能也不完全相同,具體如下Table2

 

這些RNA spike-in在工作流程中示例如下workflow

 

最終通過測序比對得到的序列,經過歸一化,可以得到檢測限和檢測范圍的分析結果:

 

如果是ExFold RNA Spike-In Mixes (Part no 4456739),則還可以得到fold-change response的結果:

 

這個標准品可以建議在純化Total RNA ,PolyA 選擇、rRNA-去除 之前就放入,以起到更好的監控作用:

 

 

 

 

  1. ERCCRNA spike-in的結果一般是怎么分析的?我們是否有建立相應分析方法?

分析需要先從官網下載ERCC_Control s_Annotation.tx文件,該文件包含每個序列ID,組別,mix中的濃度。

 

得到測序序列,先進行比對,然后normalized和過濾得到表達數據(RPKM.FPKM),匯出4問中的結果圖。

在不同樣本之間,最后通過ERCC RNA spike-in reads作為factor,進行樣本之間的矯正:

 

 

 

  1. ERCC spike-in 序列總共多長,需要增加多少數據量?
  2. RNA-seq中是必須有的嗎?

總的ERCC spike-in序列總長是84.5k,對fusion panel增加很大的負荷和成本

從以上分析看,ERCC主要是對表達量的是必須的,但是我們的目的是檢測gene fusion,而且會增加很多成本,如果為了考慮表達量的絕對定量需求,可以只懸着某幾個序列來做,不可能全選擇。

另外為了更好地對gene-fusion的檢測起到control作用, Tim R. Mercer等發明了sequins的方法,用來內參gene-fusion的檢測。

 

他是構建了個虛擬的染色體chrIS_R,通過合成的方法得到一個染色體的片段。並特異設計了24個融合位點。

 

這個方法在2019nature communication中也得到應用,下圖是設計的fusion panel中包括含Fusion sequins的序列。

 

文章后面驗證融合基因的檢測時,除了稀釋做了稀釋比之外,還做了絕對定量:

 

 

Sequins參考品也有從網上訂購的途徑,下面是官網對sequins的介紹

 

 

  1. ERCC在的探針自設計,再加外在購買標准品的方式是否可行?可能存在哪些困難?是否有人如此做過?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM