第三章 RNA測序


  RNA測序(RNA Sequencing,簡稱RNA-Seq,也被稱為全轉錄物組鳥槍法測序Whole Transcriptome Shotgun Sequencing,簡稱WTSS),是基於二代測序技術研究轉錄組學的方法,可以快速獲取給定時刻的一個基因組中RNA的種類和數量。

RNA-Seq

  • RNA-Seq有助於查看基因的不同轉錄本、轉錄后修飾、基因融合、突變/SNP和基因表達隨時間的變化,或在不同組中基因表達的差異。

  • RNA-Seq除了可以查看mRNA轉錄本,還可以查看總RNA、小RNA,例如miRNA、tRNA和核糖體RNA。

  • RNA-Seq可用於確定外顯子/內含子邊界,並驗證或修正已注釋的5'和3'基因邊界。

  • RNA-Seq最新的研究包括單細胞測序和固定組織的原位測序。

文庫制備

  RNA的cDNA文庫制備通常包括如下幾個步驟:RNA提取和分離、RNA類型選擇和消化、cDNA合成。但不同的平台可能會有所不同。

RNA-Seq library preparation

分析

轉錄本組裝

  有兩種策略將測序數據用於轉錄本組裝:

  1. 重頭組裝:這種方法不需要參考基因組來重組轉錄組,並且通常用於基因組未知、不完整或者差別很大時使用。使用測序read從頭組裝時面臨的挑戰包括:1)遇到重疊群時確定哪些片段應該連接在一起成為連續序列; 2)測序錯誤或人工錯誤的不穩定性;3)計算效率。從頭組裝的主要算法從重疊圖轉換為de Bruijn圖,使用de Bruijn圖的匯編程序有Velvet、Trinity、Oases和Bridger。評估從頭組裝質量指標包括中位重疊群長度、重疊群數量和N50。
  2. 基於參考基因組組裝:這種方法依賴於序列比對算法,比對的read覆蓋了參考基因組,產生非連續部分,這些非連續的read是對成熟mRNA測序的結果(見圖)。通常,比對算法有兩個步驟:1)用read的短序列進行比對;2)用動態編程找到最佳比對,有時結合已知的注釋。基於基因組比對的軟件工具包括Bowtie、TopHat(基於Bowtie比對結果對齊剪切點)、Subread、STAR、Sailfish、Kallisto和GMAP。 評估基於參考基因組組裝質量指標主要是以下兩點:1)從頭組裝指標(例如,N50);2)與已知轉錄本、剪切點、基因組和蛋白序列等進行比較。

mRNA-align

  關於組裝質量,目前的情況是:1)裝備質量根據使用的標准而變化;2)在一個物種中得分良好的軟件在其他物種中不一定表現良好;3)組合使用不同軟件可能是最可靠的。

基因表達

  量化表達通常用於研究響應外部刺激的細胞變化、健康和患病狀態之間的差異以及其它研究問題。基因表達通常用來反映蛋白質豐度,但不適用於諸如RNA干擾和無義介導的轉錄衰變事件。

  通過統計轉錄組裝配步驟中映射到每個基因座的read數量來量化表達,使用重疊群或注釋的轉錄本來定量外顯子或基因的表達,這種統計RNA-Seq read數的方法已經通過較老的技術(表達微列陣和qPCR)進行了有效地驗證。量化計數工具有HTSeq、FeatureCounts、Rcount、maxcounts、FIXSEQ和Cuffquant,這些工具都是將統計read數轉換為適用於假設檢驗、回歸和其它分析的指標。此狀換參數是:

文庫大小:雖然在進行多個RNA-Seq實驗時預先確定了測序深度,但實驗之間仍會有很大差異。因此,通常將read統計數轉換為每百萬比對read的read數、片段數或個數(FPM、RPM或CPM)來調整在單個實驗中生成的read總數(文庫大小)。

基因長度:如果轉錄本表達相同,則較長的基因將比較短的基因具有更多的片段、read或個數。通過將FPM除以基因長度來調整,得到每千個鹼基的轉錄每百萬比對read的片段(FPKM)。當查看樣本間的基因組時,通過將每個FPKM除以樣本中FPKM的總和,轉換為百萬分之一的轉錄本(TPM)。

樣本總RNA:因為每個樣本中提取相同量的RNA,樣本總RNA多的將具有更少種類基因RNA,導致下游分析中的假陽性。

每個基因的表達方差:建模以考慮抽樣誤差(對具有低read數的基因很重要),可以將方差估計為正常、泊松或負二項分布。

轉錄本的差異表達和絕對定量

  RNA-Seq通常用於比較不同條件之間的基因表達,例如葯物治療與未治療,並找出每種情況下哪些基因上調或下調。理論上,RNA-Seq可以統計每種情況下細胞中的所有轉錄本的個數,通過測序read統計工具統計每個基因的read數,並在樣本間進行比較來鑒定不同表達的基因。有許多軟件包可用於此類分析,常用的工具是來自Bioconductor軟件包DESeq和edgeR,這兩個個工具都使用基於負二項分布的模型。

  一般的RNA-Seq分析不能進行絕對定量,因為它僅提供相對於所有轉錄本的RNA水平,如果細胞中RNA總量隨不同條件發生變化,則相對標准化將錯誤地表示個體轉錄本的變化。通過添加外標(已知濃度的RNA樣品)進行RNA-Seq,可以對mRNA進行絕對定量。

基因共表達網絡分析

  基因共表達網絡分析是根據基因表達量的動態變化,計算基因間的共表達關系,來建立基因轉錄調控模型,得到基因間的表達調控關系及調控方向,從而尋找一個或多個物種在不同發育階段,或者不同組織在不同條件或處理下的全部基因表達調控網絡模型以及關鍵基因。

發現單核苷酸突變(SNP)

  RNA-Seq僅限於發現外顯子區域的序列變異,不能檢測到內含子區域序列變異。雖然外顯子與內含子變異之間存在某種相關性,但只有全基因組測序才能捕獲所有來源的SNP。

  絕對確定個體突變的方法是將轉錄本序列與種系DNA進行比對。這樣能夠區分純合基因與其中一個等位基因的傾斜表達,並且還可以提供關於轉錄組實驗中未表達的基因的信息。一個基於R語言名為CummeRbund包可用於生成視覺化的表達圖表。

RNA編輯(轉錄后改變)

  比較個體的基因組和轉錄組序列也可以幫助檢測轉錄后編輯,如果基因是純合的,但是基因具有不同的轉錄本,則確定是轉錄后修飾。

融合基因檢測

  由於基因組中的不同結構修飾,融合基因因其與癌症的關系而受到關注。RNA-Seq因無差別分析整個轉錄組的能力使其成為癌症研究中發現這些常見事件的有力工具。

  該方法遵循將短轉錄組read比對到參考基因組的過程,大多數短read將比對到一個完整的外顯子內,仍有一大部分比對到已知的外顯子——外顯子連接,然后進一步分析剩余未必對的read是否匹配到外顯子——來自不同基因的外顯子連接,這可能是融合事件的有力證據,然而,由於read的長度,事實上是比較粗糙的方法。另一種方法是使用雙端read,當潛在大量雙端read將每個末端比對到不同的外顯子時,可以更好地驗證這些事件(見圖)。

gene-fusion

應用

  • 轉錄本結構研究(基因邊界鑒定、可變剪切研究等)

  • 轉錄本變異研究(如基因融合、編碼區SNP研究)

  • 非編碼區域功能研究(Non-coding RNA、microRNA前體研究等)

  • 基因表達水平研究以及全新轉錄本發現

參考資料

RNA-Seq


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM