PacBio的異構體測序(Iso-Seq)


在真核生物中,大多數基因可以編碼多個蛋白質,這是因為基因經過可變剪接,可產生多個轉錄異構體,從而大大增加了基因組的蛋白編碼潛力。來自同一個基因的可變剪接異構體可能有着明顯不同、甚至拮抗的作用。為了研究基因表達,研究人員利用新一代測序方法研究了生物體各個基因的片段,這種方法通常稱為RNA測序(RNA-seq)。短讀長RNA-seq的原理是將轉錄本異構體打斷成較小的片段,然后利用生物信息學工具將其重新組裝。由於組裝錯誤的存在,RNA-seq很可能無法獲得完整的轉錄本,因而難以准確表征異構體的多樣性。

PacBio的異構體測序(Iso-Seq)采用長讀取序列來測序長達10 kb的轉錄本異構體。無論是廣泛研究還是靶向分析,這種轉錄本多樣性的分析都揭示了可變轉錄的頻率和類型等關鍵信息,改善了基因組注釋和基因發掘。

Iso-seq方法

Iso-Seq無需打斷RNA分子,直接對反轉錄的全長cDNA測序,可提供從5’端到3′ polyA尾巴、跨越整個轉錄本異構體的序列。Iso-Seq方法可提供選擇性剪接外顯子和轉錄起始位點的准確信息。對於長達10 kb的轉錄本,它還可提供聚腺苷酸化位點的信息,能夠覆蓋靶基因或整個轉錄組的全長異構體。

Iso-Seq的建庫方案有如下三類:

  1. 整個庫都是一個樣品的全長轉錄組,不需要加barcode區分樣品
  2. 不同樣品的全長轉錄組,加上不同barcode ,可以放在一起進行建庫測序
  3. 一些靶向獲得的部分基因也可以進行全長轉錄組的測序

Iso-seq分析

Pacbio sequel下機是bam格式的reads文件,它和reads比對到參考基因組上生成的bam文件,內容有差異,但格式一致。格式說明可參考(https://www.plob.org/article/11099.html)。

IsoSeq應用程序適用於分析SMRT測序技術生成的數據,能夠對轉錄本和剪接變體進行功能鑒定。

Iso-Seq分析運行可選擇從頭開始(de novo)或基於參考序列的模式運行。
它包括三個主要步驟:

  • 分類:從PacBio系統(或SMRT Cell)運行中提取插入片段的序列;去除cDNA引物和poly-A;然后將插入片段的讀取序列分成嵌合或非嵌合、全長或非全長的序列。
  • 聚類:利用迭代聚類和錯誤糾正(ICE)算法,根據分類的讀取序列預測新發的轉錄本一致性異構體。
  • 映射:利用GMAP,將分類的讀取序列和預測的一致性異構體與用戶指定的參考序列進行比對。

參考

  1. IsoSeq-3.0
  2. IsoSeq_SA3nUP
  3. IsoSeq3
  4. pacbio 三代全長轉錄組數據分析流程 Iso-Seq 3
  5. 生工全長轉錄組 Iso-seq
  6. 全長轉錄組測序Iso-seq
  7. 2017a


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM