Iso-seq , 全稱叫做 Isoform-sequencing, 是 Pacbio 公司對自己開發的轉錄本測序技術的規范化命名;是利用三代測序長讀長的特點,不打斷轉錄本,直接測序,從而得到全長轉錄本的一種測序技術。
對於iso-seq 的分析而言,必須掌握以下幾個基本概念:
1)ROI
了解過三代測序數據分析的人,對於CCS 環形一致性序列的概念肯定不會陌生,在iso-seq中,提出了比CCS 更加靈活的一個概念:ROI
ROI , 全稱 reads of insert,可以理解為插入片段,首先看下三代測序文庫構建階段的reads示意圖:
對於上述的文庫片段,測序產生的reads 示意圖如下:
由於是一個環狀分子, 隨着測序反應的進行,會循環測序;如果把插入片段的正負鏈都測了一次,就做1個full pass;
對於CCS 而言,要求至少有2個full pass , 才能去生成CCS reads; 三代測序的特點就是讀長很長,可以達到十幾kb, 對於短的插入片段而言,CCS這樣定義當然沒有問題,但是對於全長轉錄本
而言,轉錄本長度很長,比如轉錄本長度1kb, 讀長3kb, 此時在一個零模波導孔(ZMW)中測序的reads 就不可能達到2個full pass , 也就產生不了CCS reads, 為了解決這個問題,提高reads的利用率,提出了ROI 的概念,ROI 指的就是插入片段,上圖測序reads 產生的ROI 如下:
ROI 不要求滿足2個full pass, 相對CCS 而言,更加適合全長轉錄本的分析;
2)artifacts
可以理解為,共有兩種來源:
# Artificial Concatemer
這種序列是由於文庫制備階段,adapter 序列錯誤的將兩條轉錄本的序列鏈接構成了一個環狀分子,這個和adapter 濃度有關,通常這種reads 產生的比例很少,小於0.5%, 在后續的分析中,這部分reads 需要去除
# PCR Chimera
在PCR 反應中,由於不完全延伸的產物作為了下次擴增反應的引物,導致出現嵌合體序列,直觀上看,就是PCR產物來源於兩條或者多條reads;
PCR 產生的嵌合體序列,在PCR 反應體系中,這種序列是不可避免的,大約有3%的比例,在后續的分析過程中,可以借助軟件去除這部分reads;
3) FL Reads
FL , Full-length reads, 全長轉錄本
從raw data 到 ROI , 在從ROI 去除 artifacts reads 之后,我們就得到了用於后續分析的clean reads;
clean reads 就已經是轉錄本的序列了,我們首先看一下clean reads 當中,哪些是全長轉錄本;哪些不是全長轉錄本,這個操作就是分類,classify
全長轉錄本的示意圖如下:
對於全長轉錄本而言,其ROI reads 中包含5‘ primer 和 3‘ primer; 而且會出現polyA 為結構;(polyA 針對mRNA和部分lncRNA)
對於不同大小的文庫,其全長轉錄本的比例也不同:
可以看到,文庫片段越長,全長轉錄本的比例越低;
4) consensus transcript isoforms
一致性轉錄本序列,一個ZMW 產生一個轉錄本的reads, 肯定會有冗余的reads 出現,這是通過聚類(cluster)的方式,就全長轉錄本序列進行聚類,可以得到一致性的轉錄本序列;