Per tile sequence quality


Per tile sequence quality ---Position specific failures of flowcells

介紹

當Per tile sequence quality顯示fail或者warning,表明測序的lane或某個run中出現出現了部分故障,從而影響一些特定的區域和循環,進而使測序數據的質量下降。另外,如果read的3'端的質量是好的,就意味着存在瞬時質量損失(Transient quality loss)的區域難以被剪切處理。

Patterned Flow Cell Technology

設備 Read sequences  per lane Read length 設備運行時長
HiSeq 2500 150 -180 million reads x 8 lanes 100 bp single read or paired end 5 days for single read 11 days for paired end
MiSeq 12-15 million reads x 1 lane 150 bp single read or paired end 24-36 hours for both

基本 Illumina NGS workflow

  1. 文庫制備(library preparation)

  2. 簇的生成(cluster generation)

  3. 測序 (sequencing)

  4. 比對和數據分析(alignment and data analysis)。

Illumina 測序方法的基本流程如下:

  • A single base containing a fluorophore and 3' blocking moiety is incorporated by a polymerase.
  • The flow cell is imaged using fluorescent microscopy.
  • The fluorescent and blocking moieties are cleaved, allowing the next base to be incorporated.

flow cell 的結構

具有patterned flow cell 的測序技術的兩個突破性的創新點:

  1. a distinct, ordered nanowell design, Each nanowell contains DNA probes used to capture prepared DNA strands for amplification during cluster generation

  2. a new exclusion amplification chemistry


症狀和診斷

在illumina 的測序設備中,根據flow cell的表面,人為的將其切分為swaths,這些swaths再進一步被切分為tiles。 通過查看per tile,識別因flow cell 或 run的故障造成的測序的錯誤。

症狀一:random loss of quality at different positions and cycles

原因:overloading of the flow cell

https://sequencing.qcfail.com/wp-content/uploads/sites/2/2016/01/random_loss.png

症狀二:a broad loss of quality over 4 areas of the flowcell

原因:當run的總體質量有點略低,而flowcell並沒有過載時,造成這種錯誤的原因一般是由於測序的序列有偏差(biased)。這些高亮的區域代表flow cell 的邊邊,因為在flow cell 的邊邊,拍照系統識別read的信號的能力下降。一般而言,這些數據還不是太糟糕,常常還是能用的。

症狀三:a quality loss in specific areas which is not present from the start but remains for the remainder of the run

原因:拍照系統受到阻擋,比如說,有臟東西掉在flowcell的表面,或者一些東西被沖進了flowcell,並且卡在flowcell內。通常這種阻塞現象會成對出現,因為任何阻礙物都會影響swaths的頂端和底端,來自這些區域的序列通常在質控中能被修剪移除掉。

症狀四:a temporary loss of quality over a restricted area

原因:有些東西被沖進了flowcell中,阻塞了一些循環(cycles),最后又被沖洗出去了。處理這個問題的難點在於,由於這段測序質量差的序列並不在read的末端,則意味着不能通過直接剪切處理這個read。

一般造成這個問題的主要原因是flowcell中的氣泡。同時,氣泡還會引起其他的副作用,如氣泡不僅阻止拍照系統正確拍照,還使測序試劑無法流入flowcell的納米孔中,進而無法形成cluster,從而導致氣泡下的cluster跳過了 sequencing chemistry cycles,使得在氣泡被引入之前的最后一個鹼基被重復讀取,最終導致序列被人為的延伸,即引入了插入片段。如果這些reads是用於檢測SNP的,那么這些假的插入片段將會混淆對下游分析結果解釋。

緩解上述症狀的方法

一般在下游分析時,flowcell中質量低的 tiles 是可被移除的。或者可以根據QC報告中tile position,過濾或移除fastqc文件中低質量的tile。

預防措施

除標准除氣和清潔工作程序之外,執行位置和一般質量檢查(positional and general quality checks)都會使用戶發現問題所在。

經驗教訓

即使是很小的數據子集,也有明顯的質量損失,因為它們有可能在下游分析中引入重要的生物噪聲。

軟件

FastQC per-tile quality plot 和 the BamQC per-base indel plot 會找出問題類型

參考鏈接:

Illumina Sequencing Platform

Position specific failures of flowcells

Patterned Flow Cell Technology

https://www.broadinstitute.org/files/shared/illuminavids/sequencingSlides.pdf


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM