Per tile sequence quality ---Position specific failures of flowcells
介紹
當Per tile sequence quality顯示fail或者warning,表明測序的lane或某個run中出現出現了部分故障,從而影響一些特定的區域和循環,進而使測序數據的質量下降。另外,如果read的3'端的質量是好的,就意味着存在瞬時質量損失(Transient quality loss)的區域難以被剪切處理。
Patterned Flow Cell Technology
設備 | Read sequences per lane | Read length | 設備運行時長 |
---|---|---|---|
HiSeq 2500 | 150 -180 million reads x 8 lanes | 100 bp single read or paired end | 5 days for single read 11 days for paired end |
MiSeq | 12-15 million reads x 1 lane | 150 bp single read or paired end | 24-36 hours for both |
基本 Illumina NGS workflow
-
文庫制備(library preparation)
-
簇的生成(cluster generation)
-
測序 (sequencing)
-
比對和數據分析(alignment and data analysis)。
Illumina 測序方法的基本流程如下:
- A single base containing a fluorophore and 3' blocking moiety is incorporated by a polymerase.
- The flow cell is imaged using fluorescent microscopy.
- The fluorescent and blocking moieties are cleaved, allowing the next base to be incorporated.
flow cell 的結構
具有patterned flow cell 的測序技術的兩個突破性的創新點:
-
a distinct, ordered nanowell design, Each nanowell contains DNA probes used to capture prepared DNA strands for amplification during cluster generation
-
a new exclusion amplification chemistry
症狀和診斷
在illumina 的測序設備中,根據flow cell的表面,人為的將其切分為swaths,這些swaths再進一步被切分為tiles。 通過查看per tile,識別因flow cell 或 run的故障造成的測序的錯誤。
症狀一:random loss of quality at different positions and cycles
原因:overloading of the flow cell
症狀二:a broad loss of quality over 4 areas of the flowcell
原因:當run的總體質量有點略低,而flowcell並沒有過載時,造成這種錯誤的原因一般是由於測序的序列有偏差(biased)。這些高亮的區域代表flow cell 的邊邊,因為在flow cell 的邊邊,拍照系統識別read的信號的能力下降。一般而言,這些數據還不是太糟糕,常常還是能用的。
症狀三:a quality loss in specific areas which is not present from the start but remains for the remainder of the run
原因:拍照系統受到阻擋,比如說,有臟東西掉在flowcell的表面,或者一些東西被沖進了flowcell,並且卡在flowcell內。通常這種阻塞現象會成對出現,因為任何阻礙物都會影響swaths的頂端和底端,來自這些區域的序列通常在質控中能被修剪移除掉。
症狀四:a temporary loss of quality over a restricted area
原因:有些東西被沖進了flowcell中,阻塞了一些循環(cycles),最后又被沖洗出去了。處理這個問題的難點在於,由於這段測序質量差的序列並不在read的末端,則意味着不能通過直接剪切處理這個read。
一般造成這個問題的主要原因是flowcell中的氣泡。同時,氣泡還會引起其他的副作用,如氣泡不僅阻止拍照系統正確拍照,還使測序試劑無法流入flowcell的納米孔中,進而無法形成cluster,從而導致氣泡下的cluster跳過了 sequencing chemistry cycles,使得在氣泡被引入之前的最后一個鹼基被重復讀取,最終導致序列被人為的延伸,即引入了插入片段。如果這些reads是用於檢測SNP的,那么這些假的插入片段將會混淆對下游分析結果解釋。
緩解上述症狀的方法
一般在下游分析時,flowcell中質量低的 tiles 是可被移除的。或者可以根據QC報告中tile position,過濾或移除fastqc文件中低質量的tile。
預防措施
除標准除氣和清潔工作程序之外,執行位置和一般質量檢查(positional and general quality checks)都會使用戶發現問題所在。
經驗教訓
即使是很小的數據子集,也有明顯的質量損失,因為它們有可能在下游分析中引入重要的生物噪聲。
軟件
FastQC per-tile quality plot 和 the BamQC per-base indel plot 會找出問題類型
參考鏈接:
Position specific failures of flowcells
Patterned Flow Cell Technology
https://www.broadinstitute.org/files/shared/illuminavids/sequencingSlides.pdf