FastQC 測序質量


 

文章轉載於 

介紹一下如何理解 FastQC 各模塊的結果

 

FastQC 的使用

FastQC的安裝介紹請看這里。FastQC 支持 fastq、gzip 壓縮的 fastq、SAM、BAM 等格式,在不指定文件類型的情況下,FastQC 會根據文件的名字來推測文件的類型: 以 .sam 或者 .bam 結尾的文件會被當作 SAM/BAM 文件來打開,並統計 mapped 和 unmapped reads 在內的所有 reads;其它的文件類型則被當作 fastq 格式打開。 其使用語法為:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] [-t threads] seqfile1 .. seqfileN

  • -o 用來指定輸出文件的目錄,需要注意的是,FastQC 不會自動創建新目錄,故指定的目錄必須存在;

  • FastQC 輸出結果為 .zip 文件,默認參數為 --extract (自動解壓縮),執行時加上 --noextract 則不解壓縮;

  • -f 用來指定輸入文件格式,如果不指定則自動檢測;

  • -c 用來指定一個文件,這個文件里面存放可能存在的污染序列,FastQC 會在這個文件里面搜索 reads 中的 overrepresented sequences;

  • -t 用來指定同時處理的文件個數;

  • seqfile1 等是需要處理的文件名稱;

  • 詳細信息請見 fastqc -h 或者 fastqc --help;

  • 我用來分析的命令為 fastqc --noextract -t 2 sample_R1.fq.gz sample_R2.fq.gz -o ./00.FastQC

FastQC 結果解讀

上一期我簡單地提了一下 FastQC 結果的基本內容,在思考之后,決定把結果中每部分內容給大家仔細解讀一下。如圖 2 所示:FastQC 的結果包含 12 個方面,其中綠色的結果表示“通過”;黃色的結果表示“警告”;紅色的結果表示“不合格”。我們應關注結果中未通過的部分,仔細思考為什么我們的數據會得到這樣的結果,可能存在哪些問題?下面我們分別看一下各部分結果的內容,以及 FastQC 判斷各部分結果通過、警告和不合格的閾值是什么

 

 

1. Basic Statistics

Basic Statistics 的結果給出原始數據的基本信息,包括被分析文件的文件名、文件類型 (actual base calls/colorspace data)、質量值編碼方式、序列總數、標記為低質量的序列數、序列長度 和 GC 含量,如圖 3 所示:

圖 3 Basic Statistics

Basic Statistics 的狀態始終都是“通過”,不會出現“警告”或者“不合格”;

這部分結果提供了鹼基質量值編碼方式,可以記錄下來,在后續的分析中會用到。

2. Per Base Sequence Quality

Per Base Sequence Quality 顯示 fastq 文件內每一個位置上 (x 軸) 所有鹼基的質量值范圍 (y 軸),如圖 4 所示:

圖 4 Per Base Sequence Quality

圖中每一位置都有一個 BoxWhisker 圖: 黃色箱子表示 25 - 75 % 的范圍,即 IQR (inter-quartile range),下面和上面的觸須分別表示 10 % 和 90 % 的點。藍線表示均值,紅線表示中位數;

鹼基的質量值越高越好,背景顏色將圖分成三部分:鹼基質量很好 (綠色)、鹼基質量一般(黃色) 以及鹼基質量差 (紅色)。

如果任何一個位置的下四分位數小於10或者中位數小於25,會顯示“警告”;如果任何一個位置的下四分位數小於5或者中位數小於20,會顯示“不合格”。

 

 

3. Per Tile Sequence Quality

只有在分析 Illumina 測序結果且保留了序列 ID 信息 (@HWI-D00523:75:C4PY7ANXX:2:1101:1316:2178,見上一講 fastq 格式介紹) 時才會有這部分結果出現。為了更好的理解這部分的內容,我先簡單的介紹一下 flow cell 的構成 (圖 5): 圖中所示的 flow cell 有八個 lane (lane1 - lnae8),每個 lane 里面有 3 列 (column1 - column3),每一列內有100 個 tiles,每個 tile 里面又有 20000 - 30000 個 clusters (不同型號 flow cell 內的 column 數、tile 數及 cluster 數會有一定的差異)。

圖 5 flow cell 的構成

Per Tile Sequence Quality 的結果展示每個 tile 在每個鹼基位置上偏離這個位置所有 tiles 平均質量值的情況,如圖 6 所示:

圖 6 Per Tile Sequence Quality

圖中橫軸代表鹼基位置,縱軸代表 tile 編號;

圖中的顏色是從冷色調到暖色調的漸變,冷色調表示這個 tile 在這個位置上的質量值高於所有 tile 在這個位置上的平均質量值,暖色調表示這個 tile 的在這個位置上的質量值比其它 tiles 要差;

一個很好的結果,整張圖都應該是藍色;

如果任何 tile 的平均質量值與這個位置上所有 tiles 的平均質量值相差 2 以上會顯示“警告”,如果任何 tile 的平均質量值與這個位置上所有 tiles 的平均質量值相差 5 以上會顯示“不合格”。

4. Per Sequence Quality Scores

Per Sequence Quality Scores 顯示每條序列平均鹼基質量的分布,如圖 7 所示:

圖 7 Per Sequence Quality Scores

圖中橫軸為測序質量值,縱軸為 reads 數量;

由於成像的原因,得到的測序結果中通常會出現某些 reads 的質量值偏低,這樣低質量的 reads 會在圖中出現另外一個峰。本圖顯示的是一個較好的測序結果;

如果最高峰的質量值小於 27 (錯誤率 0.2 %) 則會顯示“警告”,如果最高峰的質量值小於 20   (錯誤率 1 %) 則會顯示“不合格”。

5. Per Base Sequence Content  

Per Base Sequence Content 顯示每個位置上的鹼基組成比例,如圖 8 所示:

圖 8 Per Base Sequence Content

圖中橫軸為鹼基位置,縱軸為鹼基組成比例;

一個完全隨機的文庫內每個位置上 4 種鹼基的比例應該大致相同,因此圖中的四條線應該相互平行且接近;

在 reads 開頭出現鹼基組成偏離往往是我們的建庫操作造成的,比如建 GBS 文庫時在 reads 開頭加了 barcode;barcode 的鹼基組成不是均一的,酶切位點的鹼基組成是固定不變的,這樣會造成明顯的鹼基組成偏離;

在 reads 結尾出現的鹼基組成偏離,往往是測序接頭的污染造成的;

如果任何一個位置上的 A 和 T 之間或者 G 和 C 之間的比例相差 10 % 以上則報“警告”,任何一個位置上的 A 和 T 之間或者 G 和 C 之間的比例相差 20 % 以上則報“不合格”。

6.  Sequence GC Content

Per Sequence GC Content 顯示每條序列平均 GC 含量的分布,如圖 9 所示:圖 9 Per Sequence GC Content

在一個正常的隨機文庫中,GC 含量的分布應接近正態分布,且中心的峰值和所測基因組的 GC 含量一致。由於軟件並不知道所測物種真實的 GC 含量,圖中的理論分布是基於所測數據計算得來的;

如果出現不正常的尖峰分布 (如本圖),則說明文庫可能有污染 (如果是接頭的污染,那么在 overrepresented sequences 那部分結果還會得到提示),或者存在其它形式的偏選;

如果偏離理論分布的 reads 數超過總 reads 數的 15 % 則報“警告”,如果偏離理論分布的 reads 數超過總 reads 數的 30 % 則報“不合格”。

7. Per Base N Content

Per Base N Content 顯示每個位置上的 N 的比例,如圖 10 所示:

圖 10 Per Base N Content

在測序儀工作過程中,如果不能正常完成某個鹼基的 calling,將會以 N 來表示這個位置的鹼基,而不是 A、T、C、G;

有時在序列中會出現較低比例的 Ns,尤其是靠近序列末端的位置,這說明系統不能正常的 call 這部分鹼基;

出現一定比例的 Ns 最常見的原因是普遍出現的質量丟失 (a general loss of quality),這種情況可結合其它部分的結果來綜合判斷;

另一種常見的現象是文庫整體上的測序質量較高,但 reads 開頭出現較高比例的 N,這可能是由於文庫的鹼基組成偏離的比較嚴重,測序儀不能給出正確的 call,這種情況可以結合 per-base sequence content 的結果來判斷;

如果任何一個位置 N 的比例大於 5 % 則報“警告”,大於 20 % 則報“失敗”。

8 Sequence Length Distribution

Sequence Length Distribution 的結果顯示 reads 長度的分布情況,如圖 11 所示:

圖 11 Sequence Length Distribution

測序儀出來的原始 reads 通常是均一長度的,但經過質控軟件等處理過的數據則不然;

當 reads 長度不一致時報“警告”,當有長度為 0 的 reads 時則報“不合格”。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM