FastQC
FastQC 是一個基於Java寫的測序數據質量評估軟件。因為是用跨平台的語言Java寫的,自然而然FastQC應是可以在不同系統運行的了。不過也許大多時候我們還是在Linux服務器上用的多吧。
安裝
安裝軟件,方便的還是通過conda
了,一行命令:
$ conda install -c bioconda fastqc -y
當然這需要你已經安裝了anaconda的前提下。
若沒有的安裝anaconda的話,可以選擇安裝anaconda(這更方便點)或者用使用官方安裝方式。
官方軟件包下載:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
官方安裝說明:
https://raw.githubusercontent.com/s-andrews/FastQC/master/INSTALL.txt
這里需要提醒的是一般Linux系統是已經安裝了Java的了。而若在Window下,則需要先安裝好Java可以使用FastQC。
若在有桌面環境的電腦下,FastQC其實提供了交互式的GUI操作界面,具體使用參考上面的官方安裝說明
使用
FastQC GUI操作界面看上圖就發現了很簡單。不過多數我們還是通過Linux命令行使用,這更靈活一點。下面以CentOS7 下的 FastQC v0.11.9為例進行簡單講解。
fastqc [-o output dir] [-t threads] [-f fastq|bam|sam] seqfile1 .. seqfileN
參數 | 說明 |
---|---|
-o | 指定輸出目錄 |
-t | 線程數 |
-f | 輸入文件格式,默認是fastq的 |
seqfile | 位置參數,輸入文件,可輸入多個文件或使用通配符匹配多個文件 |
例如下面例子,采用10個線程,輸出地址是atac, 輸入文件包裹通過*匹配多個文件作為輸入
$ fastqc ATAC.1*day.r*.fq.gz -o atac/ -t 10
輸出報告是html網頁文件,需要傳到win下方便查看。有多少個輸入文件,就有多少個html報告。
若需要詳細的參數說明可使用參數-h
$ fastqc -h
以及查看官方文檔(也提供了一些質量報告例子供參考):
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
MultiQC
FastQC的輸出是每一個輸入文件對應一個輸出報告,當有多個輸入文件,會產生多個輸出報告。這時一個一個查看,以及它們之間需要對比的也不是很方便。MultiQC的產生解決了這個問題,它可以將FastQC產生的多個輸出報告,整合為一個,方便查看。
安裝
MultiQC 是個Python包,可以通過pip下載
$ pip install multiqc
或
$ conda install -c bioconda multiqc
使用
MultiQC 有很多參數的,下面例子是個簡單示例。
$ multiqc atac/ -o all -n test
參數 | 說明 |
---|---|
dir | atac/, 分析整合目錄 |
-o | 整合后的輸出目錄 |
-n | 輸入文件名字,默認multiqc_report |
參考
https://multiqc.info/
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/