擴增子分析解讀1質控 實驗設計 雙端序列合並


本文采用目前最主流的擴增子測序數據類型HiSeq2500 PE250類型數據為例,結合目前主流方法QIIME+USearch定制的分析流程。本課程中所需的測序數據、實驗設計和課程分析生成的中間文件,均可以直去百度雲下載。鏈接:http://pan.baidu.com/s/1hs1PXcw 密碼:y33d
 
本課程代碼的運行,至少需要Linux平台+安裝QIIME 1
 
分析前准備
# 建立工作目錄並進入,-p參數為如果文件夾存在不報錯
mkdir -p example_PE250
cd example_PE250
# 建臨時文件和結果子目錄
mkdir -p temp result
 
1. 測序數據文件
16S擴增子測序數據主要來自HiSeq2500產出的雙端各250 bp (PE250)數據,因為讀長長且價格便宜(性價比高)。HiSeqX PE150和MiSeq PE300也比較常見,但PE150過短分辨率低,而PE300價格高且末端序列質量過低。此外454在之前研究較多但設備已經停產,PacBio讀長長可直接測序16S全長1.5kb代表未來的趨勢。
 
測序公司通常會返回raw data和clean data兩種數據,raw data為測序獲得的原始數據,而clean data則為去除含有接頭序列及測序不確定N比例較高的結果,通常直接采用clean data進行質量評估及后續分析。
 
質量評估常用fastqc,一般測序結果文件會附帶評估報告,質量太差會重測,此步非用戶必須
 
准備兩個數據文件PE250_1.fq.gz和PE250_2.fq.gz至工作目錄,一共600M,包括2,500,000條fastq格式的雙端250bp數據。(提示:可以在Windows上下載,使用filezilla等工具上傳服務器)
 
安裝fastqc,己安裝請跳過,未安裝詳見 http://www.cnblogs.com/freescience/p/7277556.html
 
如果系統中己安裝過fastqc可直接運行fastqc -t 2 *.fq.gz即可。-t為設置線程數,建議與數據文件數量相同最佳,可以提高評估速度,*.fq.gz為輸入文件,可以用*通配符指定多個文件。
 
運行結果每個數據會生成兩個文件,如下
PE250_1_fastqc.html # 網頁評估報告
PE250_1_fastqc.zip # 網頁報告相關文本和圖片壓縮包
數據質量如下:上為左端1-250質量;下為右端1-250質量分布箱線圖

可以看到左端的質量比較高(圖中綠、黃、紅區域分別代表質量優、良、差);右端序列末端質量較次,且箱體也進入紅色差區,但中位數紅線位於綠色高質量區。這樣的結果已經算是中等偏上的了,在PE250測序中,右端的尾部質量都下降很嚴重,但只要左端的末端較好即可,雙端序列合並可進行校正,一般都可以放心使用。
 
2. 實驗設計文件
在QIIME中,把實驗設計文件叫mappingfile,大家下載mappingfile.txt文件;自己的實驗一定要按照示例的格式模仿填寫,如錯誤后續無法運行。QIIME自帶了個工具,可以檢驗文件書寫是否正確。
# 先激活工作環境
source activate qiime1
# 關閉工作環境:不用時關閉,不然你其它程序可能會出錯
source deactivate
# 驗證實驗設計是否有錯誤
validate_mapping_file.py -m mappingfile.txt
運行結果會輸出三個文件
mappingfile_corrected.txt # 自動修正的實驗設計,小錯誤會自動修改,但末必符合你的要求,不建議直接使用
mappingfile.html # 結果的錯誤報告,可下載查看網頁,會高亮顯示錯誤的位置
mappingfile.log # 運行結果報告
運行結果無誤會顯示 “No errors or warnings were found in mapping file.”。有錯誤建議查看生成的網頁報告,高亮有錯誤的地方,自行修改后重新檢測,直到無誤。更多說明建議閱讀幫助http://qiime.org/scripts/validate_mapping_file.html
 
3. 雙端序列合並
我們首先的任務是把雙端序列合並,根據兩端序列末端的互補配對,可以合變為我們擴增區域的序列,同時還可以對重疊區的質量進行校正,保留最高測序質量的鹼基結果。使用join_paired_ends.py腳本,合並兩個文件為單個。f/r參數為輸入左和右端序列,支持壓縮格式*.gz;m是選擇方法,默認為fastq-join就可以了,也可以選擇SeqPrep,更好但更慢;o為輸出文件目錄。更多說明建議閱讀幫助 http://qiime.org/scripts/join_paired_ends.html
# 雙端序列合並
join_paired_ends.py -f PE250_1.fq.gz -r PE250_2.fq.gz -m fastq-join -o temp/PE250_join
序列合並完,我們會在設置的輸出目錄temp/PE250_join看到3個文件,如下:
fastqjoin.join.fastq # 合並成功的序列
fastqjoin.un1.fastq # 左端未合並成功的序列
fastqjoin.un2.fastq # 右端未合並成功的序列
我們下游分析通常只對fastqjoin.join.fastq進行操作


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM