擴增子分析解讀1質控實驗設計雙端序列合並

本文轉載自查看原文 2017-08-21 04:21 2299 生物信息學

本文采用目前最主流的擴增子測序數據類型HiSeq2500 PE250類型數據為例，結合目前主流方法QIIME+USearch定制的分析流程。本課程中所需的測序數據、實驗設計和課程分析生成的中間文件，均可以直去百度雲下載。鏈接：http://pan.baidu.com/s/1hs1PXcw 密碼：y33d

本課程代碼的運行，至少需要Linux平台+安裝QIIME 1

分析前准備

# 建立工作目錄並進入，-p參數為如果文件夾存在不報錯

mkdir -p example_PE250
cd example_PE250

# 建臨時文件和結果子目錄

mkdir -p temp result

1. 測序數據文件

16S擴增子測序數據主要來自HiSeq2500產出的雙端各250 bp (PE250)數據，因為讀長長且價格便宜(性價比高)。HiSeqX PE150和MiSeq PE300也比較常見，但PE150過短分辨率低，而PE300價格高且末端序列質量過低。此外454在之前研究較多但設備已經停產，PacBio讀長長可直接測序16S全長1.5kb代表未來的趨勢。

測序公司通常會返回raw data和clean data兩種數據，raw data為測序獲得的原始數據，而clean data則為去除含有接頭序列及測序不確定N比例較高的結果，通常直接采用clean data進行質量評估及后續分析。

質量評估常用fastqc，一般測序結果文件會附帶評估報告，質量太差會重測，此步非用戶必須

准備兩個數據文件PE250_1.fq.gz和PE250_2.fq.gz至工作目錄，一共600M，包括2,500,000條fastq格式的雙端250bp數據。(提示：可以在Windows上下載，使用filezilla等工具上傳服務器)

安裝fastqc，己安裝請跳過，未安裝詳見 http://www.cnblogs.com/freescience/p/7277556.html

如果系統中己安裝過fastqc可直接運行fastqc -t 2 *.fq.gz即可。-t為設置線程數，建議與數據文件數量相同最佳，可以提高評估速度，*.fq.gz為輸入文件，可以用*通配符指定多個文件。

運行結果每個數據會生成兩個文件，如下

PE250_1_fastqc.html # 網頁評估報告

PE250_1_fastqc.zip # 網頁報告相關文本和圖片壓縮包

數據質量如下：上為左端1-250質量；下為右端1-250質量分布箱線圖

可以看到左端的質量比較高(圖中綠、黃、紅區域分別代表質量優、良、差)；右端序列末端質量較次，且箱體也進入紅色差區，但中位數紅線位於綠色高質量區。這樣的結果已經算是中等偏上的了，在PE250測序中，右端的尾部質量都下降很嚴重，但只要左端的末端較好即可，雙端序列合並可進行校正，一般都可以放心使用。

2. 實驗設計文件

在QIIME中，把實驗設計文件叫mappingfile，大家下載mappingfile.txt文件；自己的實驗一定要按照示例的格式模仿填寫，如錯誤后續無法運行。QIIME自帶了個工具，可以檢驗文件書寫是否正確。

# 先激活工作環境
source activate qiime1
# 關閉工作環境：不用時關閉，不然你其它程序可能會出錯
source deactivate
# 驗證實驗設計是否有錯誤
validate_mapping_file.py -m mappingfile.txt

運行結果會輸出三個文件

mappingfile_corrected.txt # 自動修正的實驗設計，小錯誤會自動修改，但末必符合你的要求，不建議直接使用

mappingfile.html # 結果的錯誤報告，可下載查看網頁，會高亮顯示錯誤的位置

mappingfile.log # 運行結果報告

運行結果無誤會顯示 “No errors or warnings were found in mapping file.”。有錯誤建議查看生成的網頁報告，高亮有錯誤的地方，自行修改后重新檢測，直到無誤。更多說明建議閱讀幫助http://qiime.org/scripts/validate_mapping_file.html

3. 雙端序列合並

我們首先的任務是把雙端序列合並，根據兩端序列末端的互補配對，可以合變為我們擴增區域的序列，同時還可以對重疊區的質量進行校正，保留最高測序質量的鹼基結果。使用join_paired_ends.py腳本，合並兩個文件為單個。f/r參數為輸入左和右端序列，支持壓縮格式*.gz；m是選擇方法，默認為fastq-join就可以了，也可以選擇SeqPrep，更好但更慢；o為輸出文件目錄。更多說明建議閱讀幫助 http://qiime.org/scripts/join_paired_ends.html

# 雙端序列合並
join_paired_ends.py -f PE250_1.fq.gz -r PE250_2.fq.gz -m fastq-join -o temp/PE250_join

序列合並完，我們會在設置的輸出目錄temp/PE250_join看到3個文件，如下：

fastqjoin.join.fastq # 合並成功的序列

fastqjoin.un1.fastq # 左端未合並成功的序列

fastqjoin.un2.fastq # 右端未合並成功的序列

我們下游分析通常只對fastqjoin.join.fastq進行操作

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 擴增子分析解讀4去嵌合體非細菌序列生成代表性序列和OTU表擴增子圖表解讀3熱圖：差異菌、OTU及功能擴增子圖表解讀5火山圖：差異OTU的數量及變化規律擴增子圖表解讀1箱線圖：Alpha多樣性代謝組學實驗、質控與分析最長遞增子序列最長連續遞增子序列-Python 遞歸求最長連續遞增子序列最大上升子序列，最大下降子序列，最大非增子序列，最大非減子序列求數組中最長遞增子序列的長度

擴增子分析解讀1質控 實驗設計 雙端序列合並

免責聲明！

擴增子分析解讀1質控實驗設計雙端序列合並