1. 前期准備

背景信息：

GC含量 和 GC分布
基因組重復程度
基因組大小估計
雜合情況

最好的情況是對方能提供已經發表的近源物種。根據近源物種分析以上信息，尤其是GC含量以及對應的GC分布，重復程度。

2. 測序策略

根據基因組大小和具體情況選擇個大概的k值，根據“測序X數推導說明.pdf”制定用於構建contig所需的數據量以及所需的構建的文庫數量。對於植物基因組一般考慮的是大kmer（>31），動物的話一般在27左右，具體根據基因組情況調整。需要在短片段數據量達到20X左右的時候進行kmer分析。Kmer分析正常后，繼續加測數據以達到最后期望的數據量。

3. 組裝流程

原始數據－數據過濾－糾錯－kmer分析－denovo組裝

3.1 數據過濾：
/nas/GAG_01A/assembly/Database/Assembly/Package/Filter_data/目錄下有程序、源代碼、使用文檔、test實例
/nas/GAG_01A/assembly/yanglinfeng/Filter_gz/目錄下程序用法和上面一樣，讀gz壓縮文件，省去解壓縮

3.2 數據糾錯：
/ifs1/GAG/assemble/fanw/Assembly/source_codes/correct_error/correct_error_v1.0/有先使用多線程版本correct_error_pread
說明文檔以及算法詳見“Error_correction_algorithm.doc”

3.3 kmer分析：
/nas/GAG_01A/assembly/Database/Assembly/Package/kmerfreq/目錄下有程序、源代碼、使用文檔、
/ifs1/GAG/assemble/lizhenyu/kmer/kmerfreq2buff/kmerfreq 多線程版本，原理與上面程序一致，程序幫助信息包含使用實例
原理說明可參見“kmer分析.docx”
Kmer 分析中估計基因組大小采用糾錯后的數據。

3.4 SOAP denovo（grape）組裝：
/nas/RD_01A/xieyinlong/bin/目錄下grape63mer大kmer版本，可設k>31，grape1123設置K<=31，其他在使用沒有差別
/nas/RD_01A/zhuhm/bin/
使用說明以及一些參數選擇上具體參見“SOAP denovo使用說明”。
grape組裝並非一次就能得到理想的結果，會根據以有的組裝結果做分析，調整參數，處理數據，加測少量數據等策略來得到比較理想的結果，在下面的說明中進行詳細解釋。

4. 基因組的grape組裝輸出以及soap比對分析

4.1 Contig構建質量

Contig構建的質量情況是組裝的基礎，較為理想的contig結果才能得到比較好的scaffold結果，對於正常的項目得到的congtig N50在1k左右，而N90在200bp左右（100PE測序）。如果是正常的基因組在kmer分析中沒有出現異常的情況，那么需要查看是否由於過多的測序錯誤造成的，即kmer頻數<3所占的比例過高造成的，那么對於數據糾錯是否有效執行，對於一些情況下，經過糾錯后的數據仍然可以設置-d參數，另外對於其他參數的選擇是否合理，k值大小（與數據量、基因組特性相關），M、R參數的使用。

4.2 文庫插入片段大小的校正

利用每個文庫的一個lane與組裝得到的基因組進行soap比對，利用程序畫出比對的插入長度分布，調整配置文件中的avg_ins
另外對於這個分析還能得到大片段文庫的可用數據的比率，有助於估計實際組裝可用的大片段數據量，詳見“大片段文庫質量標准.doc”。

4.3 基因組GC_depth分布圖

根據GC_depth分布圖可以看出測序是否有明顯的GC偏向，是否有存在樣品被細菌污染等情況。做GC_depth圖需要用到所有短片段reads的soap結果。
污染：高GC或者GC與正常整體有較大差異，覆蓋度低。取出異常區域
與nt庫做blast比對，確定可疑的污染細菌的全基因組，用測序得到的reads和可疑的污染細菌的全基因組做soap比對，取出能比對上的reads后重新組裝。

/ifs1/GAG/assemble/wangzhiwen/raid6/bin/gc_vs_depth/coverage_gc_dis.sh
運行腳本會得到使用說明

4.4 基因組的單鹼基深度分布

較為理想的分布是接近泊松分布，這樣說明測序的隨機性較好。計算基因組單鹼基深度用到所有reads的soap的結果，程序如下，直接運行的到幫助信息。
/nas/GAG_01A/assembly/Database/Assembly/chenyan/01.Data_analysis/soap.coverage

4.5 確定污染，去除污染reads

將在疑似污染區域中的scaffold，scaffold 80%落在疑似區域，將scaffold斷成contig，取片段>1k或者更長的部分(根據實際情況選擇)與nt庫做blast比對，取比對結果最好的以確定是否為污染，污染物為什么物種，使用注釋組流程：
/nas/GAG_02/huangqf/GACP-8.0/02.gene-annotation/Dbxref/bin/blast_database.pl
下載確定的污染物的基因組序列作為reference，將所有的reads與之比對，能有比上的就去掉對應的一對reads，過濾后的reads再進行重新組裝。

5. 確定組裝版本后的處理以及檢驗

5.1 原始contig定位

主要是針對原始contig的准確度遠高於補洞部分的序列，這樣在后期注釋、進化可以區別對待。
將原始contig定位到補洞后scaffold上，選取長度大於cutoff的contig，利用的是nucmer的比對，根據比對結果進行定位，比上位置為大寫的ATCG，其余位置為小寫atcg。輸出文件為*.OUT
相應腳本和程序目錄：
/nas/GAG_01A/assembly/Database/Assembly/yanglinfeng/confirm_contig2scaffold/
使用說明請參考目錄下README.doc

5.2 針對關鍵區域的PE關系數的確定

針對注釋或者進化對某些scaffold區域的分析得到較為重要的結果，需要進一步確定是否存在組裝錯誤問題。
從之前的所有reads的soap結果中選取對應的scaffold比對結果，利用程序
/ifs1/GAG/assemble/wangzhiwen/raid6/bin/pair_ends_map/version3.0/pair_end_in_scaffold.pl
得到可是的PE關系數的圖：
因為得到的整條scaffold的圖片比較大，window自帶的照片庫瀏覽器看不了，推薦一個看圖片的軟件，“ACDSee 9 Photo Manager”

6. 基因組的組裝版本的EST和BAC評價

6.1 EST評價

參考/nas/GAG_01A/assembly/yanglinfeng/EST_and_BAC/EST_work.sh

6.2 BAC評價

參考/nas/GAG_01A/assembly/yanglinfeng/EST_and_BAC/BAC_pipeline.pl
使用文檔請查看：
/nas/GAG_01A/assembly/yanglinfeng/EST_and_BAC/BAC_pipeline.README.txt

7. 其他使用到的程序以及說明

7.1 Connect Mated Read(CMR)

用於將測通的PE reads連接成一條長reads。
/nas/GAG_01A/assembly/Database/Assembly/Package/cmr/cmr
運行得到幫助信息，說明文檔在目錄：
/nas/GAG_01A/assembly/Database/Assembly/Package/cmr/

7.2 simulate_solexa_reads

用於模擬solexa reads，運行得到幫助信息。
/nas/GAG_01A/assembly/Database/Assembly/Package/simulate_solexa_reads/simulate_solexa_reads
說明文檔在目錄：
/nas/GAG_01A/assembly/Database/Assembly/Package/simulate_solexa_reads/

7.3 項目目錄結構

對於項目的目錄結構，每個項目下分6個子目錄。如：
/ifs1/GAG/assemble/chenyan/cucumber/目錄里面包含有
00.data 01.analysis 02.assembly 03.soap 04.evaule 05.super-scaffold 06.backup
00.data主要放置原始數據鏈接，處理后數據，Sanger測序數據
01.analysis主要是針對初步產出的20X的分析，包括Kmer分析和細菌污染比對分析
02.assembly 主要是保存組裝的版本
03.soap主要是需要分析文庫的插入片段，大片段數據去除小峰，reads數據去除污染，還有GC—Depth的分布等等
04.evaluate 主要是對組裝結果的評價，包括EST，BAC評價，全基因組線性化的比對（有reference序列）和兩個組裝版本間的比較
05.super-scaffold 主要是針對有fosmid-end和bac-end數據的項目
06.backup 主要是備份中期傳給客戶的報告，序列，還有上述需要備份的腳本和配置文件。

文章來源：基因組所培訓

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基因組組裝算法 PacBio長reads的大基因組組裝基因組組裝結果質量評估三代測序及基於三代數據的基因組組裝流程評估基因組組裝項目的十二步建議基因組組裝工具之 SOAPdenovo 使用方法動植物基因組組裝要點小結【基因組組裝】HiC掛載Juicebox糾錯補充【轉】單倍型基因組組裝方法【基因組組裝評估】轉錄組比對率