1. 前期准備
背景信息:
- GC含量 和 GC分布
- 基因組重復程度
- 基因組大小估計
- 雜合情況
最好的情況是對方能提供已經發表的近源物種。根據近源物種分析以上信息,尤其是GC含量以及對應的GC分布,重復程度。
2. 測序策略
根據基因組大小和具體情況選擇個大概的k值,根據“測序X數推導說明.pdf”制定用於構建contig所需的數據量以及所需的構建的文庫數量。對於植物基因組一般考慮的是大kmer(>31),動物的話一般在27左右,具體根據基因組情況調整。需要在短片段數據量達到20X左右的時候進行kmer分析。Kmer分析正常后,繼續加測數據以達到最后期望的數據量。
3. 組裝流程
原始數據-數據過濾-糾錯-kmer分析-denovo組裝
3.1 數據過濾:
/nas/GAG_01A/assembly/Database/Assembly/Package/Filter_data/目錄下有程序、源代碼、使用文檔、test實例
/nas/GAG_01A/assembly/yanglinfeng/Filter_gz/目錄下程序用法和上面一樣,讀gz壓縮文件,省去解壓縮
3.2 數據糾錯:
/ifs1/GAG/assemble/fanw/Assembly/source_codes/correct_error/correct_error_v1.0/有先使用多線程版本correct_error_pread
說明文檔以及算法詳見“Error_correction_algorithm.doc”
3.3 kmer分析:
/nas/GAG_01A/assembly/Database/Assembly/Package/kmerfreq/目錄下有程序、源代碼、使用文檔、
/ifs1/GAG/assemble/lizhenyu/kmer/kmerfreq2buff/kmerfreq 多線程版本,原理與上面程序一致,程序幫助信息包含使用實例
原理說明可參見“kmer分析.docx”
Kmer 分析中估計基因組大小采用糾錯后的數據。
3.4 SOAP denovo(grape)組裝:
/nas/RD_01A/xieyinlong/bin/目錄下grape63mer大kmer版本,可設k>31,grape1123設置K<=31,其他在使用沒有差別
/nas/RD_01A/zhuhm/bin/
使用說明以及一些參數選擇上具體參見“SOAP denovo使用說明”。
grape組裝並非一次就能得到理想的結果,會根據以有的組裝結果做分析,調整參數,處理數據,加測少量數據等策略來得到比較理想的結果,在下面的說明中進行詳細解釋。
4. 基因組的grape組裝輸出以及soap比對分析
4.1 Contig構建質量
Contig構建的質量情況是組裝的基礎,較為理想的contig結果才能得到比較好的scaffold結果,對於正常的項目得到的congtig N50在1k左右,而N90在200bp左右(100PE測序)。如果是正常的基因組在kmer分析中沒有出現異常的情況,那么需要查看是否由於過多的測序錯誤造成的,即kmer頻數<3所占的比例過高造成的,那么對於數據糾錯是否有效執行,對於一些情況下,經過糾錯后的數據仍然可以設置-d參數,另外對於其他參數的選擇是否合理,k值大小(與數據量、基因組特性相關),M、R參數的使用。
4.2 文庫插入片段大小的校正
利用每個文庫的一個lane與組裝得到的基因組進行soap比對,利用程序畫出比對的插入長度分布,調整配置文件中的avg_ins
另外對於這個分析還能得到大片段文庫的可用數據的比率,有助於估計實際組裝可用的大片段數據量,詳見“大片段文庫質量標准.doc”。
4.3 基因組GC_depth分布圖
根據GC_depth分布圖可以看出測序是否有明顯的GC偏向,是否有存在樣品被細菌污染等情況。做GC_depth圖需要用到所有短片段reads的soap結果。
污染:高GC或者GC與正常整體有較大差異,覆蓋度低。取出異常區域
與nt庫做blast比對,確定可疑的污染細菌的全基因組,用測序得到的reads和可疑的污染細菌的全基因組做soap比對,取出能比對上的reads后重新組裝。
/ifs1/GAG/assemble/wangzhiwen/raid6/bin/gc_vs_depth/coverage_gc_dis.sh
運行腳本會得到使用說明
4.4 基因組的單鹼基深度分布
較為理想的分布是接近泊松分布,這樣說明測序的隨機性較好。計算基因組單鹼基深度用到所有reads的soap的結果,程序如下,直接運行的到幫助信息。
/nas/GAG_01A/assembly/Database/Assembly/chenyan/01.Data_analysis/soap.coverage
4.5 確定污染,去除污染reads
將在疑似污染區域中的scaffold,scaffold 80%落在疑似區域,將scaffold斷成contig,取片段>1k或者更長的部分(根據實際情況選擇)與nt庫做blast比對,取比對結果最好的以確定是否為污染,污染物為什么物種,使用注釋組流程:
/nas/GAG_02/huangqf/GACP-8.0/02.gene-annotation/Dbxref/bin/blast_database.pl
下載確定的污染物的基因組序列作為reference,將所有的reads與之比對,能有比上的就去掉對應的一對reads,過濾后的reads再進行重新組裝。
5. 確定組裝版本后的處理以及檢驗
5.1 原始contig定位
主要是針對原始contig的准確度遠高於補洞部分的序列,這樣在后期注釋、進化可以區別對待。
將原始contig定位到補洞后scaffold上,選取長度大於cutoff的contig,利用的是nucmer的比對,根據比對結果進行定位,比上位置為大寫的ATCG,其余位置為小寫atcg。輸出文件為*.OUT
相應腳本和程序目錄:
/nas/GAG_01A/assembly/Database/Assembly/yanglinfeng/confirm_contig2scaffold/
使用說明請參考目錄下README.doc
5.2 針對關鍵區域的PE關系數的確定
針對注釋或者進化對某些scaffold區域的分析得到較為重要的結果,需要進一步確定是否存在組裝錯誤問題。
從之前的所有reads的soap結果中選取對應的scaffold比對結果,利用程序
/ifs1/GAG/assemble/wangzhiwen/raid6/bin/pair_ends_map/version3.0/pair_end_in_scaffold.pl
得到可是的PE關系數的圖:
因為得到的整條scaffold的圖片比較大,window自帶的照片庫瀏覽器看不了,推薦一個看圖片的軟件,“ACDSee 9 Photo Manager”
6. 基因組的組裝版本的EST和BAC評價
6.1 EST評價
參考/nas/GAG_01A/assembly/yanglinfeng/EST_and_BAC/EST_work.sh
6.2 BAC評價
參考/nas/GAG_01A/assembly/yanglinfeng/EST_and_BAC/BAC_pipeline.pl
使用文檔請查看:
/nas/GAG_01A/assembly/yanglinfeng/EST_and_BAC/BAC_pipeline.README.txt
7. 其他使用到的程序以及說明
7.1 Connect Mated Read(CMR)
用於將測通的PE reads連接成一條長reads。
/nas/GAG_01A/assembly/Database/Assembly/Package/cmr/cmr
運行得到幫助信息,說明文檔在目錄:
/nas/GAG_01A/assembly/Database/Assembly/Package/cmr/
7.2 simulate_solexa_reads
用於模擬solexa reads,運行得到幫助信息。
/nas/GAG_01A/assembly/Database/Assembly/Package/simulate_solexa_reads/simulate_solexa_reads
說明文檔在目錄:
/nas/GAG_01A/assembly/Database/Assembly/Package/simulate_solexa_reads/
7.3 項目目錄結構
對於項目的目錄結構,每個項目下分6個子目錄。如:
/ifs1/GAG/assemble/chenyan/cucumber/目錄里面包含有
00.data 01.analysis 02.assembly 03.soap 04.evaule 05.super-scaffold 06.backup
00.data主要放置原始數據鏈接,處理后數據,Sanger測序數據
01.analysis主要是針對初步產出的20X的分析,包括Kmer分析和細菌污染比對分析
02.assembly 主要是保存組裝的版本
03.soap主要是需要分析文庫的插入片段,大片段數據去除小峰,reads數據去除污染,還有GC—Depth的分布等等
04.evaluate 主要是對組裝結果的評價,包括EST,BAC評價,全基因組線性化的比對(有reference序列) 和兩個組裝版本間的比較
05.super-scaffold 主要是針對有fosmid-end和bac-end數據的項目
06.backup 主要是備份中期傳給客戶的報告,序列,還有上述需要備份的腳本和配置文件。
文章來源:基因組所培訓