3D-DNA是一款簡單,方便的處理Hi-C軟件,可將contig提升到染色體水平。其githup網址:https://github.com/theaidenlab/3d-dna
3D-DNA流程簡介
- 將Hi-C數據比對到draft.genome.fa。(利用Juicer分析Hi-C數據)
- 利用自動化流程進行糾錯(misjoin),排序(order),確定正確方向(orient),最后scaffolding,得到染色體水平的組裝結果(3D-DNA分析)
- Juicebox 進行人工糾錯

所需軟件及安裝
LastZ (version 1.03.73 released 20150708)– for diploid mode only- Java version >=1.8
Bash >=4GNU Awk >=4.0.2GNU coreutils sort >=8.11Python >=2.7- for chromosome number-aware splitter module onlyscipy numpy matplotlib- for chromosome number-aware splitter module only- GUN Parallel >=20150322 (可選,建議裝)
- bwa
- 兩個核心軟件 juicer 和3D-DNA
安裝軟件
1 ## 安裝juice 2 git clone https://github.com/theaidenlab/juicer.git 3 cd juicer 4 ln -s CPU scripts 5 cd scripts/common 6 wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar 7 ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar 8 9 ## 安裝3D-DNA 10 git clone https://github.com/theaidenlab/3d-dna.git
大概流程
數據准備:
- ref文件夾: 存放draft.genome.fa
- fastq: 存放HI-C測序雙端reads, 注意reads文件名的格式 保證*.R1.fastq, *.R2.fastq
++++++++++++++++++++++++正式開始+++++++++++++++++++++++++++++
一、 利用Juicer 分析HI-C數據
第一步:基因組建立索引
bwa index draft.genome.fa
第二步: 創建可能的酶切位點文件
1 python ~/software/juicer/misc/generate_site_positions.py HindIII draft.genome draft.genome.fa 2 3 # 本次使用的是 HindIII 進行酶切;選擇自己所有的酶
第三步:獲取每條contig的長度
1 awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes
第四步:運行juicer
注意:必須在當前目錄存在fastq和ref文件夾, -z,-p,-y必須參數
1 ~/software/juicer/scripts/juicer.sh -g draft_genome -s HindIII -z ./ref/draft.genome.fa -y ./ref/draft.genome_HindIII.txt -p ./ref/draft.genome.chrom.sizes -t 8 2 3 4 5 ## 參數 6 -g: 定義一個物種名 7 -s:酶切類型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG) 8 -z : 參考基因組文件 9 -y: 限制性酶切位點可能出現位置文件 10 -p: 染色體大小文件 11 -C: 將原來的文件進行拆分,必須是4的倍數,默認是90000000, 即22.5M reads 12 -S: 和任務重運行有關,從中途的某一步開始,"merge", "dedup", "final", "postproc" 或 "early" 13 -d: juicer的目錄 14 -D: juicer scripts的目錄 15 -t: 線程數
結果:結果文件在aligned目錄下,其中"merged_nodups.txt"就是下一步3D-DNA的輸入文件之一。
二、 運行3D-DNA
使用默認參數進行3D-DNA
1 ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt
最后輸出文件中,包含FINAL就是我們需要的結果。
三、 juicerbox進行手動糾錯
首先下載該軟件:https://github.com/aidenlab/Juicebox/wiki/Download
一般組裝錯誤為:
- misjoin
- translocations
- inversions
- chromosome boundaries
關於該軟件用法,可看該視頻:https://www.bilibili.com/video/av65134634
糾錯完以后,會得到genome.review.assembly用於下一步的分析
四、 再次運行3D-DNA
1 ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt
歡迎大家討論交流,若有問題,可添加一下公眾號,后台留言即可

---END---
