3D-DNA 掛載染色體

本文轉載自查看原文 2020-04-23 19:37 2677 HI-C

3D-DNA是一款簡單，方便的處理Hi-C軟件，可將contig提升到染色體水平。其githup網址：https://github.com/theaidenlab/3d-dna

3D-DNA流程簡介

將Hi-C數據比對到draft.genome.fa。（利用Juicer分析Hi-C數據）
利用自動化流程進行糾錯（misjoin），排序（order），確定正確方向（orient），最后scaffolding，得到染色體水平的組裝結果（3D-DNA分析）
Juicebox 進行人工糾錯

所需軟件及安裝

LastZ (version 1.03.73 released 20150708) – for diploid mode only
Java version >=1.8
Bash >=4
GNU Awk >=4.0.2
GNU coreutils sort >=8.11
Python >=2.7 - for chromosome number-aware splitter module only
scipy numpy matplotlib - for chromosome number-aware splitter module only
GUN Parallel >=20150322 (可選，建議裝)
bwa
兩個核心軟件 juicer 和3D-DNA

安裝軟件

 1 ## 安裝juice
 2 git clone https://github.com/theaidenlab/juicer.git
 3 cd juicer
 4 ln -s CPU scripts
 5 cd scripts/common
 6 wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
 7 ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar
 8 
 9 ## 安裝3D-DNA
10 git clone https://github.com/theaidenlab/3d-dna.git

大概流程

數據准備：

ref文件夾：存放draft.genome.fa
fastq: 存放HI-C測序雙端reads, 注意reads文件名的格式保證*.R1.fastq, *.R2.fastq

++++++++++++++++++++++++正式開始+++++++++++++++++++++++++++++

一、利用Juicer 分析HI-C數據

第一步：基因組建立索引

bwa index draft.genome.fa

第二步：創建可能的酶切位點文件

1 python ~/software/juicer/misc/generate_site_positions.py  HindIII  draft.genome  draft.genome.fa
2 
3 # 本次使用的是 HindIII 進行酶切；選擇自己所有的酶

第三步：獲取每條contig的長度

1 awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes

第四步：運行juicer

注意：必須在當前目錄存在fastq和ref文件夾， -z,-p,-y必須參數

 1 ~/software/juicer/scripts/juicer.sh -g draft_genome -s HindIII -z ./ref/draft.genome.fa -y ./ref/draft.genome_HindIII.txt -p ./ref/draft.genome.chrom.sizes -t 8
 2 
 3 
 4 
 5 ## 參數
 6 -g： 定義一個物種名
 7 -s：酶切類型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG)
 8 -z : 參考基因組文件
 9 -y: 限制性酶切位點可能出現位置文件
10 -p: 染色體大小文件
11 -C: 將原來的文件進行拆分，必須是4的倍數，默認是90000000, 即22.5M reads
12 -S: 和任務重運行有關，從中途的某一步開始,"merge", "dedup", "final", "postproc" 或 "early"
13 -d: juicer的目錄
14 -D: juicer scripts的目錄
15 -t: 線程數

結果：結果文件在aligned目錄下，其中"merged_nodups.txt"就是下一步3D-DNA的輸入文件之一。

二、運行3D-DNA

使用默認參數進行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt

最后輸出文件中，包含FINAL就是我們需要的結果。

三、 juicerbox進行手動糾錯

首先下載該軟件：https://github.com/aidenlab/Juicebox/wiki/Download

一般組裝錯誤為：

misjoin
translocations
inversions
chromosome boundaries

關於該軟件用法，可看該視頻：https://www.bilibili.com/video/av65134634

糾錯完以后，會得到genome.review.assembly用於下一步的分析

四、再次運行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt

歡迎大家討論交流，若有問題，可添加一下公眾號，后台留言即可

---END---

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 細胞，染色體，DNA與基因的關系 MIT Molecular Biology 筆記1 DNA的復制，染色體組裝基因染色體定位 jucer和3d-DNA及其文章對性染色體進行關聯分析 plink格式數據依據染色體拆分數據、依據染色體合並數據染色體共線性可視化 python學習——通過命令行參數根據fasta文件中染色體id提取染色體序列如何快速將參考基因組拆分為各條染色體序列？一行命令批量修改染色體和位置為RS號