jucer和3d-DNA及其文章


 

Juicer allows users without a computational background to transform raw sequence data into normalized contact maps with one click.

Juicer produces a hic file containing compressed contact matrices at many resolutions, facilitating visualization and analysis at multiple scales.

 

Juicer comprises three tools, which are designed to be run one-after-another.

 

First, Juicer transforms raw sequence data into a list of Hi-C contacts (pairs of genomic positions that were adjacent to each other in three-dimensional space during the experiment).

To accomplish this, read pairs are aligned to the genome; both duplicates and near-duplicates are removed, and read pairs that align to three or more locations are set aside.

When appropriate hardware is available, this procedure can be accelerated, either by parallelizing across multiple CPUs or by using an FPGA.

 

Next, the catalog of contacts is used to create contact matrices. To do so, the linear genome is partitioned into loci of a fixed size, or “resolution,” (e.g., 1Mb or 1Kb).

These loci correspond to the rows and columns of a contact matrix; each entry in the matrix reflects the number of contacts observed between the corresponding pair of loci during a Hi-C experiment.

Due to factors such as chromatin accessibility, certain loci are observed more frequently in Hi-C experiments. Juicer can adjust for these biases in multiple ways.

 A wide array of quality statistics are also calculated, making it possible to assess the success and reliability of a given experiment before the costly deep-sequencing step.

 

The contact matrices generated in this way are stored efficiently in a compressed format, which is designed to facilitate all subsequent computations.

For instance, 1 terabyte of raw sequencing data is represented as an 80 gigabyte hic file containing normalized and non-normalized contact matrices at 18 different resolutions, from 2.5Mb resolution to single restriction fragment resolution for a 4-cutter restriction enzyme (~400bp). Contact matrices in the hic format can also be visualized using Juicebox, which is described in the accompanying paper.

 

Finally, Juicer contains a suite of algorithms that are designed to annotate contact matrices and thus identify features of genome folding. These features include loops, loop anchor motifs, and contact domains.

 

Loops are identified using the HiCCUPS algorithm, which searches for clusters of contact matrix entries in which the frequency of contact is enriched relative to the local background. Since there are trillions of pixels in a kilobase-resolution Hi-C map, HiCCUPS is implemented using GP-GPUs. Given CTCF and/or cohesin ChIP-Seq tracks for the same cell type, HiCCUPS can frequently use FIMO to identify the CTCF motif that serves as the anchor for each loop. We recently performed CRISPR experiments disrupting seven different CTCF motifs, each of which was identified by HiCCUPS as the anchor of one or more loops. In each case, disruption of the motif led to disruption of the corresponding loop, thus confirming the accuracy of HiCCUPS loop anchor annotations.

Contact domains are identified using a dynamic programming algorithm that relies on applying the Arrowhead transformation [Ai,i+d = (M* i,i-d − M* i,i+d)/(M* i,i-d + M* i,i+d)] to a normalized contact matrix M* . Many of these domains are associated with loops, and can be disrupted by manipulating the corresponding loop anchors.

 

It is frequently useful to examine the cumulative signal from a large number of putative features at once, including both loops and domains. To this end, Juicer includes an implementation of Aggregate Peak Analysis.

 

Juicer is an open-source project. It is available at github.com/theaidenlab/juicer as a series of packages designed for a variety of hardware configurations: either a single machine, or clusters that run LSF, Univa Grid Engine, or SLURM. In addition, Juicer is available on the cloud at Amazon Web Services.displays different performance metrics on each cluster system; the details of each setup are in the supplement text.

Once installed, Juicer can be executed using a single command, by users without informatics experience.

 

 

Sequenced read pairs (horizontal bars) are aligned to the genome in parallel. Color indicates genomic position. Read pairs aligning to more than two positions are excluded.

Those remaining are sorted by position and merged into a single list, at which point duplicate reads are removed.

The .hic file stores contact matrices at many resolutions, which can be loaded into Juicebox for visualization

 

3d-dna文章和算法

Dudchenko O, Batra S S, Omer A D, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds[J]. Science, 2017, 356(6333): 92-95.

研究人員開發出了一種Hi-C數據的新算法3D de novo assembly (3D DNA) pipeline

(https://github.com/theaidenlab/3d-dna),用這一改良的Hi-C數據分析技術來組裝人類基因組,發現99%的基因序列符合人類基因組的標准參照,93%的scaffolds定向均是正確的。聯合已有的埃及伊蚊數據采用Hi-C數據(40X序列覆蓋度)來分割,錨定,排序,定向和合並10kb以上的2534個Scaffolds。其中,鑒定了1422個Scaffolds中明顯的錯配。組裝后的AaegL4版本基因組含有三個染色體長度的Scaffolds(長度分別為307Mb、472Mb和404Mb)占總輸入序列的94%,合並剩下的3981個短的Scaffolds(N50為65kb,最長為474kb)獲得最終與三條染色體對應的Scaffolds。

 

算法處理描述:

1) 首先過濾小的Scaffolds,由於其片段長度過小,Locus互作頻率相對較少,分析結果不可靠。

2) 對剩余的Scaffolds進行Locus互作頻率一致性分析,具有錯誤拼接的Scaffolds分割成段,分割后保留具有遠程互作模式一致性的Scaffolds片段,去掉不具一致性的部分

3) 根據一對互作序列之間的互作強弱來錨定,排序和定向所得到的序列,建立初步可信的染色體長度的Scaffolds

4) 基於序列同源性和遠距離互作模式高度相性鑒定基因組重疊區域,根據重疊區來合並Scaffolds和Contig,獲得最終的染色體長度的Scaffolds。這一步驟對於高雜合的基因組組裝至關重要。

 

 

 

 

3D-DNA是一款簡單,方便的處理Hi-C軟件,可將contig提升到染色體水平。其githup網址:https://github.com/theaidenlab/3d-dna

 

3D-DNA流程簡介

  • 將Hi-C數據比對到draft.genome.fa。(利用Juicer分析Hi-C數據)
  • 利用自動化流程進行糾錯(misjoin),排序(order),確定正確方向(orient),最后scaffolding,得到染色體水平的組裝結果(3D-DNA分析)
  • Juicebox 進行人工糾錯

 

大概流程

數據准備:

  • ref文件夾: 存放draft.genome.fa
  • fastq: 存放HI-C測序雙端reads, 注意reads文件名的格式 保證*.R1.fastq, *.R2.fastq

 

 

++++++++++++++++++++++++正式開始+++++++++++++++++++++++++++++

一、 利用Juicer 分析HI-C數據

 

第一步:基因組建立索引

bwa index draft.genome.fa

 

 

第二步: 創建可能的酶切位點文件

1 python ~/software/juicer/misc/generate_site_positions.py  HindIII  draft.genome  draft.genome.fa
2 
3 # 本次使用的是 HindIII 進行酶切;選擇自己所有的酶

 

 

第三步:獲取每條contig的長度

1 awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes

 

 

第四步:運行juicer

注意:必須在當前目錄存在fastq和ref文件夾, -z,-p,-y必須參數

復制代碼
 1 ~/software/juicer/scripts/juicer.sh -g draft_genome -s HindIII -z ./ref/draft.genome.fa -y 
./ref/draft.genome_HindIII.txt -p ./ref/draft.genome.chrom.sizes -t 8 2 3 4 5 ## 參數 6 -g: 定義一個物種名 7 -s:酶切類型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG) 8 -z : 參考基因組文件 9 -y: 限制性酶切位點可能出現位置文件 10 -p: 染色體大小文件 11 -C: 將原來的文件進行拆分,必須是4的倍數,默認是90000000, 即22.5M reads 12 -S: 和任務重運行有關,從中途的某一步開始,"merge", "dedup", "final", "postproc" 或 "early" 13 -d: juicer的目錄 14 -D: juicer scripts的目錄 15 -t: 線程數
復制代碼

 

結果:結果文件在aligned目錄下,其中"merged_nodups.txt"就是下一步3D-DNA的輸入文件之一

 

 

二、 運行3D-DNA

 

使用默認參數進行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt

最后輸出文件中,包含FINAL就是我們需要的結果

 

三、 juicerbox進行手動糾錯

 

首先下載該軟件:https://github.com/aidenlab/Juicebox/wiki/Download

一般組裝錯誤為:

  • misjoin
  • translocations
  • inversions
  • chromosome boundaries

關於該軟件用法,可看該視頻:https://www.bilibili.com/video/av65134634

糾錯完以后,會得到genome.review.assembly用於下一步的分析

 

 

四、 再次運行3D-DNA

 

1 ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt

 

假如你不小心設置了錯誤的-p參數,也不是特別的要緊,因為之后在最后階段(final) 才會遇到了下面這個報錯。

Could not find chromosome sizes file for: reference/genome.chrom.size ***! Can't find inter.hic in aligned/inter_30.hic ***! Error! Either inter.hic or inter_30.hic were not created Either inter.hic or inter_30.hic were not created. Check aligned for results 

即便遇到了這個報錯也不要緊,因為inter.hic 和 inter_30.hic在3d-dna流程中用不到,所以不需要解決。

如果需要解決的話,有兩個解決方案,一種重新運行命令,只不過多加一個參數-S final, 就會跳過之前的比對,合並和去重步驟,直接到后面STATISTICS環節。但是這樣依舊會有一些不必要的計算工作,所以另一種方法就是運行原腳本必要的代碼

 

 

輸入文件是從hic搭建軟件3d-dna獲得的**.hic文件,直接輸入這個文件后就可以獲得一個直接的熱圖。

還需要一個.assemble文件,是包含了contig位置信息的文件。輸入進去之后會是很多方框,表示了這個contig與熱圖對應的位置,然后就可以進行染色體的確定和手動調整。具體還是看3d-dna的或者juicebox的使用說明吧。



https://github.com/aidenlab/Juicebox/wiki/Visualization

 

 

De novo assembly of the Aedes aegyptigenome using Hi-C yields chromosome-length scaffolds

原始文章閱讀學習

 

Computational experiments with simulated input data have suggested that Hi-C should be able to produce chromosome-length scaffolds (6–8). Indeed, Hi-C has been used to improve draft genome assemblies (7, 9) and to create chromosome-length scaffolds for large genomes

 

大多數用短reads拼接的基因組都需要額外的數據補洞,用來完成構成真核基因組的許多染色體的完整組裝。Dudchenko(杜沁珂..:))Hi-C方法測量了用於scaffold確認的在染色體內和間的接觸點,加上修正和排序,以更徹底地確定基因組映射的短序列的排列。他們通過一個完整的人類基因組的生成驗證了他們的方法。用已有的draft基因組和Hi-C的數據產生了染色體長度的scaffold, 短reads是67x, 這些組裝表明這些物種的幾乎所有基因組重組是在染色體臂的內部而不是之間,發生的。這種基因組組裝方法快速,便宜,精確,適用范圍廣。

 

contiguous sequences (contigs)

 

Within scaffolds, adjacent contigs are often separated by a gap, which corresponds to a region that is hard to assemble from the available sequence reads (for example, because of repetitive sequences or low coverage) but that can nevertheless be spanned by using the linking information to determine the contigs at either end of the gap.

 

這種克隆文庫常常能夠提供1000倍范圍的覆蓋度,用這個策略,它很可能產生的scaffold的大小從1到15Mb. 但由於一些重復區域太大,很難通過可獲得的克隆文庫得到延展,所以獲得在整個染色體延伸的scaffolds是不可能的。

 

Hi-C 用於測量成對位點間的接觸頻率-來得知基因組是如何折疊的。接觸頻率在很大程度上取決於成對位點,(以鹼基對表示)一維(1D)距離,例如,在人類基因組中分離10kb的位點,比距離為100kb的位點的接觸多8倍。按絕對值計算,從給定位點,其 10 kb 以內的位點的典型的Hi-C接觸分布為 15%;其10-100 Mb 遠的接觸點分布為16%。

 

Hi-C 數據可以提供跨各種長度的連接 (links), 甚至擴展到整個染色體。然而,與來自克隆文庫的成對末端reads不同,任何給定的Hi-C接觸跨越未知長度,並且可能連接不同染色體上的基因位點

 

Computational experiments with simulated input data have suggested that Hi-C should be able to produce chromosome-length scaffolds. Indeed, Hi-C has been used to improve draft genome assemblies and to create chromosome-length scaffolds for large genomes. 在這個過程中,HiC數據被用來將草圖scaffold分配到染色體上,然后排序,然后在每個染色體上排列和定位這個草圖scaffold. 不幸的是,這個結果包含大量錯誤,包括染色體級別的倒置和錯位,融合了染色體。此類裝配錯誤有可能是因為原始的草圖裝配的錯誤引起的。避免此類錯誤的一個方法,可能是用其他額外類型信息的輔助,比如更長的reads或者光學映射數據

We therefore sought to develop a robust procedure for using Hi-C linking information to generate accurate genome assemblies with chromosome-length scaffolds A key aspect of the approach is to first use Hi-C data to identify and correct errors in the scaffolds of the initial assembly. 用HiC連接信息來識別和矯正組裝草圖中的錯誤,簡單來說,我們通過識別位置來矯正錯誤連接,在這些位置上,一個scaffold長度范圍的互作模式突然改變了,而這種情況,在正確組裝的scaffold中是可能出現的。接下來,我們調用了一對序列中的互作頻率,作為在1維基因組它們的接觸程度的“指示劑”,使用了一個新穎的算法來錨定、排序和定位這些結果序列。最終,我們通過識別這些成對的scaffolds,這些scffolds在長范圍互作模式上表現出強烈的序列同源性和強烈的相似性,將相應於這些基因組的重疊區域的contigs和scaffolds進行合並(圖1和圖S1)。

 

圖1 我們使用HiC數據,對草圖組裝進行錯誤連接矯正,scaffold,合並重疊區域,因此組裝除了染色體長度的scaffolds.

 

 

 

 

 這里我們展示了一個通過將HiC數據集比對到基因組上的互作矩陣,

左邊是輸入,右邊是用我們的算法裝出來的最終的基因組。互作矩陣中的像素強度表明了細胞核中的一對位點共定位是有多頻繁。對應每一行每一列相應的位點用染色體圖譜來表明。最左邊的染色體圖描繪了三個連鎖群:Lnk1,2,3和一個未分配的U。

右邊的染色體圖,描繪了三個染色體水平的scaffold,

 

為了建立這個染色圖,我們給最右邊圖里的每個arm分配了一個線性的顏色梯度,因此給每個位置都指定了一個顏色。同樣的顏色用在左邊圖里的相應的位置上,和我們中間圖:矯正過程的說明中(通過逐漸增加對比)色譜圖的不連續性表明了這些圖和最終最右邊的圖的不同。

我們用左圖中Lnk1中的scaffold作為輸入,來描述我們的組裝算法,看括號里的supercontig 1.12。

首先,檢查scaffold的錯誤拼接,將展現出連續HiC信號的結果片段拆分(中圖,最上面那副)

然后,這個片段被用作進行scaffolding的迭代的輸入

最終,只有一個其中的片段被比對到了染色體1

 

在許多的scaffold的附近-沒有錨定到左圖上的剩下的超級contig1.12被比對到了2q上,(中圖,中間那一行)

最終,呈現出相似3D信號的片段被檢查作為重疊序列的證據(綠色的矩形),並且被合並。(中圖,下面那一行)

最終的互作圖是和Rabl(可能是個基因的名字)構成是一致的,例如,着絲粒和端粒的空間聚類。

 

我們用從頭組裝的人的基因組(某細胞系測的),驗證了我們的方法。這個僅使用了短illumina reads (67X) 組裝成了23個染色體級別的scaffold。我們從250鹼基對(bp)雙末端reads,(從SRA數據庫下載了SRX297987-用無PCR的方法illumina測序、60X 覆蓋率的數據),用DISCOVAR從頭組裝,這個出來的組裝本,被命名為Hs1, 包括2.82Gb的序列,在73,770 scaffolds(N50:126 kb)中分出來的contig N50:103kb

 

表1,我們沒有嘗試進一步組裝每個草圖中包含的微小支架。而是通過使用Hi-C組裝每個草圖中的其他支架,以創建巨大的,染色體長度的支架和其他小的支架。

 

我們然后使用了原位的HiC數據(6.7X的序列覆蓋度),來提高組裝草圖。我們把小於15kb,N50 6.1 kb的作為小的scaffolds,並把它們放在一邊。它們總共占據了測序鹼基的5.4%。由於它們大小很小,所以相對Hi-C互作接觸少,更難分析。我們接下來使用HiC數據來分割、錨定、排序和定位剩下的3萬多個scaffolds。組裝結果包含23個很大的scaffolds,長度從28.8到225.2Mb,包括了總序列的99.5%, 其余811個小scaffold, N50長度是30 kb,最大長度231 kb,占據了基因組剩余的0.5%。

 

我們組裝的基因組與人類參考基因組進行質量比較。23個scaffolds對應了23個人類的染色體,跨越了長度的99%和染色體長度scaffold的91%,這些染色體長度的scaffolds99.7%能唯一放置到人類參考基因組正確的染色體上。對於隨機選擇的成對的比對到相同的染色體長度上的scaffolds的scaffolds,它的順序是和參考基因組中99%的順序相一致的。

 

這個96%的一致性,反映了HiC數據對分辨短scaffolds的好的結構提供了更少的信息。盡管如此,對於至少120 kb長的scaffolds的一致性是99%。類似地,93%的scaffolds的定位是准確的,而且大多數錯誤都是來源於短scaffolds的。

 

總之,這個染色體長度、小的scaffolds占據了參考基因組染色體長度scaffolds的97.3%?剩余的主要因為是重復序列,不能從短reads中充分組裝。我們的方法進一步通過PacBio三代長reads組裝出來草圖得到了驗證,那個裝出來的草圖包含了更長的contigs.

 

接下來,我們將我們的方法應用到了一個原來用Sanger 8X 覆蓋度的reads組裝出來的基因組中,這個組裝草圖包含了1.3 Gb的序列 (contig N50是83 kb),分散在4756個scaffolds中,scaffolds N50是1.5 Mb。

 

為了提高這個基因組草圖的質量,我們生成出了40X覆蓋度的原位的HiC數據,將2222個短於10kb的scaffolds放在一邊后(占據了起始組裝的鹼基的1%),我們使用HiC數據來切分,錨定,定位和融合了剩下的2534個scaffolds. 明顯地,我們的流程識別出了這些輸入scaffolds中錯誤連接的scaffold的56%:1422個。

 

我們把我們的組裝本比較到了這個埃及按蚊的基因圖上,在這個遺傳圖上,有2006個標記,其中1826個標記能夠被明確地map到右圖(也就是HiC輔助組裝並校正后的最終圖)上。明顯地,我們的組裝和這個遺傳圖的1826個標記中的1822個一致(圖2)。這里的例外(1826-1822=4?)是因為在左圖(也就是使用HiC輔助前的基因組草圖)的錯誤連接,在右圖(也就是用HiC完成輔助組裝后)中沒有檢測到。我們也觀察到?和該埃及按蚊基因組物理圖譜的密切一致性(圖S12)。

 

 

圖2 HiC輔助組裝最終結果AaegL4和CpipJ3的遺傳圖譜的比較

我們對AaegL4和CpipJ3的遺傳圖譜進行比較,我們的組裝結果AaegL4是和遺傳圖譜1826中的1822個相一致的。不一致的那4個是因為在圖1左圖中的基因組草圖中的錯誤拼接,在圖1右圖最終HiC輔助組裝且校正后的最終的基因組中沒有被校正。

類似地,右圖CpipJ3的遺傳圖譜是和另一種蚊子C. q...的遺傳圖譜是一致的。

 

我們還用我們這個方法,組裝了上面提到的那另一種文字C.q...。我們產生了100X覆蓋率的原位HiC數據,並且用它們提高了之前版本的基因組CpipJ2,獲得了一個新的組裝CpipJ3,這個新裝出的基因組,有3個染色體長度的scaffolds,總共占據了起始組裝的94%的序列。我們通過將HiC最終輔助組裝出的基因組與已有的遺傳和物理圖譜比較,對新裝出的該HiC輔助組裝出的基因組進行了驗證。

 

兩種蚊子染色體長度scaffolds的創建,允許我們使用我們的HiC數據來創建HiC熱圖-展現了兩個基因組中染色體基因組之間的鄰近關系。明顯地,三個染色體的遠末端展現了兩個物種中的空間聚類。兩個物種都展現出了一個第二個空間聚類,包含三個位點:一個位點來自於每個染色體,主要分布在中間。這種聚類與着絲粒的空間聚集相一致,着絲粒在許多生物中都存在。總之,這個3D圖適合一個已知的Rabl結構的空間組織相一致的。我們的發現也表明了每個染色體中心粒的位置和它們把每個蚊子的染色體分成兩個臂(arms)。

 

(用HiC組裝出來的基因組,可以進行進化分析。)兩種蚊子的全基因組比對識別出1389個大的保守共線性區塊。相似的結構在另一種蚊子C. q..中也能觀察到。盡管存在密集的重組,我們在某三種蚊子中,觀察到了染色體arms間相對應的序列。特別是,一個物種中大量的DNA序列在一個特殊的染色體臂上,而在另外兩個物種中單個染色體臂上也發現了這些同源序列。唯一的例外是在其中岡比亞按蚊中在單個arm上的某序列,是在埃及按蚊和C. q..蚊子的兩個arm上的,這和導致了埃及按蚊和C. q..蚊子共有祖先這個arm的裂開有關(圖3)。這些觀察結果是和細胞分析學結果一致的。

 

 

圖3. 蚊子的染色體arms的內容是高度保守的

 

埃及按蚊,每100 kb的位點,指定一種顏色

其他物種,每100 kb的位點,指定一個對應埃及按蚊顏色的組合,用長度來衡量

 

總之,這些結果表明,除了上面提到的分裂事件外,三種蚊子的每個染色體臂是在約1.5-2億年前來自它們共同祖先的一個單個的arm的,蚊子對臂內重排的偏好比哺乳動物更強

 

值得注意的是,果蠅的2號染色體的左臂在所有這三種蚊子中都有明顯的對應物。因此,所有四個臂都起源於2.5億年前它們的的二倍體祖先中的單個染色體臂

 

總的來說,我們的結果表明,將Hi-C數據整合到基因組組裝中可提供一種快速,廉價的方法,以生成具有染色體長度支架的高精度從頭組裝。目前,哺乳動物基因組的3D從頭組裝總測序成本低於10,000美元,而較小的基因組則更低

 

重要的是要記住,這種組裝仍然包含錯誤。例如,盡管Hi-C數據提供了覆蓋長距離的廣泛鏈接,但是當前該方法對於小鄰接contigs的局部排序並不理想。可以通過對Hi-C數據進行更復雜的分析來避免這種情況。附加數據(例如長讀或配對讀)也可以改善結果。快速可靠地生成具有染色體長度scaffold的基因組草圖將能加快許多生物的基因組分析。

 

 

 

參考來源:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5846465/

http://aidenlab.org/documentation.html

https://www.cnblogs.com/zhanmaomao/p/12763021.html

https://www.sohu.com/a/227585271_464200

https://www.jianshu.com/p/42f424ccb2db

https://github.com/aidenlab/Juicebox/wiki/Visualization

 

https://science.sciencemag.org/content/356/6333/92 Dudchenko, Olga, et al. "De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds." Science 356.6333 (2017): 92-95.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM