ATAC-seq數據處理流程 | 自定義 & 個性化分析


本文的分析套路劍指10-20分的journal,全是干貨。


 

發現一個不錯的專題,講得很詳細。

ATAC-seq/ChIP-seq分析方法

 

其中一個細節IDR,講得很通俗。

第6篇:重復樣本的處理——IDR

 

ATAC-seq data analysis: from FASTQ to peaks

 

基本概念:

  • ATAC-seq和ChIP-seq鑒定出來的peak到底是一些什么區域?除了promotoer就是enhancer
  • TSS enrichment和motif是兩個不同的套路,TSS是特指啟動區域,每個基因只有一個;另一個就是motif,這就是抓出TF,哪些TF在發揮作用

 

分析套路

鑒定差異peak

  • 兩組數據比較
  • 多組數據比較 - peak cluster

處理細節:

  • Peak calling was performed using MACS2 from all sample reads. 多樣本這樣處理更加靠譜,macs2出來的peak結果才是靠譜的,不要隨便用bedtools修改源頭的peak,否則得到的peak很奇怪

  • The number of raw reads mapped to each peak at each condition was quantified using the intersectBed function in BedTools. 最終用的別人推薦的multicov

  • Raw counts in peaks were normalized using the DESeq package in R.

  • Peak intensity was defined as the log2 of the normalized counts.

bedtools multicov -bams 1.bam 2.bam 3.bam 4.bam-bed file.bed > read.count.txt

 

可視化差異peak

  • peak signal heatmap
  • distance to TSS

ngsplot這個工具比較好用,很直觀,有bam就可以用,不像其他工具,一大堆復雜的衍生格式,沒有搞的欲望。

ngs.plot.r -G hg19 -R tss -C example.bam/hesc.H3k4me3.1M.bam -O hesc.H3k4me3.tss -T H3K4me3 -L 3000 -FL 300

Make Enriched Heatmaps

  • 已經測試通了,用ngsplot來快速畫圖,生成數據;然后用EnrichedHeatmap來畫最終的圖。
  • 改一下color set,能夠畫出媲美下面的美圖了。

peak功能注釋

  • GO terms enriched in peak clusters
  • 可選工具一:Y叔的ChIPseeker,教程
  • 可選工具二:GREAT網絡工具,教程

 

peak鄰近基因表達分析

  • expression level of genes closest to the top 1000 peaks

  • 可以畫二維散點圖來展示ATAC-seq和RNA-seq的關系,理想情況是顯著正相關關系。

 

motif富集分析

  • TF motifs enriched in peak clusters
  • 結合轉錄組基因表達數據驗證
  • 如何直接在ggplot里添加motif images,教程
  • 可以直接用meme-chip一步到位

 

export PATH=/home/lizhixin/softwares/ATAC-seq-conda/anaconda3/bin:$PATH

sortBed -g genome.txt -i up.sig.peak.bed > sorted.up.sig.peak.bed
sortBed -g genome.txt -i down.sig.peak.bed > sorted.down.sig.peak.bed

cut -f1-3 sorted.up.sig.peak.bed > sorted.up.sig.peak.3col.bed
cut -f1-3 sorted.down.sig.peak.bed > sorted.down.sig.peak.3col.bed

bedtools getfasta -fi /home/lizhixin/softwares/miniconda3/share/homer-4.10-0/.//data/genomes/hg38///genome.fa -bed sorted.up.sig.peak.3col.bed -fo sorted.up.sig.peak.3col.fasta

bedtools getfasta -fi /home/lizhixin/softwares/miniconda3/share/homer-4.10-0/.//data/genomes/hg38///genome.fa -bed sorted.down.sig.peak.3col.bed -fo sorted.down.sig.peak.3col.fasta

intersectBed -a /home/lizhixin/project2/analysis/ATAC-seq/encode-pipeline/ipsc/result/atac/c3097359-919e-43d3-9b81-551e4c8ff029/call-filter/shard-0/execution/glob-3bcbe4e7489c90f75e0523ac6f3a9385/IMR90-iPS_1.trim.merged.nodup.no_chrM_MT.bam -b sorted.up.sig.peak.3col.bed > tmp.bam
samtools index tmp.bam
ngs.plot.r -G hg19 -R tss -C tmp.bam -O IMR90-iPS_1.tss -T IMR90-iPS_1 -L 3000 -FL 300

  

 

 

motif印跡分析

 

轉錄因子網絡

  • Cis-regulatory networks of TFs

 

ChIP-seq數據驗證ATAC-seq結果

 

 

 

個別基因可視化問題 - bigwig

 

重點文獻:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM