如何划窗統計測序數據的reads數(depth):https://blog.csdn.net/shenshenwu666/article/details/80936374
方法1,用samtools depth。但是這個方法僅僅局限於對單個位點進行depth進行統計
samtools depth -b bed_file sample.bam > sample.depth
bed 用來指定統計區間,運行后輸出指定區間每一個鹼基的測序深度(由於涉及所有鹼基,因此文件很大)
方法2,用samtools bedcov方法。
samtools bedcov bed_file samplename.bam > sample.bedcov
輸出的文件中計算了bed文件每一個區間的鹼基總數,這里並不是reads的條數
方法3,bedtools軟件。。需要使用滑動窗口來對區間進行統計,這樣可以觀察在整條染色體上測序深度的變化趨勢:
1). bedtools makewindows -g genome.txt -w 10000000 -s 1000000 > windows.bed
#bedtools makewindows用來自動生成划窗區間。-g genome.txt是要划分的基因組,格式為兩列:染色體、染色體長度;-w 10000000為窗口大小為10M;-s 1000000為步長為1M,即窗口在染色體上每次向右平移1M的距離;windows.bed為輸出文件,格式為三列:染色體、區間開始位點、區間結束位點。
2). bedtools coverage -a windows.bed -b xxx.sort.bam > xxx.depth.txt
#bedtools coverage對划分好的每個滑動窗口進行reads數(depth)的統計。-a windows為上一步划分好的區間;-b xxx.sort.bam為測序數據mapping到參考基因組的比對文件;xxx.depth.txt為統計結果的輸出文件,格式為7列:染色體、區間起始位點、區間結束位點、該區間內的reads數、該區間內的鹼基數、區間大小、該區間的平均覆蓋度。
#關於xxx.sort.bam文件的幾點說明:
1. 一般將測序數據mapping到參考基因組之后的輸出文件為sam文件格式,需要先用samtools view -bS xxx.sam > xxx.bam轉換為bam格式
2.xxx.bam還需要進行排序和建立索引才能用於后續的統計:
samtools sort xxx.bam xxx.sort ##輸出結果為xxx.sort.bam
samtools index xxx.sort.bam ##輸出結果為xxx.sort.bam.bai
---------------------
作者:wu伸伸
來源:CSDN
原文:https://blog.csdn.net/shenshenwu666/article/details/80936374
方法4,https://www.jianshu.com/p/82ed6e27f571
方法5, GATK軟件
java -Xmx30g -XX:ParallelGCThreads=6 -jar /opt/GenomeAnalysisTK.jar -T DepthOfCoverage -R /path/genome.fna -I /path/sample.bam -o /path/sample.DepthOfCoverage -nt 10 -ct 5 -ct 1 -ct 10 -ct 30 -ct 50 --omitDepthOutputAtEachBase --omitIntervalStatistics --omitLocusTable
使用DepthOfCoverage模塊統計測序深度和覆蓋度。與samtools depth 一樣,統計每個鹼基的測序深度。 -ct指定統計測序深度的閾值,如 -ct 1 統計測序深度為1 的鹼基占比。
https://mp.weixin.qq.com/s/7KiXyvKgQ35wHfEiDLvLyQ
GCdepth散點圖繪制:
https://blog.csdn.net/huangliangbo0805/article/details/51165943?utm_source=blogxgwz2
滑窗口統計基因組GC含量的分布:
https://blog.csdn.net/hugolee123/article/details/38441927?utm_source=blogxgwz1