目的:本文主要簡單介紹pindel檢測sv的基本知識
能力:會基本使用,簡單結果文件解讀
官網:
參考文獻:
Ye, K., Schulz, M. H., Long, Q., Apweiler, R. & Ning, Z.
Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads.
Bioinformatics 25, 2865–2871(2009).
pindel變異檢測:
1.pindel進行sv檢測時,需要一個配置文件, 配置文件內容如下所示:
$ cat FLT3_28608223_conf edit.sorted.bam 250 FLT3
第一列:bam的絕對路徑
第二列:bam的intersize, 寫個大概的值即可(本人的測序數據為PE100)
第三列:設一個標簽,因為這邊可以設多個bam文件,這邊的標簽就會代替文件名出現在最終的結果中來區分reads的不同來源。列與列之間用制表符或者空格分開。
2.pindel進行sv檢測的命令行參數:
/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel \ -f hg19.fa \ -i FLT3_28608223_conf \ # 上述描述的配置文件 -c chr13 \ -o FLT3_28608223 \
上述命令可以產生多個結果文件: 不同類似的變異結果分開放置.
FLT3_28608223_BP FLT3_28608223_INT_final FLT3_28608223_LI FLT3_28608223_SI FLT3_28608223_TD FLT3_28608223_CloseEndMapped FLT3_28608223_D FLT3_28608223_INV FLT3_28608223_RP
D = deletion 缺失序列
SI = short insertion 短的插入序列
INV = inversion 轉位
TD = tandem duplication 串聯重復
LI = large insertion 長的插入序列,這個文件的格式跟其他文件的很不相同
BP = unassigned breakpoints 沒有分到上面任意一種類型剩下來的斷點
3.第二步的結果可能利於我們的閱讀,因此可通過以下操作將其轉換為vcf文件格式
/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel2vcf \ -r hg19.fa \ -R hg19 \ -p FLT3_28608223_TD \ -d 20201101 \ # 隨便是個啥,沒啥用 -v FLT3_28608223_TD.vcf \ -G#讓它盡可能符合GATK輸入文件的要求。


