lumpy-sv


安裝程序:

# 使用conda安裝lumpy-sv,報錯:
# CondaHTTPError: HTTP 000 CONNECTION FAILED for url <http://mirrors.ustc.edu.cn/anaconda/pkgs/free/noarch/repodata.json>
# Elapsed: -
# An HTTP error occurred when trying to retrieve this URL.
# HTTP errors are often intermittent, and a simple retry will get you on your way.
# 報錯原理:
# conda無法創建虛擬環境並且無法安裝其他第三方包
# 默認鏡像源訪問速度過慢,會導致超時從而導致更新和下載失敗。、
# 解決方案:
# 更換鏡像源為清華鏡像源,並且刪除默認鏡像源。可以通過修改condarc文件
# 結果發現清華鏡像2019就停止服務了,改成可以服務的中科大鏡像!
# 安裝:
conda install -c bioconda lumpy-sv
# 查看rc文件位置:
conda config --show-sources

創建python2.7的虛擬環境:

# 創建lumpy-sv使用的python2.7虛擬環境
conda create -n Python2.7 python=2.7
source activate Python2.7
# 如果無法成功激活,那么source activate 虛擬環境完整路徑名
conda install -c bioconda lumpy-sv
conda install -c bioconda samblaster

lumpy-sv分析之前數據預處理:

#lumpy分析之前的數據預處理:
bwa mem -R "@RG\tID:${sample_id}\tSM:${sample_t}\tLB:lib" ${ref} ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R1.clean.fastq.gz ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R2.clean.fastq.gz
    | samblaster --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 
    | samtools view -S -b - 
    > ${result_dir}/${sample_t}.bam
# bwa命令:
# "@RG\tID:$sample\tSM:$sample\tLB:WES\tPL:Illumina"的read group信息,用於區分不同的樣本,
# 其中ID每個group的唯一ID, 
# SM表示樣本名稱, 
# LB代表library,表示文庫的名字,
# PL代表platform, 表示測序平台的名字,可選值有Illumina, Pacbio
# --maxSplitCount    INT Maximum number of split alignments for a read to be included in splitter file. 
# --minNonOverlap    INT Minimum non-overlaping base pairs between two alignments for a read to be included in splitter file.
# samblaster命令:
# 比對完成之后需要用samblaster處理一下,
# 主要對bam文件不正常的比對結果進行標記,以便接下里進行處理。
samtools view -b -F 1294 sample.bam | samtools sort - > sample.discordants.sorted.bam
# 將discordant的比對提取出來
# -F 1294:samtools flags 1294
# 可以發現1294表示"PROPER_PAIR,UNMAP,MUNMAP,SECONDARY,DUP",
# 帶上-F意味着以上這些標記在我們篩選的聯配記錄中都不會出現,
# 也就意味着篩選的記錄要符合下面要求
# 不能是PROPER_PAIR: 就是比對工具認為都正確比對到基因組上,在同一條染色體,在同一條鏈的情況,常見的就是83,147和99,163
# 不能是UNMAP和MUNMAP,也就是配對的短讀至少有一個能夠比對到參考基因組上
# 也不能是SECONDARY, 也就是他必須是主要聯配
# 光學重復,DUP, 就更加不能要了
samtools view -h sample.bam | scripts/extractSplitReads_BwaMem -i stdin | samtools view -Sb - | samtools sort -   > sample.splitters.sorted.bam
# 使用lumpy軟件自帶的extractSplitReads_BwaMem將splitreads提取出來,如果conda下載的lumpy找不到該腳本,重新去github再下載一下源代碼包就好

lumpy分析:

lumpyexpress -B tumor.bam,normal.bam -S tumor.splitters.bam,normal.splitters.bam -D   tumor.discordants.bam,normal.discordants.bam -o tumor_normal.vcf
# 使用lumpyexpress 進行 variant calling,有tumor-only模式,也有tumor-normal配對模式,以上代碼需要修改,不能直接用

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM