使用snpflip校正基因組正負鏈

本文轉載自查看原文 2020-04-19 17:51 643 GWAS/ 分析工具

歡迎來到"bio生物信息"的世界

公眾號有位小朋友留言希望我寫一下snpflip的使用。

重新翻了一下之前寫的推文，發現我是用意念寫完的snpflip，總感覺我寫過這個工具的使用了。

因此這里重新補充一下snpflip工具的使用。

關於snpflip的使用背景我就不多介紹了，之前的文章有寫過數據合並，踩不完的坑

下面直接講一下怎么使用。

這個工具安裝和使用都非常簡單，老少皆懂。

第一步：下載、安裝snpflip

wget https://files.pythonhosted.org/packages/5d/58/c4e3427cd307c29c92631f0d2bc0ee599687d1d29019a390d9786ec6a44e/snpflip-0.0.6.tar.gz
tar -zxvf snpflip-0.0.6.tar.gz

第二步：下載參考基因組

wget http://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
gunzip human_g1k_v37.fasta.gz

第三步：校正正負鏈

查找混有正負鏈的SNP:

/snpflip-0.0.6/bin/snpflip -b file.bim -f human_g1k_v37.fasta -o snpflip_output

解釋一下，file.bim就是混有正負鏈的plink文件。

human_g1k_v37.fasta就是第二步生成的參考基因組文件。

snpflip_output就是新生成的文件。

詳細解釋可看推文數據合並，踩不完的坑

統一正負鏈：

plink --file snp_data --flip snpflip_output.reverse --make-bed --out flipgood

snp_data是plink格式的文件

snpflip_output.reverse是上面找出來的負鏈。

如果你手頭的數據不是plink格式的話，這里提供一個將vcf轉化為plink文件的方法：plink --vcf yourfile.vcf --make-bed --out your_prefix

對了，使用這個軟件可能會遇到報錯：ImportError: /usr/lib64/libstdc++.so.6: version 'GLIBCXX_3.4.21' not found (required by ~/anaconda2/lib/python2.7/site-packages/pandas/_libs/window.so)

這個報錯的解決方法就是找到滿足'GLIBCXX_3.4.21'的libstdc++.so，然后將滿足條件的libstdc++.so軟連接到自己有權限的文件夾中。最后，export一下有權限的這個文件夾。當然，如果你有root權限的話，就直接軟連接到報錯的libstdc++.so.6路徑中。網上這個報錯的教程很多，請自行搜索。

最后，希望你們能順利的跑完這個軟件。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基因組注釋參考基因組動物基因組與植物基因組基本差異使用BRAKER2進行基因組注釋使用 gffread 提取基因組序列信息如何到NCBI提交基因組 NextDenovo 組裝基因組基因組轉座元件「三代組裝」使用Pilon對基因組進行polish 【基因組注釋】GMAP安裝使用問題