一、關於程序: FUN:計算FASTA文件中每條序列中G和C的含量百分比,輸出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ...
注:該腳本適用於序列不斷開的情況 可用一下命令將折行的序列合並為一行 運行腳本 升級版,輸入文件是 fasta 格式即可。用 Bio 中的 Seq.IO 解析 fasta 文件, 用 python 的內置函數 count 的計算速度更快。 ...
2017-01-14 03:25 0 3357 推薦指數:
一、關於程序: FUN:計算FASTA文件中每條序列中G和C的含量百分比,輸出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ...
1.統計大於號開始的行數或seqkit 工具 Total sequence length 5,759,798,599 Total ungapped length 5,759,798,599 Number of contigs 1,397,492 Contig N50 9,587 Contig ...
二代測序的分析過程中,經常需要統計原始下機數據的數據量,看數據量是否符合要求;另外還需要統計q20,q30,GC含量等反應測序質量的指標; 在kseq.h 的基礎上稍加改造,就可以實現從fastq 文件中統計這些指標的功能,而且速度非常的快 源代碼保存為 parse.c ...
# 用於fasta格式文件的鹼基數目和GC含量的統計 grep -v '>' input.fa| perl -ne '{$count_A=$count_A+($_=~tr/A//);$count_T=$count_T+($_=~tr/T//);$count_G=$count_G+ ...
同樣的名為read_1.fa 的fasta文件,里面有若干序列,如: > ...
題目: 隨便給定一條序列,如果GC含量超過65%,則認為高。 編程: 測試 解析 Python提供了__future__模塊,把下一個新版本的特性導入到當前版本,於是我們就可以在當前版本中測試一些新版本的特性。 主要解決python2版本中和python3不同的一些問題 ...
第一次寫博客,分享一個做的提取基因序列的程序,根據bed文件里的位置信息從基因組里提取序列 源碼地址:https://github.com/Liuyuan2018/fastaTools/blob/master/pyGetFasta.py bed文件通常用來保存注釋基因信息,BED文件必須的3列 ...