一、关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ...
注:该脚本适用于序列不断开的情况 可用一下命令将折行的序列合并为一行 运行脚本 升级版,输入文件是 fasta 格式即可。用 Bio 中的 Seq.IO 解析 fasta 文件, 用 python 的内置函数 count 的计算速度更快。 ...
2017-01-14 03:25 0 3357 推荐指数:
一、关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ...
1.统计大于号开始的行数或seqkit 工具 Total sequence length 5,759,798,599 Total ungapped length 5,759,798,599 Number of contigs 1,397,492 Contig N50 9,587 Contig ...
二代测序的分析过程中,经常需要统计原始下机数据的数据量,看数据量是否符合要求;另外还需要统计q20,q30,GC含量等反应测序质量的指标; 在kseq.h 的基础上稍加改造,就可以实现从fastq 文件中统计这些指标的功能,而且速度非常的快 源代码保存为 parse.c ...
# 用于fasta格式文件的碱基数目和GC含量的统计 grep -v '>' input.fa| perl -ne '{$count_A=$count_A+($_=~tr/A//);$count_T=$count_T+($_=~tr/T//);$count_G=$count_G+ ...
同样的名为read_1.fa 的fasta文件,里面有若干序列,如: > ...
题目: 随便给定一条序列,如果GC含量超过65%,则认为高。 编程: 测试 解析 Python提供了__future__模块,把下一个新版本的特性导入到当前版本,于是我们就可以在当前版本中测试一些新版本的特性。 主要解决python2版本中和python3不同的一些问题 ...
第一次写博客,分享一个做的提取基因序列的程序,根据bed文件里的位置信息从基因组里提取序列 源码地址:https://github.com/Liuyuan2018/fastaTools/blob/master/pyGetFasta.py bed文件通常用来保存注释基因信息,BED文件必须的3列 ...