该软件对于处理FASTA/Q十分方便,省去自己编写脚本
-
安装
1 conda install seqkit
-
使用
-
序列操作(seq)
1 ## 取方向序列 2 seqkit seq test.fa -r > test_re.fa 3 4 ## 取互补序列 5 seqkit seq test.fa -p > test_com.fa 6 7 ## 取方向互补序列 8 seqkit seq test.fa -r -p > test_re_com.fa 9 10 ## RNA---> DNA序列 11 seqkit seq test.fa rna2dna > test_dna.fa 12 13 ## 小写字母输出 14 seqkit seq test.fa -l > test_lower.fa 15 16 ## 大写字母输出 17 seqkit seq test.fa -u > test_upper.fa 18 19 ## 指定每行序列的输出长度(为0的话,代表为一整行,默认的输出 长度是60个碱基) 20 seqkit seq test.fa -w 10 > test_10.fa (指定序列的长度为10) 21 22 ## 将多行序列转换为一行序列 23 seqkit seq test.fa -w 0 > test_w.fa 24 25 ## 只输出序列 26 seqkit seq test.fa -s -w 0 > test_seq.fa 27 28 ## 将只输出的序列的,指定每行输出的碱基数 29 seqkit seq test_seq.fa -s -w 40 > test_seq40.fa
-
Fasta/q之间以及与tab格式互换
1 ## 将fataq文件转化为fasta格式. 2 seqkit fq2fa test.fq -o test.fa 3 4 ## 将fasta格式转化为tab格式 5 seqkit fx2tab test.fa > test_tab.fa (没有seq参数)
-
序列信息统计
1 ## 序列碱基含量 2 seqkit fx2tab -l -g -n -i -H test.fa 3 4 ## 序列长度的整体分布统计 5 seqkit stat test.fa
-
提取序列(grep)
1 ## 给定基因名字,gene.txt; 从基因所对应的fasta文件提取序列; 2 seqkit grep -f gene test.fa |seqkit seq -i >gene.fa
3 ## 参数
4 -i: 只输出ID,后面的信息不输出,比如长度等信息
-----END-----
关注下方公众号可获得更多精彩