該軟件對於處理FASTA/Q十分方便,省去自己編寫腳本
-
安裝
1 conda install seqkit
-
使用
-
序列操作(seq)
1 ## 取方向序列 2 seqkit seq test.fa -r > test_re.fa 3 4 ## 取互補序列 5 seqkit seq test.fa -p > test_com.fa 6 7 ## 取方向互補序列 8 seqkit seq test.fa -r -p > test_re_com.fa 9 10 ## RNA---> DNA序列 11 seqkit seq test.fa rna2dna > test_dna.fa 12 13 ## 小寫字母輸出 14 seqkit seq test.fa -l > test_lower.fa 15 16 ## 大寫字母輸出 17 seqkit seq test.fa -u > test_upper.fa 18 19 ## 指定每行序列的輸出長度(為0的話,代表為一整行,默認的輸出 長度是60個鹼基) 20 seqkit seq test.fa -w 10 > test_10.fa (指定序列的長度為10) 21 22 ## 將多行序列轉換為一行序列 23 seqkit seq test.fa -w 0 > test_w.fa 24 25 ## 只輸出序列 26 seqkit seq test.fa -s -w 0 > test_seq.fa 27 28 ## 將只輸出的序列的,指定每行輸出的鹼基數 29 seqkit seq test_seq.fa -s -w 40 > test_seq40.fa
-
Fasta/q之間以及與tab格式互換
1 ## 將fataq文件轉化為fasta格式. 2 seqkit fq2fa test.fq -o test.fa 3 4 ## 將fasta格式轉化為tab格式 5 seqkit fx2tab test.fa > test_tab.fa (沒有seq參數)
-
序列信息統計
1 ## 序列鹼基含量 2 seqkit fx2tab -l -g -n -i -H test.fa 3 4 ## 序列長度的整體分布統計 5 seqkit stat test.fa
-
提取序列(grep)
1 ## 給定基因名字,gene.txt; 從基因所對應的fasta文件提取序列; 2 seqkit grep -f gene test.fa |seqkit seq -i >gene.fa
3 ## 參數
4 -i: 只輸出ID,后面的信息不輸出,比如長度等信息
-----END-----
關注下方公眾號可獲得更多精彩