FASTA/Q序列處理神器---seqkit


該軟件對於處理FASTA/Q十分方便,省去自己編寫腳本

  • 安裝

1 conda install seqkit
  • 使用

 

  • 序列操作(seq)

 1 ## 取方向序列
 2 seqkit   seq  test.fa   -r  >  test_re.fa
 3 
 4 ## 取互補序列
 5 seqkit   seq   test.fa  -p  >  test_com.fa
 6 
 7 ## 取方向互補序列
 8 seqkit   seq   test.fa  -r  -p  > test_re_com.fa
 9 
10 ## RNA---> DNA序列
11 seqkit   seq  test.fa   rna2dna     >    test_dna.fa
12 
13 ## 小寫字母輸出
14 seqkit  seq  test.fa  -l  >  test_lower.fa
15 
16 ## 大寫字母輸出
17 seqkit   seq   test.fa  -u >  test_upper.fa
18 
19 ## 指定每行序列的輸出長度(為0的話,代表為一整行,默認的輸出 長度是60個鹼基)
20 seqkit  seq  test.fa  -w  10  >  test_10.fa  (指定序列的長度為10)
21 
22 ## 將多行序列轉換為一行序列
23 seqkit   seq  test.fa   -w   0   >  test_w.fa
24 
25 ## 只輸出序列
26 seqkit   seq  test.fa  -s  -w 0 > test_seq.fa
27 
28 ## 將只輸出的序列的,指定每行輸出的鹼基數
29 seqkit   seq  test_seq.fa  -s  -w 40 > test_seq40.fa

 

  • Fasta/q之間以及與tab格式互換 

1 ## 將fataq文件轉化為fasta格式.
2 seqkit fq2fa   test.fq   -o   test.fa
3 
4 ## 將fasta格式轉化為tab格式
5 seqkit  fx2tab  test.fa >  test_tab.fa (沒有seq參數)

 

 

  • 序列信息統計

1 ## 序列鹼基含量
2 seqkit  fx2tab  -l  -g  -n  -i  -H  test.fa
3 
4 ## 序列長度的整體分布統計
5 seqkit  stat  test.fa

 

 

  •  提取序列(grep) 

1 ## 給定基因名字,gene.txt; 從基因所對應的fasta文件提取序列; 
2 seqkit grep -f gene test.fa |seqkit seq -i >gene.fa
3 ## 參數
4 -i: 只輸出ID,后面的信息不輸出,比如長度等信息

 

 

-----END-----

關注下方公眾號可獲得更多精彩


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM