一、下載安裝ncbi-blast(一定要是最新版本,在這里吃了苦頭)
下載地址:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
安裝blast:按照提示安裝即可
這里我們要用到主要的文件為:rpsblast.exe
二、下載對比數據庫
下載地址:ftp://ftp.ncbi.nlm.nih.gov/blast/db/
這里可以選擇nr庫和swissprot庫,因為nr庫太大,下載時間長,這里我選擇使用swissprot庫,下載到本地之后,不需要做成本地數據庫,如果需要做成本地數據庫,指令為:makeblastdb -in swissprot -dbtype prot -title "swissprot" -out swissprot(這里要用cmd命令切換地址到下載的blast/bin目錄下運行該命令)
三、獲得PSSM文件
將自己需要的fasta序列准備好,同樣要在blast/bin目錄下運行:psiblast.exe -db swissprot -query 0.txt -evalue 0.001 -num_iterations 3 -out_ascii_pssm 0.pssm
這里:0.txt文件就是我准備查詢的fasta序列, 0.pssm就是輸出的pssm文件其它參數都設置為常用數值,需要了解,可查閱其它資料
運行結束得到0.pssm文件,文件內容如下:
這里我們需要的PSSM矩陣就為L*20(L為所使用的fasta序列的長度,20個氨基酸),如下所示:
這就是一個fasta序列的位置特異性矩陣(PSSM)的獲得。
注意:該指令是一個fasta序列的pssm矩陣,如果批量獲取,編寫程序,讓其批量運行並保存即可。
前期所有fasta序列的處理:https://www.cnblogs.com/cong3Z/p/12775480.html