簡介
NCBI除了提供在線的Web BLAST序列比對服務外,還提供FTP方式下載序列比對工具。這允許在本地平台上針對從NCBI下載或本地創建的數據庫執行BLAST搜索。這些實用程序沒有圖形用戶界面,通過類似DOS的命令窗口運行,並通過基於文本的命令行開關接受輸入。
以下內容介紹了在運行Windows 7操作系統的PC上安裝BLAST+和示例NCBI數據庫所需的步驟。
下載
BLAST+軟件包ncbi-blast-#.#.#+-win64.exe,適用於運行64位Windows操作系統的PC上。“#.#.#”表示軟件包的當前版本號。注意,帶有“.tar.gz”文件拓展名的壓縮包沒有安裝程序,下面內容重點關注“.exe”擴展名的軟件包。
步驟
下載包的步驟如下所述:
-
- 用瀏覽器打開下面網址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/
- 右鍵單擊所需的軟件包,然后彈出菜單中選擇“將鏈接另存為...”
- 在提示符中,切換到所需的目錄(文件夾),然后單擊“保存”按鈕將軟件包保存到本地磁盤上的選定位置
示例
圖1a和圖1b中給出了“ncbi-blast-2.2.29+-win64.exe”軟件包的安裝步驟,其中前兩步在圖1a中,最后一步在圖1b中。
圖1a 通過瀏覽器從NCBI下載blast +軟件包:登錄到ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/並選擇“將鏈接另存為...”,然后右鍵單擊“NCBI-BLAST-2.2.29+-win64.exe”。
圖1b 通過瀏覽器從NCBI下載blast +軟件包:在將軟件包保存到所需位置之前,將后續提示中的位置更改為“C:”下的自己目錄。
安裝
上面下載的BLAST+軟件包包含了內置安裝程序,雙擊后接受許可協議,安裝程序將提示選擇安裝目錄,在此示例中,安裝目錄為“C:\users\tao\desktop\blast-2.2.29+”。單擊“安裝”按鈕,安裝過程中將創建指向BLAST+用戶手冊鏈接的“doc”子目錄、用來刪除安裝的“卸載程序”以及BLAST程序所在的“bin”子目錄。表1列出了BLAST+包中包含的程序和實用程序。
表1
blast+包中的程序和組件
Program | Function |
---|---|
blastdbcheck | 檢查BLAST數據庫的完整性 |
blastdbcmd | 從BLAST數據庫中檢索序列或其他信息 |
blastdb_aliastool | 創建數據庫別名 |
blastn | 在核苷酸數據庫中搜索查詢提交的核苷酸序列 |
blastp | 在蛋白質數據庫中搜索查詢提交的蛋白質序列 |
blastx | 在蛋白質數據庫中搜索提交的核苷酸序列翻譯成的6種蛋白質序列 |
blast_formatter | 格式化輸出請求的ID(RID)或保存的文檔 |
convert2blastmask | 將小寫轉換為makeblastdb程序可讀數據 |
deltablast | 使用更敏感的算法在蛋白質數據庫中搜索查詢提交的蛋白質序列 |
dustmasker | 掩蓋提交的核苷酸序列中低復雜性序列 |
legacy_blast.pl | 將傳統的blast搜索命令行轉換為blast +對應命令執行 |
makeblastdb | 根據FASTA文件創建對應的BLAST數據庫 |
makembindex | 索引用於megablast的現有核苷酸數據庫 |
makeprofiledb | 從psiblast生成的輸入位置特定評分矩陣(記分簿)列表中創建保守域數據庫 |
psiblast | 查找蛋白質家族的成員,識別與查詢有關的蛋白質,或為查詢構建位置特定的評分矩陣 |
rpsblast | 在保守域數據庫搜索提交的蛋白質序列以識別序列中存在的功能域 |
rpstblastn | 在保守域數據庫中搜索提交的核苷酸序列翻譯成的6種蛋白質序列 |
segmasker | 掩蓋輸入蛋白質序列中的低復雜性序列 |
tblastn | 在核酸數據庫中搜索提交的蛋白質序列翻譯成的由6種讀碼框翻譯成的所有核酸序列 |
tblastx | 在核酸數據庫中搜索提交的核酸序列翻譯成的由6種讀碼框翻譯成的蛋白質序列反翻譯成的核酸序列 |
update_blastdb.pl | 從NCBI下載預先格式化的blast數據庫 |
windowmasker | 在提交的核苷酸序列中搜索標記的重復序列 |
BLAST數據庫測試
除了blast+包中的程序和組件,目標數據庫也是關鍵組件之一。常用的預先格式化的BLAST數據庫壓縮文檔可以從NCBI FTP站點獲得,也可以使用makeblastdb程序從本地FASTA序列文件創建對應的BASLT數據庫。要管理可用的BLAST數據庫,需要先創建一個用於儲存它們的目錄。在本測試中,目錄是“C:\users\tao\desktop\blastdb”。
從NCBI下載預先格式化的BLAST數據庫類似圖1中的步驟,如下:
-
- 用瀏覽器打開下面網址:ftp://ftp.ncbi.nlm.nih.gov/blast/db/
- 右鍵單擊所需的文件(本示例中為refseq_rna.00.tar.gz)
- 從彈出菜單中選擇“將鏈接另存為...”
- 出現提示時,將目錄更改為“C:\users\tao\desktop\blastdb”。
使用WinZip或7zip軟件對下載的數據進行解壓和提取。注意,上述步驟僅下載安裝了refseq_rna數據庫的第一部分,完整的數據集需要下載所有refseq_rna.##.tar.gz文件。圖2演示了使用Winzip解壓提取過程。
圖2 使用Winzip解壓下載的壓縮文件refseq_rna.00.tar.gz。右鍵單擊數據庫文件,然后選擇“WinZip”和“Extract to here ...”
包含在blast+包中的組件update_blastdb.pl可用於簡化從NCBI下載預格式化的BLAST數據庫。該程序需要安裝Perl,並且執行需要在“C:\users\tao\desktop\blastdb\”目錄下,基本命令是:
perl update_blastdb.pl --passive base_database_name
其中“base_database_name”是目標數據庫的名稱,沒有“##.tar.gz”后綴。
配置
為了便於執行blast+中的程序和組件,需要將安裝目錄“C:\users\tao\desktop\blast-2.2.29+\bin\”添加到名為PATH的用戶環境變量中,BLASTDB環境變量的值設置為“C:\users\tao\desktop\blastdb\”目錄。
環境變量
創建或修改環境變量的步驟如下:
-
- 單擊“開始”按鈕,然后單擊“控制面板”鏈接以打開“控制面板”單擊“系統”圖標以打開系統提示
- 單擊左列中的“高級系統設置”鏈接以打開“系統屬性”提示
- 單擊“環境變量”按鈕以查看可用列表
- 單擊“用戶變量...”面板下的“新建”按鈕
- 鍵入環境變量名稱並輸入絕對路徑
- 單擊“確定”關閉提示
截圖
這些步驟的屏幕截圖顯示在圖3a,3b和3c中。
圖3a 使用Windows環境變量配置blast +:在初始系統彈出窗口中,單擊“高級系統設置”鏈接以打開“系統屬性”彈出窗口。 單擊“環境變量...”按鈕以訪問現有環境變量或設置新變量(如3b所示)。
圖3b 使用Windows環境變量配置blast+:點擊圖3a上的“環境變量...”按鈕打開此彈出窗口,該彈出窗口提供對現有環境變量的訪問,並允許分別使用“編輯”和“新建”按鈕創建新變量。 與BLAST相關的兩個用戶變量是BLASTDB和PATH(突出顯示)。
圖3c 使用Windows環境變量配置blast+:單擊圖3c中的“新建”按鈕會顯示此彈出窗口,其中可以指定新變量的名稱和路徑。 在此示例中,使用值“C:\users\tao\desktop\blast-2.2.29+\bin\”指定名為“path”的用戶變量。
執行和驗證
blast+程序是沒有用戶界面(GUI)的,必須從命令提示符窗口(CMD)執行。單擊“開始→所有程序→附件→命令提示符”或單擊“開始→運行...”,然后鍵入“cmd”回車即可打開dos窗口。過程如圖4a、圖4b所示。
圖4a 在Windows 7中打開命令提示符:單擊“開始”按鈕,然后單擊“所有程序”鏈接以查看可用程序列表。 通過單擊以查看命令提示符(突出顯示)打開附件折疊。 單擊它以啟動。
圖4b 在Windows 7中打開命令提示符:或者,單擊“開始”按鈕,然后單擊右側列中的“運行...”鏈接。 在彈出窗口中,在輸入框中鍵入“cmd”以打開命令提示符。
執行示例
在命令提示符dos窗口下,輸入“cd C:\users\tao\desktop\blast-2.2.29+”回車,工作目錄將跟改為“C:\users\tao\desktop\blast-2.2.29+”。圖5顯示了測試blast安裝。
圖5 測試blast +安裝的工作會話的輸出:輸入命令在紅色框中。 blastdbcmd和blastn命令執行產生的輸出文件用紅色箭頭標記。 最后一個命令用於檢查BLASTDB環境變量設置,其輸出由最后一組箭頭標記。
測試命令說明
第一個命令將工作目錄更改為blast-2.2.29 +目錄。 “dir”列出了此目錄下的文件和子目錄。 “blastn -version”和“blastdbcmd -db refseq_rna.00 -info”命令無錯誤輸出來驗證安裝。
實際測試應該是blast序列比對命令,以下使用blastcmd命令從已安裝的數據庫中轉出序列用做此類查詢。
blastdbcmd –db refseq_rna.00 –entry nm_000122 –outfmt "%f" –out test_query.txt
命令行的確切含義(從左到右)如下:
-
- 執行blastdbcmd
- 使用refseq_rna.00作為目標數據庫
- 獲取數據庫序列中nm_000122作為名稱的序列
- 以FASTA格式轉儲序列
- 將輸出存儲在test_query.txt文件中
將輸出文件text_query.txt作為blast序列比對命令的輸入文件
blastn –query text_query.txt –db refseq_rna.00 –out output.txt
這條命令讓系統執行如下信息:
-
- 執行blastn程序在核苷酸數據庫搜索提交的核苷酸序列
- 使用文件test_query.txt中的序列作為查詢
- 在數據庫refseq_rna.00中搜索
- 將結果保存到output.txt文件中
程序未指定參數將使用默認值,要進一步自定義搜索,可以鍵入“program -help”查看參數列表及接受的選項。“dir”命令顯示輸出文件(由紅色箭頭標記)。
最后一個命令“set | find BLASTDB”演示在dos窗口查看環境變量的方法。