BLAST在Windows系統中本地化


簡介

        NCBI除了提供在線的Web BLAST序列比對服務外,還提供FTP方式下載序列比對工具。這允許在本地平台上針對從NCBI下載或本地創建的數據庫執行BLAST搜索。這些實用程序沒有圖形用戶界面,通過類似DOS的命令窗口運行,並通過基於文本的命令行開關接受輸入。

        以下內容介紹了在運行Windows 7操作系統的PC上安裝BLAST+和示例NCBI數據庫所需的步驟。

下載

        BLAST+軟件包ncbi-blast-#.#.#+-win64.exe,適用於運行64位Windows操作系統的PC上。“#.#.#”表示軟件包的當前版本號。注意,帶有“.tar.gz”文件拓展名的壓縮包沒有安裝程序,下面內容重點關注“.exe”擴展名的軟件包。

步驟

       下載包的步驟如下所述:

    • 用瀏覽器打開下面網址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/
    • 右鍵單擊所需的軟件包,然后彈出菜單中選擇“將鏈接另存為...”
    • 在提示符中,切換到所需的目錄(文件夾),然后單擊“保存”按鈕將軟件包保存到本地磁盤上的選定位置

示例

   圖1a和圖1b中給出了“ncbi-blast-2.2.29+-win64.exe”軟件包的安裝步驟,其中前兩步在圖1a中,最后一步在圖1b中。

  

圖1a 通過瀏覽器從NCBI下載blast +軟件包:登錄到ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/並選擇“將鏈接另存為...”,然后右鍵單擊“NCBI-BLAST-2.2.29+-win64.exe

圖1b 通過瀏覽器從NCBI下載blast +軟件包:在將軟件包保存到所需位置之前,將后續提示中的位置更改為“C:”下的自己目錄。

安裝

  上面下載的BLAST+軟件包包含了內置安裝程序,雙擊后接受許可協議,安裝程序將提示選擇安裝目錄,在此示例中,安裝目錄為“C:\users\tao\desktop\blast-2.2.29+”。單擊“安裝”按鈕,安裝過程中將創建指向BLAST+用戶手冊鏈接的“doc”子目錄、用來刪除安裝的“卸載程序”以及BLAST程序所在的“bin”子目錄。表1列出了BLAST+包中包含的程序和實用程序。

表1

blast+包中的程序和組件

Program Function
blastdbcheck 檢查BLAST數據庫的完整性
blastdbcmd 從BLAST數據庫中檢索序列或其他信息
blastdb_aliastool 創建數據庫別名
blastn 在核苷酸數據庫中搜索查詢提交的核苷酸序列
blastp 在蛋白質數據庫中搜索查詢提交的蛋白質序列
blastx 在蛋白質數據庫中搜索提交的核苷酸序列翻譯成的6種蛋白質序列
blast_formatter 格式化輸出請求的ID(RID)或保存的文檔
convert2blastmask 將小寫轉換為makeblastdb程序可讀數據
deltablast 使用更敏感的算法在蛋白質數據庫中搜索查詢提交的蛋白質序列
dustmasker 掩蓋提交的核苷酸序列中低復雜性序列
legacy_blast.pl 將傳統的blast搜索命令行轉換為blast +對應命令執行
makeblastdb 根據FASTA文件創建對應的BLAST數據庫
makembindex 索引用於megablast的現有核苷酸數據庫
makeprofiledb 從psiblast生成的輸入位置特定評分矩陣(記分簿)列表中創建保守域數據庫
psiblast 查找蛋白質家族的成員,識別與查詢有關的蛋白質,或為查詢構建位置特定的評分矩陣
rpsblast 在保守域數據庫搜索提交的蛋白質序列以識別序列中存在的功能域
rpstblastn 保守域數據庫中搜索提交的核苷酸序列翻譯成的6種蛋白質序列
segmasker 掩蓋輸入蛋白質序列中的低復雜性序列
tblastn 在核酸數據庫中搜索提交的蛋白質序列翻譯成的由6種讀碼框翻譯成的所有核酸序列
tblastx 在核酸數據庫中搜索提交的核酸序列翻譯成的由6種讀碼框翻譯成的蛋白質序列反翻譯成的核酸序列
update_blastdb.pl 從NCBI下載預先格式化的blast數據庫
windowmasker 在提交的核苷酸序列中搜索標記的重復序列

BLAST數據庫測試

        除了blast+包中的程序和組件,目標數據庫也是關鍵組件之一。常用的預先格式化的BLAST數據庫壓縮文檔可以從NCBI FTP站點獲得,也可以使用makeblastdb程序從本地FASTA序列文件創建對應的BASLT數據庫。要管理可用的BLAST數據庫,需要先創建一個用於儲存它們的目錄。在本測試中,目錄是“C:\users\tao\desktop\blastdb”。

        從NCBI下載預先格式化的BLAST數據庫類似圖1中的步驟,如下:

    • 用瀏覽器打開下面網址:ftp://ftp.ncbi.nlm.nih.gov/blast/db/
    • 右鍵單擊所需的文件(本示例中為refseq_rna.00.tar.gz)
    • 從彈出菜單中選擇“將鏈接另存為...”
    • 出現提示時,將目錄更改為“C:\users\tao\desktop\blastdb”。

        使用WinZip或7zip軟件對下載的數據進行解壓和提取。注意,上述步驟僅下載安裝了refseq_rna數據庫的第一部分,完整的數據集需要下載所有refseq_rna.##.tar.gz文件。圖2演示了使用Winzip解壓提取過程。

圖2 使用Winzip解壓下載的壓縮文件refseq_rna.00.tar.gz。右鍵單擊數據庫文件,然后選擇“WinZip”和“Extract to here ...”

        包含在blast+包中的組件update_blastdb.pl可用於簡化從NCBI下載預格式化的BLAST數據庫。該程序需要安裝Perl,並且執行需要在“C:\users\tao\desktop\blastdb\”目錄下,基本命令是:

perl update_blastdb.pl --passive base_database_name

        其中“base_database_name”是目標數據庫的名稱,沒有“##.tar.gz”后綴。

配置

        為了便於執行blast+中的程序和組件,需要將安裝目錄“C:\users\tao\desktop\blast-2.2.29+\bin\”添加到名為PATH的用戶環境變量中,BLASTDB環境變量的值設置為“C:\users\tao\desktop\blastdb\”目錄。

環境變量

        創建或修改環境變量的步驟如下:

    • 單擊“開始”按鈕,然后單擊“控制面板”鏈接以打開“控制面板”單擊“系統”圖標以打開系統提示
    • 單擊左列中的“高級系統設置”鏈接以打開“系統屬性”提示
    • 單擊“環境變量”按鈕以查看可用列表
    • 單擊“用戶變量...”面板下的“新建”按鈕
    • 鍵入環境變量名稱並輸入絕對路徑
    • 單擊“確定”關閉提示

截圖

        這些步驟的屏幕截圖顯示在圖3a,3b和3c中。

圖3a 使用Windows環境變量配置blast +:在初始系統彈出窗口中,單擊“高級系統設置”鏈接以打開“系統屬性”彈出窗口。 單擊“環境變量...”按鈕以訪問現有環境變量或設置新變量(如3b所示)。

圖3b 使用Windows環境變量配置blast+:點擊圖3a上的“環境變量...”按鈕打開此彈出窗口,該彈出窗口提供對現有環境變量的訪問,並允許分別使用“編輯”和“新建”按鈕創建新變量。 與BLAST相關的兩個用戶變量是BLASTDB和PATH(突出顯示)。

圖3c 使用Windows環境變量配置blast+:單擊圖3c中的“新建”按鈕會顯示此彈出窗口,其中可以指定新變量的名稱和路徑。 在此示例中,使用值“C:\users\tao\desktop\blast-2.2.29+\bin\”指定名為“path”的用戶變量。

執行和驗證

        blast+程序是沒有用戶界面(GUI)的,必須從命令提示符窗口(CMD)執行。單擊“開始→所有程序→附件→命令提示符”或單擊“開始→運行...”,然后鍵入“cmd”回車即可打開dos窗口。過程如圖4a、圖4b所示。

圖4a 在Windows 7中打開命令提示符:單擊“開始”按鈕,然后單擊“所有程序”鏈接以查看可用程序列表。 通過單擊以查看命令提示符(突出顯示)打開附件折疊。 單擊它以啟動。

圖4b 在Windows 7中打開命令提示符:或者,單擊“開始”按鈕,然后單擊右側列中的“運行...”鏈接。 在彈出窗口中,在輸入框中鍵入“cmd”以打開命令提示符。

執行示例

        在命令提示符dos窗口下,輸入“cd C:\users\tao\desktop\blast-2.2.29+”回車,工作目錄將跟改為“C:\users\tao\desktop\blast-2.2.29+”。圖5顯示了測試blast安裝。

圖5 測試blast +安裝的工作會話的輸出:輸入命令在紅色框中。 blastdbcmd和blastn命令執行產生的輸出文件用紅色箭頭標記。 最后一個命令用於檢查BLASTDB環境變量設置,其輸出由最后一組箭頭標記。

測試命令說明

        第一個命令將工作目錄更改為blast-2.2.29 +目錄。 “dir”列出了此目錄下的文件和子目錄。 “blastn -version”和“blastdbcmd -db refseq_rna.00 -info”命令無錯誤輸出來驗證安裝。

        實際測試應該是blast序列比對命令,以下使用blastcmd命令從已安裝的數據庫中轉出序列用做此類查詢。

blastdbcmd –db refseq_rna.00 –entry nm_000122 –outfmt "%f" –out test_query.txt

         命令行的確切含義(從左到右)如下:

    • 執行blastdbcmd
    • 使用refseq_rna.00作為目標數據庫
    • 獲取數據庫序列中nm_000122作為名稱的序列
    • 以FASTA格式轉儲序列
    • 將輸出存儲在test_query.txt文件中

        將輸出文件text_query.txt作為blast序列比對命令的輸入文件

blastn –query text_query.txt –db refseq_rna.00 –out output.txt

         這條命令讓系統執行如下信息:

    • 執行blastn程序在核苷酸數據庫搜索提交的核苷酸序列
    • 使用文件test_query.txt中的序列作為查詢
    • 在數據庫refseq_rna.00中搜索
    • 將結果保存到output.txt文件中

        程序未指定參數將使用默認值,要進一步自定義搜索,可以鍵入“program -help”查看參數列表及接受的選項。“dir”命令顯示輸出文件(由紅色箭頭標記)。

        最后一個命令“set | find BLASTDB”演示在dos窗口查看環境變量的方法。

 

參考資料

Standalone BLAST Setup for Windows PC


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM