想起什么來寫什么吧。
整體流程(以Ceas2, TPP, G3P為例):
准備蛋白即配體參數文件(pdb文件需要有header,header的順序符合cst block的順序,且residue1和residue2的順序也必須符合cst block);
設置CST文件;
准備protocol和flag文件;
運行enzyme_design;
結果處理。
CST文件准備:
要想准備好cst文件,需要的先決條件有兩個,一個是對CST文件格式的了解,一個是對rosetta參數文件(.params)的了解。
首先,CST格式可見另外一篇博客https://www.cnblogs.com/wq242424/p/9463703.html;
其次,.params文件格式里面,主要注意我們感興趣的原子,比如HIS的Nhis,確定A1,A2和A3,Nhis作為A1,A2和A3則由.params文件里對應ICOOR行的parent原子決定,A2是A1的parent,A3是A2的parent。如HIS里Nhis對應的原子及A1是ND1,A2為A1的parent為CG,A3為A2的parent為CB,.params文件格式參見.param文件格式,標准氨基酸的.params文件存放在$ROSETTAHOME/main/database/chemical/residue_type_sets/下。
最后,設置好CST文件后,一定要用 CstfileToTheozymePDB.linuxgccrelease 對CST進行驗證,因為有時候隨着標准氨基酸.params文件的更新,不同原子的定義可能會有改變,命令用法如下:
CstfileToTheozymePDB.linuxgccrelease -extra_res_fa G3P.params -match:geometric_constraint_file G3P.cst
命令會產生出 PDB_Model_G3P.cst_1.pdb 文件,刪除pdb文件里的CONNECT行后,使用 pymol PDB_Model_G3P.cst_1.pdb 命令查看motif是否符合設定。
下面列舉我遇到過的幾種氨基酸的原子信息:
側鏈信息:

骨架信息:

上述是列舉的官方文檔種的殘基原子信息。
下面是自己應用過程種用到的:
Ntrp,和Nhis,

OH ,(注意逗號前有空格)

Narg,
結果處理:
對設計出來的眾多結果進行篩選,篩選規則的原文如下:
One approach currently used in the Baker group is the following: first, a subset of the 4-5 most important criteria is picked, i.e. total_score, ligand binding energy/SR_interface_E_1_2, total constraint score of the catalytic residues (all_cst), packstat, and buried unsatisfied polars of the ligand. Then, for each of these criteria, a minimum value is decided, which all designs considered for expression have to exceed ( i.e. total_score has to be lower than the corresponding Rosetta score of the undesigned scaffold, ligand_binding energy has to be < -10.0, and all_cst has to be < 1.0 ).
大體過程是:
首先,確定4-5個重要的對設計重要的特征,如total_score, ligand binding energy/SR_interface_E_1_2, total constraint score of the catalytic residues (all_cst), packstat, buried unsatisfied polars of the ligand等;
然后,確定每一個特征標准或者稱為臨界值,例如ligand_binding energy has to be < -10.0,又如 all_cst has to be < 1.0等;
最后,使用 DesignSelect.pl 腳本篩選出符合標准的設計。
DesignSelect.pl腳本的用法:
首先,需要准備一個標准或者臨界值文件,如下:
req all_cst value < 1.0 req SR_4_interf_E_1_2 value < -10.0 output sortmin total_score
然后,使用命令:
DesignSelect.pl -d design.out -c <requirements file> -tag_column last > filtered_designs.out
對結果處理,得到的文件filtered_designs.out里包含符合我們條件的entry。
故障報錯:
1. ERROR: unknown atom_name: TPP C
准備好flag文件,xml文件等后,運行 rosetta_scripts.linuxgccrelease @flags :
出現錯誤:ERROR: unknown atom_name: TPP C
沒有排查出錯誤出處,由低版本(2016)換高版本rosetta_scripts(2018)運行后,問題解決。
