相关链接
http://3g.dxy.cn/bbs/topic/31372707?sf=2&dn=4 (modeller详细中文使用教程)
https://salilab.org/modeller/tutorial/ (modeller官方tutorial)
蛋白质模建的几种方法
同源模建
- Modeller URL:https://salilab.org/modeller/
- Swiss-Model URL:https://swissmodel.expasy.org/interactive
其中的Modeller是基于Python语言构建的。相对来说,Modeller比其他的预测方法更快,但是准确度依旧有欠缺。这也是所有的同源比对方法的共同缺陷。Modeller需要本地构建确定的模板,之后进行本地计算,并不提供相关的在线服务(Swiss提供)。
所以我们选择了Swiss-Model进行在线识别。
折叠识别
- pGenThreader URL:http://bioinf.cs.ucl.ac.uk/psipred/
- FFAS03 URL:http://ffas.burnham.org
原理:
折叠识别是通过在蛋白质结构数据库中识别与待测序列具有相似折叠类型,进而实现对待测序列的空间结构预测。自然界中蛋白质折叠类型的数目是有限的,许多蛋白质虽然享有很低的序列相似性,但它们仍可能具有相同的折叠类型,这就是折叠识别的理论依据。现在普遍认为,折叠类型的总体数目会在几千以内,近年来,虽然许多新蛋白质的结构不断被解析,但折叠类型数目的增长趋于平缓。例如,CATH数据库(截至2014年7月18日统计数字)把PDB数据库中所有蛋白质结构归入1313个不同的拓扑类型( topology),且自2010年以来再没有新类型出现。对于一个待测序列,如果它所对应的折叠类型已被实验测定,如何通过合适的计算方法找出它所对应的折叠类型,就是折叠识别要解决的核心问题。
从头预测
- QUARK URL:http://zhanglab.ccmb.med.umich,edu/QUARK/
- Rosetta URL:https://www.rosettacommons.org/software
原理:
从头计算法的原理是蛋白质的天然构象对应其能量最低的构象,因此通过构造合适的能量函数及优化方法,可以实现从蛋白质序列直接预测其三维结构的目的。由于很难找到精准的能量函数,以及多能量优化过程中存在大量的局部最小值,目前从头计算法还远未像前两种方法那样成熟实用,它一直是蛋白质结构预测中最具挑战性的课题。从头计算法的物理化学意义明晰,不依赖于模板,有可能预测到全新的蛋白质结构,所以一直受到许多研究人员的青睐。最近,从头计算法已取得很大的突破,对一些含氨基酸数量为100~200的较小的蛋白质,有可能预测得到高精度的三维结构。所以,当采用同源模建和折叠识别无法实现对待测蛋白的空间结构预测时,可以考虑采用从头计算法来获得结构模型。虽然单纯运用从头计算方法得到的模型还不能可靠地用于分子对接和药物分子设计,但预测得到的一些低分辨率的结构模型结果可用来作蛋白质功能注释,新的算法也增强了我们对蛋白质折叠机制的认识。鉴于从头计算法涉及较多的物理化学原理和数学方法,为便于理解,不对具体的能量函数及能量优化方法展开论述,只是通过介绍一个较为流行的软件来加深读者对从头计算法的理解。
综合方法
- I-TASSER URL:http://zhanglab.ccmb.medumich.edu/i-tasser/
实地操作&预测结果
路线
预测结果
Swiss
Target MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
5x29.1.A ------ETGTLIVNSVLLFLAFVVFLLVTLAILTALRLAAYAANIVNVSLVKPTVYVYSRVKNL-------------
Identity: 24.14%
SWISS所选取的模板是SARS病毒的E蛋白,可以构成五聚体状态
pGen-Threader
pGen-Threader并没有直接提供PDB文件,而是给出了相关的二级结构预测结果。
Conf: 97521045369999999999999999999999999999999979547643321889999989840788999102379
Pred: CCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCEEEECHHHHHHHHHHHHCCCCCCCCCCCC
AA: MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
QUARK2
Sequence MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
Prediction CSSSSSCCCCSSHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCSSSSSHHHHHHHHHHHHCCCCCCHHHCCC
Conf.Score 94789858975389999999999999999999999999999999968737645899999999986789996887589
H:Helix; S:Strand; C:Coil
I-TASSER
Sequence MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
Prediction CSSSSSCCCCSSHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCSSSSSHHHHHHHHHHHHCCCCCCHHHCCC
Conf.Score 90689717874179999999999999999999999999999998807602211899999999864589993665069
蛋白质预测结果评分
PDB文件的检验
https://www.jianshu.com/p/f4e37c62399b (蛋白质三维结构预测、结果解读与评分)
https://servicesn.mbi.ucla.edu/SAVES/ (结果打分网站)
蛋白质的结果预测我们采用了UCLA的网站,进行直接线上打分。网站内部直接内置了6个打分的方式,只要达到其中的三种,可以认为符合基本要求,没有明显的错误。
进行打分的时候,需要有PDB文件,所以我们的二级结构预测此时不能进行评分,直接对其余三种结构进行评测。
预测质量检验
人工结果检验
由于我们所预测的E蛋白截止到现在(2020年4月19日00:36:36)还没有实验室结果发表(已经进行结构测定的蛋白主要还是Spike蛋白,E蛋白关注的还是较少),所以我们只能通过简单的普遍E蛋白结构进行估计。
我们得到的结果和普遍的预测结果是吻合的。我们猜想,实际上的229E型病毒的E蛋白应该不会和SARS的E蛋白有太大的出入。所以,ITASSER和SWISS-MODEL的结果都有一定的可信度。
RMSD(Root-mean-square deviation)计算结果
人们能通过计算RMSD(原子距离均方根)的结果,来判断两种预测结果之间是否有很大的结构差距。
我们使用了现成的RMSD包------by charnley 。
具体的用法如下
Calculate Root-mean-square deviation (RMSD) between structure A and B, in XYZ
or PDB format, using transformation and rotation.
For more information, usage, example and citation read more at
https://github.com/charnley/rmsd
positional arguments:
FILE_A structures in .xyz or .pdb format
FILE_B
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
-r METHOD, --rotation METHOD
select rotation method. "kabsch" (default),
"quaternion" or "none"
-e, --reorder align the atoms of molecules (default: Hungarian)
--reorder-method METHOD
select which reorder method to use; hungarian
(default), brute, distance
--use-reflections scan through reflections in planes (eg Y transformed
to -Y -> X, -Y, Z) and axis changes, (eg X and Z
coords exchanged -> Z, Y, X). This will affect stereo-
chemistry.
--use-reflections-keep-stereo
scan through reflections in planes (eg Y transformed
to -Y -> X, -Y, Z) and axis changes, (eg X and Z
coords exchanged -> Z, Y, X). Stereo-chemistry will be
kept.
-nh, --no-hydrogen ignore hydrogens when calculating RMSD
--remove-idx IDX [IDX ...]
index list of atoms NOT to consider
--add-idx IDX [IDX ...]
index list of atoms to consider
--format FMT format of input files. valid format are xyz and pdb
-p, --output, --print
print out structure B, centered and rotated unto
structure A's coordinates in XYZ format
WARNING,我们在计算RMSD的前提是两个PDB文件的size相同,不能将两个原子数不同的结构合在一起进行RMSD计算(ps. 请看定义)。否则,您将看到下面的报错
error: Structures not same size
我们手上的数据中,只有I-TASSER和QUARK的结果是完全相同的size(毕竟师出同门)。通过相关的计算,得到了下方的结果:
D:\onedrive\大三\大三下\生物信息学\几种病毒的序列&结构信息\PDB标准结构\test>calculate_rmsd QUARK_model.pdb ITASSER_model.pdb
16.978380595754558
D:\onedrive\大三\大三下\生物信息学\几种病毒的序列&结构信息\PDB标准结构\test>calculate_rmsd QUARK_model.pdb ITASSER_model.pdb -r kabsch -e
10.706245824131656
经过reorder处理的结果才是minimun的RMSD值,此时才具有相对的比较价值。 此时的RMSD值并不乐观,在短链蛋白质下仍然比较大。和我们在人工观察下的结果是相同的。同时也证明了RMSD包是具有参考价值的。
查询SPIKE蛋白的结合蛋白(APN蛋白)的相关蛋白
https://blog.csdn.net/weixin_43569478/article/details/83754328 (STRING库的相关用法)
我们使用STRING和STITCH库得到了和APN蛋白存在关联的关系图。
STRING偏向大分子,STITCH更倾向于小分子一些。
Dock的简单实现(挖坑)
https://zhuanlan.zhihu.com/p/42834554 (分子对接软件综述)