相關鏈接
http://3g.dxy.cn/bbs/topic/31372707?sf=2&dn=4 (modeller詳細中文使用教程)
https://salilab.org/modeller/tutorial/ (modeller官方tutorial)
蛋白質模建的幾種方法
同源模建
- Modeller URL:https://salilab.org/modeller/
- Swiss-Model URL:https://swissmodel.expasy.org/interactive
其中的Modeller是基於Python語言構建的。相對來說,Modeller比其他的預測方法更快,但是准確度依舊有欠缺。這也是所有的同源比對方法的共同缺陷。Modeller需要本地構建確定的模板,之后進行本地計算,並不提供相關的在線服務(Swiss提供)。
所以我們選擇了Swiss-Model進行在線識別。
折疊識別
- pGenThreader URL:http://bioinf.cs.ucl.ac.uk/psipred/
- FFAS03 URL:http://ffas.burnham.org
原理:
折疊識別是通過在蛋白質結構數據庫中識別與待測序列具有相似折疊類型,進而實現對待測序列的空間結構預測。自然界中蛋白質折疊類型的數目是有限的,許多蛋白質雖然享有很低的序列相似性,但它們仍可能具有相同的折疊類型,這就是折疊識別的理論依據。現在普遍認為,折疊類型的總體數目會在幾千以內,近年來,雖然許多新蛋白質的結構不斷被解析,但折疊類型數目的增長趨於平緩。例如,CATH數據庫(截至2014年7月18日統計數字)把PDB數據庫中所有蛋白質結構歸入1313個不同的拓撲類型( topology),且自2010年以來再沒有新類型出現。對於一個待測序列,如果它所對應的折疊類型已被實驗測定,如何通過合適的計算方法找出它所對應的折疊類型,就是折疊識別要解決的核心問題。
從頭預測
- QUARK URL:http://zhanglab.ccmb.med.umich,edu/QUARK/
- Rosetta URL:https://www.rosettacommons.org/software
原理:
從頭計算法的原理是蛋白質的天然構象對應其能量最低的構象,因此通過構造合適的能量函數及優化方法,可以實現從蛋白質序列直接預測其三維結構的目的。由於很難找到精准的能量函數,以及多能量優化過程中存在大量的局部最小值,目前從頭計算法還遠未像前兩種方法那樣成熟實用,它一直是蛋白質結構預測中最具挑戰性的課題。從頭計算法的物理化學意義明晰,不依賴於模板,有可能預測到全新的蛋白質結構,所以一直受到許多研究人員的青睞。最近,從頭計算法已取得很大的突破,對一些含氨基酸數量為100~200的較小的蛋白質,有可能預測得到高精度的三維結構。所以,當采用同源模建和折疊識別無法實現對待測蛋白的空間結構預測時,可以考慮采用從頭計算法來獲得結構模型。雖然單純運用從頭計算方法得到的模型還不能可靠地用於分子對接和葯物分子設計,但預測得到的一些低分辨率的結構模型結果可用來作蛋白質功能注釋,新的算法也增強了我們對蛋白質折疊機制的認識。鑒於從頭計算法涉及較多的物理化學原理和數學方法,為便於理解,不對具體的能量函數及能量優化方法展開論述,只是通過介紹一個較為流行的軟件來加深讀者對從頭計算法的理解。
綜合方法
- I-TASSER URL:http://zhanglab.ccmb.medumich.edu/i-tasser/
實地操作&預測結果
路線
預測結果
Swiss
Target MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
5x29.1.A ------ETGTLIVNSVLLFLAFVVFLLVTLAILTALRLAAYAANIVNVSLVKPTVYVYSRVKNL-------------
Identity: 24.14%
SWISS所選取的模板是SARS病毒的E蛋白,可以構成五聚體狀態
pGen-Threader
pGen-Threader並沒有直接提供PDB文件,而是給出了相關的二級結構預測結果。
Conf: 97521045369999999999999999999999999999999979547643321889999989840788999102379
Pred: CCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCEEEECHHHHHHHHHHHHCCCCCCCCCCCC
AA: MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
QUARK2
Sequence MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
Prediction CSSSSSCCCCSSHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCSSSSSHHHHHHHHHHHHCCCCCCHHHCCC
Conf.Score 94789858975389999999999999999999999999999999968737645899999999986789996887589
H:Helix; S:Strand; C:Coil
I-TASSER
Sequence MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
Prediction CSSSSSCCCCSSHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCSSSSSHHHHHHHHHHHHCCCCCCHHHCCC
Conf.Score 90689717874179999999999999999999999999999998807602211899999999864589993665069
蛋白質預測結果評分
PDB文件的檢驗
https://www.jianshu.com/p/f4e37c62399b (蛋白質三維結構預測、結果解讀與評分)
https://servicesn.mbi.ucla.edu/SAVES/ (結果打分網站)
蛋白質的結果預測我們采用了UCLA的網站,進行直接線上打分。網站內部直接內置了6個打分的方式,只要達到其中的三種,可以認為符合基本要求,沒有明顯的錯誤。
進行打分的時候,需要有PDB文件,所以我們的二級結構預測此時不能進行評分,直接對其余三種結構進行評測。
預測質量檢驗
人工結果檢驗
由於我們所預測的E蛋白截止到現在(2020年4月19日00:36:36)還沒有實驗室結果發表(已經進行結構測定的蛋白主要還是Spike蛋白,E蛋白關注的還是較少),所以我們只能通過簡單的普遍E蛋白結構進行估計。
我們得到的結果和普遍的預測結果是吻合的。我們猜想,實際上的229E型病毒的E蛋白應該不會和SARS的E蛋白有太大的出入。所以,ITASSER和SWISS-MODEL的結果都有一定的可信度。
RMSD(Root-mean-square deviation)計算結果
人們能通過計算RMSD(原子距離均方根)的結果,來判斷兩種預測結果之間是否有很大的結構差距。
我們使用了現成的RMSD包------by charnley 。
具體的用法如下
Calculate Root-mean-square deviation (RMSD) between structure A and B, in XYZ
or PDB format, using transformation and rotation.
For more information, usage, example and citation read more at
https://github.com/charnley/rmsd
positional arguments:
FILE_A structures in .xyz or .pdb format
FILE_B
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
-r METHOD, --rotation METHOD
select rotation method. "kabsch" (default),
"quaternion" or "none"
-e, --reorder align the atoms of molecules (default: Hungarian)
--reorder-method METHOD
select which reorder method to use; hungarian
(default), brute, distance
--use-reflections scan through reflections in planes (eg Y transformed
to -Y -> X, -Y, Z) and axis changes, (eg X and Z
coords exchanged -> Z, Y, X). This will affect stereo-
chemistry.
--use-reflections-keep-stereo
scan through reflections in planes (eg Y transformed
to -Y -> X, -Y, Z) and axis changes, (eg X and Z
coords exchanged -> Z, Y, X). Stereo-chemistry will be
kept.
-nh, --no-hydrogen ignore hydrogens when calculating RMSD
--remove-idx IDX [IDX ...]
index list of atoms NOT to consider
--add-idx IDX [IDX ...]
index list of atoms to consider
--format FMT format of input files. valid format are xyz and pdb
-p, --output, --print
print out structure B, centered and rotated unto
structure A's coordinates in XYZ format
WARNING,我們在計算RMSD的前提是兩個PDB文件的size相同,不能將兩個原子數不同的結構合在一起進行RMSD計算(ps. 請看定義)。否則,您將看到下面的報錯
error: Structures not same size
我們手上的數據中,只有I-TASSER和QUARK的結果是完全相同的size(畢竟師出同門)。通過相關的計算,得到了下方的結果:
D:\onedrive\大三\大三下\生物信息學\幾種病毒的序列&結構信息\PDB標准結構\test>calculate_rmsd QUARK_model.pdb ITASSER_model.pdb
16.978380595754558
D:\onedrive\大三\大三下\生物信息學\幾種病毒的序列&結構信息\PDB標准結構\test>calculate_rmsd QUARK_model.pdb ITASSER_model.pdb -r kabsch -e
10.706245824131656
經過reorder處理的結果才是minimun的RMSD值,此時才具有相對的比較價值。 此時的RMSD值並不樂觀,在短鏈蛋白質下仍然比較大。和我們在人工觀察下的結果是相同的。同時也證明了RMSD包是具有參考價值的。
查詢SPIKE蛋白的結合蛋白(APN蛋白)的相關蛋白
https://blog.csdn.net/weixin_43569478/article/details/83754328 (STRING庫的相關用法)
我們使用STRING和STITCH庫得到了和APN蛋白存在關聯的關系圖。
STRING偏向大分子,STITCH更傾向於小分子一些。
Dock的簡單實現(挖坑)
https://zhuanlan.zhihu.com/p/42834554 (分子對接軟件綜述)