對於蛋白質序列,計分矩陣主要用於記錄在做序列比對時兩個相對應的殘基的相似度,一旦這個矩陣定義好了以后,比對程式就可以利用這個矩陣,盡量將相似的殘基排在一起,以達到最好的比對。
得分矩陣主要有兩種,第一種就是PAM(Point Accepted Multation),另一種就是BLOSUM。
1、PAM矩陣(Point Accepted Mutation)
基於進化的點突變模型,如果兩種氨基酸替換頻繁,說明自然界接受這種替換,那么這對氨基酸替換得分就高。一個PAM就是一個進化的變異單位, 即1%的氨基酸改變,但這並不意味100次PAM后,每個氨基酸都發生變化,因為其中一些位置可能會經過多次突變,甚至可能會變回到原來的氨基酸。
PAM矩陣的制作步驟:
構建序列相似(大於85%)的比對
計算氨基酸 j 的相對突變率mj(j被其它氨基酸替換的次數)
針對每個氨基酸對 i 和 j , 計算 j 被 i 替換次數
替換次數除以相對突變率(mj)
利用每個氨基酸出現的頻度對j 進行標准化
取常用對數,得到PAM-1(i, j)
將PAM-1自乘N次,可以得到PAM-N。
這種矩陣的缺點是一旦PAM1的矩陣有效地誤 差,那么自乘250后得到的PAM250矩陣的誤差就會變得很大。
如,PAM120矩陣用於比較相距120個PAM單位的序列。
一個PAM-N矩陣元素(i,j)的值:
反應兩個相距N個PAM單位的序列中第i種氨基酸替換第j種氨基酸的頻率。
針對不同的進化距離采用PAM 矩陣
序列相似度 = 40% 50% 60%
| | |
打分矩陣 = PAM120 PAM80 PAM60
PAM250 → 14% – 27%
2、BLOSUM 矩陣
此矩陣與PAM矩陣的不同之處在於:
(1)用於產生矩陣的蛋白質家族及多肽鏈數目,BLOSUM比PAM大約多20倍。
(2)PAM:家族內成員相比,然后把所有家族中對某種氨基酸的比較結果加和在一起,產生“取代”數據(PAM-1 );PAM-1自乘n次,得PAM-n。
BLOSUM:首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如一個結構域及其相鄰的兩小段氨基酸序列) ,分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對另一種氨基酸的取代數據),然后,以所有 60%保守性的氨基酸模式之間的比較數據為根據,產生BLOSUM60;以所有80%保守性的氨基酸模式之間的比 較數據為根據,產生BLOSUM80。
(3)PAM-n中,n 越小,表示氨基酸變異的可能性越小;相似的序列之間比較應該選用n值小的矩陣,不太相似 的序列之間比較應該選用n值大的矩陣。PAM-250用於約20%相同序列之間的比較。BLOSUM-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之間比較應該選用 n 值大的矩陣,不太相似的序列之間比較應該選 用n值小的矩陣。BLOSUM-62用來比較62%相似度的序列,BLOSUM-80用來比較80%左右的序列。
轉載自:http://www.dingding.biz/archives/268
