[轉記]MAFFT多重序列比對圖解教程
【絮語】
一提到多重序列比對,很多人禁不住就想到ClustalW(Clustalx為ClustalW的GUI版),其實有一款多重序列比對軟件-MAFFT,不論從比對速度(Muscle>MAFFT>ClustalW>T-Coffee),還是比對准確性(MAFFT>Muscle>T-Coffee>ClustalW)來說,其相比於ClustalW(或ClustalX)有過之而無不及,所以這里強烈推薦使用MAFFT這款多重比對軟件。
PS: 不同比對軟件的比較,有興趣的童鞋可以下載這篇文章看看:Alignment uncertainty and genomic analysis. Science, 2008
MAFFT官方網站:http://mafft.cbrc.jp/alignment/software/
支持平台:Mac OS X 、Linux、Windows
Windows 32位版本:http://mafft.cbrc.jp/alignment/software/mafft-7.037-win32.zip,64位版本:http://mafft.cbrc.jp/alignment/software/mafft-7.037-win64.zip,請根據自己操作系統選擇相應版本下載。
圖1 MAFFT主界面
簡明操作流程:
1.載入序列文件 將FASTA格式的待比對序列文件(如:TMV.fas) 復制MAFFT的根目錄下(當然也可以放任意位置,只有找得到),雙擊“mafft.bat”啟動MAFFT,此時提示輸入文件(Input file?),在@后面輸入示例的TMV.fas,也可以直接將文件拖入窗口(注意有個+,說明當前是拖放狀態),如下圖所示:
加載后回車,當顯示“OK”時說明載入文件成功。
2.設置輸出信息
輸出文件名稱自定義,擴展名任意,這里保留原擴展名,輸出文件名為TMV-out.fas,確定后回車。
輸出文件格式,建議用3或4,這里在@后輸入4后回車,此時出現 MAFFT三種主要比對策略的5個選項,如下圖:
當你無法確定時候,建議用第1種的--auto模式,讓MAFFT根據序列的特點自動選擇相應的比對策略,輸入1后回車。
當不需要附帶參數時,直接回車。
3.開始多重比對
一切設置完畢,輸入“Y”回車,程序自動開始比對。
當出現輸出文件名,說明比對完成。
4.后續着色美化 詳見附錄,不再贅述
附:多重序列比對的后期着色渲染
(1) Boxshade (黑白着色),在線網址:http://www.ch.embnet.org/software/BOX_form.html相關使用教程,請網上搜索本人寫的《序列着色軟件Boxshade圖解教程(by raindy)》;
(2) ESPript 彩色着色,在線網址:http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi,效果圖:
(3)TeXShade 自定義着色,詳見日志: http://user.qzone.qq.com/58001704/blog/1367885081
最簡單的莫過於純粹的多序列比對排版,跟某些同學論文里面用Word排版的效果類似(word里面需要用等寬字體),效果類似如下:

如果稍微加點效果可能就變成了如下的樣子,我們將相同的氨基酸標記出來:

當然,TEXshade能做的不僅僅是這些,下面這張圖我們標記了其中的幾個關鍵位置,去掉了右側的“ruler”

好像這個樣子就有點亂了

下面這幅就更詳細一點了,我用不同的顏色代表了不同的conservation

很多情況下,我們只想呈現多序列中的某些突變位點,其實也可以很好的表達

如果將T-Coffee 的 score_ascii 文件一並輸入TEXshade,效果我覺得很帥氣

我遇到過很多可視化表達各種結構域的例子,下面的表示是不是很帥呢?

下面是另外的一些功能實例

下面的被稱為Sequence fingerprints,其實加上fingerprint命令就可以直接出圖了。

很早的時候,看到序列的LOGO圖覺得很帥氣,下面的Logo圖你見過么?


下面再給大家分享幾個例子,其實TEXshade能做的很多,要靠大家的想象,我一向認為,只要人能想得出,數據可視化就能做得到。

所屬相冊: 數據可視化

其實很多人都會覺得這么漂亮的圖肯定做出來很復雜,其實TEXShade需要的很簡單,輸出上面的結果其實也就是幾分鍾的事情,前提是需要你准備好需要展示的序列,記錄好要標注的位置就OK!
例如:對於下面這個看似復雜的可視化結果,其實我們需要的代碼很少,只需要5行代碼就足夠了!

上圖對應的TEX代碼:

第一行指定了我們的輸入文件,通常是比對的結果文件
第二行是指定了TEXshade的顯示模式,這里用根據 不同 functional groups的chemical properties標注顏色
第三行是表示只顯示第一條序列(AQP1.PRO)138-170個鹼基范圍
第四號表示顯示 legend
第五行表示代碼結束
http://blog.sciencenet.cn/blog-460481-706083.html 此文來自科學網高芳鑾博客,轉載請注明出處。