Genscan指南
GenScan是一個gene識別軟件,主要是通過已知生物的基因結構特征來識別新的基因(parse)。所利用的基因特征請參看readme文件。
特點:
- 只考慮編碼蛋白的基因。
- 模型考慮每個sequence可能有0個,1個,多個,甚至雙鏈都有基因。
- 假設transcription units沒有overlapping。
Input:
基因組序列
Output:
- 文本文件:識別出來的外顯子基因,翻譯后的蛋白質序列。
- 圖形文件:展示預測外顯子的位置
1. 安裝
安裝要求:
N kilobases的序列需要 N/2 Megabytes of RAM
獲取軟件
Genscan對學術用戶免費,需要在這里提交你的姓名和地址后下載Intel/Linux distribution。此時還可以看到readme文件
下載到的文件是genscanlinux.tar.uue
安裝步驟
建立安裝目錄
mkdir GENSCANS
cd GENSCANS
mv 下載目錄/genscanlinux.tar.uue ./
解壓縮
sudo apt-get install sharutils
uudecode genscanlinux.tar.uue
tar -xvf genscanlinux.tar
./
./Arabidopsis.smat
./HUMRASH
./HUMRASH.sample
./HumanIso.smat
./Maize.smat
./README
./HUMRASH.ps
./genscan
確保你的權限
chmod a+x genscan
chmod a+r *.smat
把genscan和配置文件(*.smat)安裝到你的環境變量中
mv genscan /usr/bin/genscan
mkdir /usr/lib/GENSCAN
mv *.smat /usr/lib/GENSCAN
嘗試運行
genscan
usage: genscan parfname seqfname [-v] [-cds] [-subopt cutoff] [-ps psfname scale]
parfname : full pathname of parameter file
(for appropriate organism)
seqfname : full pathname of sequence file
(FastA or minimal GenBank format)
-v : verbose output (extra explanatory info)
-cds : print predicted coding sequences (nucleic acid)
-subopt : display suboptimal exons with P > cutoff (optional)
cutoff : suboptimal exon probability cutoff (minimum: 0.01)
-ps : create Postscript output (optional)
psfname : filename for PostScript output
scale : scale for PostScript output (bp per line)
以上文件出現則安裝成功
2. 運行程序
參數文件
參數文件中包含了基因組中基因序列的各種特征,不同物種有所區別。目前可用的物種參數文件,包括:
HumanIso.smat-----------------human/vertebrate sequences (also Drosophila)(脊椎動物)
Arabidopsis.smat---------------Arabidopsis thaliana sequences(雙子葉植物)
Maize.smat----------------------Zea mays sequences(單子葉植物)
使用時請於物種相對應,否則效果很差
序列文件
fasta文件即可(還支持minimal GenBank文件)
運行程序(雙子葉植物為例)
genscan /usr/lib/GENSCAN/Arabidopsis.smat 我的序列.fasta -ps 圖片output名稱.ps > 文字output名稱.txt
3. 結果
- 文本文件:識別出來的外顯子基因,翻譯后的蛋白質序列。
例子
GENSCAN 1.0 Date run: 12-Mar-98 Time: 10:28:00
Sequence HUMRASH : 6453 bp : 68.19% C+G : Isochore 4 (57 - 100 C+G%)
Parameter matrix: HumanIso.smat
Predicted genes/exons:
Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
1.01 Init + 1664 1774 111 1 0 94 83 212 0.997 21.33
1.02 Intr + 2042 2220 179 1 2 104 66 408 0.997 40.12
1.03 Intr + 2374 2533 160 1 1 89 94 302 0.999 32.08
1.04 Term + 3231 3350 120 2 0 115 48 202 0.961 18.31
Predicted peptide sequence(s):
>HUMRASH|GENSCAN_predicted_peptide_1|189_aa
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CMSCKCVLS
- 圖形文件:展示預測外顯子的位置
