Genscan指南


Genscan指南

GenScan是一個gene識別軟件,主要是通過已知生物的基因結構特征來識別新的基因(parse)。所利用的基因特征請參看readme文件。

特點:
  1. 只考慮編碼蛋白的基因。
  2. 模型考慮每個sequence可能有0個,1個,多個,甚至雙鏈都有基因。
  3. 假設transcription units沒有overlapping。

Input:

基因組序列

Output:

  1. 文本文件:識別出來的外顯子基因,翻譯后的蛋白質序列。
  2. 圖形文件:展示預測外顯子的位置

1. 安裝

安裝要求:

N kilobases的序列需要 N/2 Megabytes of RAM

獲取軟件

Genscan對學術用戶免費,需要在這里提交你的姓名和地址后下載Intel/Linux distribution。此時還可以看到readme文件

下載到的文件是genscanlinux.tar.uue

安裝步驟

建立安裝目錄

mkdir GENSCANS
cd GENSCANS
mv 下載目錄/genscanlinux.tar.uue ./

解壓縮

sudo apt-get install sharutils
uudecode genscanlinux.tar.uue 
tar -xvf genscanlinux.tar
./
./Arabidopsis.smat
./HUMRASH
./HUMRASH.sample
./HumanIso.smat
./Maize.smat
./README
./HUMRASH.ps
./genscan

確保你的權限

chmod a+x genscan
chmod a+r *.smat

把genscan和配置文件(*.smat)安裝到你的環境變量中

mv genscan /usr/bin/genscan
mkdir /usr/lib/GENSCAN
mv *.smat /usr/lib/GENSCAN

嘗試運行

genscan
usage: genscan parfname seqfname [-v] [-cds] [-subopt cutoff] [-ps psfname scale]

       parfname : full pathname of parameter file
                  (for appropriate organism)

       seqfname : full pathname of sequence file
                  (FastA or minimal GenBank format)

       -v       : verbose output (extra explanatory info)

       -cds     : print predicted coding sequences (nucleic acid)

       -subopt  : display suboptimal exons with P > cutoff (optional)
       cutoff   : suboptimal exon probability cutoff (minimum: 0.01)

       -ps      : create Postscript output (optional)
       psfname  : filename for PostScript output
       scale    : scale for PostScript output (bp per line)

以上文件出現則安裝成功


2. 運行程序

參數文件

參數文件中包含了基因組中基因序列的各種特征,不同物種有所區別。目前可用的物種參數文件,包括:

HumanIso.smat-----------------human/vertebrate sequences (also Drosophila)(脊椎動物)
Arabidopsis.smat---------------Arabidopsis thaliana sequences(雙子葉植物)
Maize.smat----------------------Zea mays sequences(單子葉植物)

使用時請於物種相對應,否則效果很差

序列文件

fasta文件即可(還支持minimal GenBank文件)
運行程序(雙子葉植物為例)

genscan /usr/lib/GENSCAN/Arabidopsis.smat 我的序列.fasta -ps 圖片output名稱.ps > 文字output名稱.txt

3. 結果

  1. 文本文件:識別出來的外顯子基因,翻譯后的蛋白質序列。
    例子
GENSCAN 1.0	Date run: 12-Mar-98	Time: 10:28:00

Sequence HUMRASH : 6453 bp : 68.19% C+G : Isochore 4 (57 - 100 C+G%)

Parameter matrix: HumanIso.smat

Predicted genes/exons:

Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------

 1.01 Init +   1664   1774  111  1  0   94   83   212 0.997  21.33
 1.02 Intr +   2042   2220  179  1  2  104   66   408 0.997  40.12
 1.03 Intr +   2374   2533  160  1  1   89   94   302 0.999  32.08
 1.04 Term +   3231   3350  120  2  0  115   48   202 0.961  18.31

Predicted peptide sequence(s):


>HUMRASH|GENSCAN_predicted_peptide_1|189_aa
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CMSCKCVLS
  1. 圖形文件:展示預測外顯子的位置


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM