5.基因组索引文件创建—STAR


1.脚本

 1 #!/bin/bash
 2 #使用star软件创建人类hg38基因组索引
 3 
 4 fa_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/hg38.fa"
 5 gtf_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/Homo_sapiens.GRCh38.105.chr.gtf"
 6 mkdir -p "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38"
 7 
 8 STAR --runMode genomeGenerate \
 9      --runThreadN 4 \
10      --genomeDir "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38" \
11      --genomeFastaFiles $fa_dir \
12      --sjdbGTFfile $gtf_dir \
13      --sjdbGTFchrPrefix "chr" \
14      --sjdbOverhang 149

 

2.参数说明

1 --runMode:  运行程序模式,默认是比对,所以第一步这个参数设置很关键
2 --runThreadN:  运行的线程数,根据你自己电脑的配置来设置,数字越大运行越快
3 --genomeDir:  这个参数很重要,是存放你生成index的文件路径,需要你事先建立一个有可读写权限的文件夹
4 --genomeFastaFiles   基因组fasta格式文件路径
5 --sjdbGTFfile   GTF注释文件路径
6 --sjdbOverhang   这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值
7 --sjdbGTFchrPrefix                        -
8     string: prefix for chromosome names in a GTF file (e.g. 'chr' for using ENSMEBL annotations with UCSC genomes),即当下载的fa文件和GTF文件在染色体命名上有区别时,添加【UCSC以“chr”命名,然而ENSEMBL直接用数字命名】

 

3.注意事项

 网上有评论说明STAR建立索引文件十分占用系统资源,利用slurm集群运算时可通过调整向系统寻求的资源数量避免该问题

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM