1.脚本
1 #!/bin/bash 2 #使用star软件创建人类hg38基因组索引 3 4 fa_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/hg38.fa" 5 gtf_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/Homo_sapiens.GRCh38.105.chr.gtf" 6 mkdir -p "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38" 7 8 STAR --runMode genomeGenerate \ 9 --runThreadN 4 \ 10 --genomeDir "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38" \ 11 --genomeFastaFiles $fa_dir \ 12 --sjdbGTFfile $gtf_dir \ 13 --sjdbGTFchrPrefix "chr" \ 14 --sjdbOverhang 149
2.参数说明
1 --runMode: 运行程序模式,默认是比对,所以第一步这个参数设置很关键 2 --runThreadN: 运行的线程数,根据你自己电脑的配置来设置,数字越大运行越快 3 --genomeDir: 这个参数很重要,是存放你生成index的文件路径,需要你事先建立一个有可读写权限的文件夹 4 --genomeFastaFiles 基因组fasta格式文件路径 5 --sjdbGTFfile GTF注释文件路径 6 --sjdbOverhang 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值 7 --sjdbGTFchrPrefix - 8 string: prefix for chromosome names in a GTF file (e.g. 'chr' for using ENSMEBL annotations with UCSC genomes),即当下载的fa文件和GTF文件在染色体命名上有区别时,添加【UCSC以“chr”命名,然而ENSEMBL直接用数字命名】
3.注意事项
网上有评论说明STAR建立索引文件十分占用系统资源,利用slurm集群运算时可通过调整向系统寻求的资源数量避免该问题