1.腳本
1 #!/bin/bash 2 #使用star軟件創建人類hg38基因組索引 3 4 fa_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/hg38.fa" 5 gtf_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/Homo_sapiens.GRCh38.105.chr.gtf" 6 mkdir -p "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38" 7 8 STAR --runMode genomeGenerate \ 9 --runThreadN 4 \ 10 --genomeDir "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38" \ 11 --genomeFastaFiles $fa_dir \ 12 --sjdbGTFfile $gtf_dir \ 13 --sjdbGTFchrPrefix "chr" \ 14 --sjdbOverhang 149
2.參數說明
1 --runMode: 運行程序模式,默認是比對,所以第一步這個參數設置很關鍵 2 --runThreadN: 運行的線程數,根據你自己電腦的配置來設置,數字越大運行越快 3 --genomeDir: 這個參數很重要,是存放你生成index的文件路徑,需要你事先建立一個有可讀寫權限的文件夾 4 --genomeFastaFiles 基因組fasta格式文件路徑 5 --sjdbGTFfile GTF注釋文件路徑 6 --sjdbOverhang 這個值為你測序read的長度減1,是在注釋可變剪切序列的時候使用的最大長度值 7 --sjdbGTFchrPrefix - 8 string: prefix for chromosome names in a GTF file (e.g. 'chr' for using ENSMEBL annotations with UCSC genomes),即當下載的fa文件和GTF文件在染色體命名上有區別時,添加【UCSC以“chr”命名,然而ENSEMBL直接用數字命名】
3.注意事項
網上有評論說明STAR建立索引文件十分占用系統資源,利用slurm集群運算時可通過調整向系統尋求的資源數量避免該問題