5.基因組索引文件創建—STAR


1.腳本

 1 #!/bin/bash
 2 #使用star軟件創建人類hg38基因組索引
 3 
 4 fa_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/hg38.fa"
 5 gtf_dir="/home/shenqingsong/project/RNA-Seq/reference/hg38/Homo_sapiens.GRCh38.105.chr.gtf"
 6 mkdir -p "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38"
 7 
 8 STAR --runMode genomeGenerate \
 9      --runThreadN 4 \
10      --genomeDir "/home/shenqingsong/project/RNA-Seq/reference/index/star/hg38" \
11      --genomeFastaFiles $fa_dir \
12      --sjdbGTFfile $gtf_dir \
13      --sjdbGTFchrPrefix "chr" \
14      --sjdbOverhang 149

 

2.參數說明

1 --runMode:  運行程序模式,默認是比對,所以第一步這個參數設置很關鍵
2 --runThreadN:  運行的線程數,根據你自己電腦的配置來設置,數字越大運行越快
3 --genomeDir:  這個參數很重要,是存放你生成index的文件路徑,需要你事先建立一個有可讀寫權限的文件夾
4 --genomeFastaFiles   基因組fasta格式文件路徑
5 --sjdbGTFfile   GTF注釋文件路徑
6 --sjdbOverhang   這個值為你測序read的長度減1,是在注釋可變剪切序列的時候使用的最大長度值
7 --sjdbGTFchrPrefix                        -
8     string: prefix for chromosome names in a GTF file (e.g. 'chr' for using ENSMEBL annotations with UCSC genomes),即當下載的fa文件和GTF文件在染色體命名上有區別時,添加【UCSC以“chr”命名,然而ENSEMBL直接用數字命名】

 

3.注意事項

 網上有評論說明STAR建立索引文件十分占用系統資源,利用slurm集群運算時可通過調整向系統尋求的資源數量避免該問題

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM