STAR軟件的學習


下載地址與參考文檔

建立索引

  • 建立索引時需要先建立一個存放索引的文件夾
mkdir star_index && cd star_index
#下載需要建立索引的基因組文件
wget xxx.fa    #自己選擇基因組
wget xxx.gtf    #基因組對應的gtf文件
#注意--sjdbOverhang 參數為reads的長度-1
#模式選擇為 genomeGenerate 
STAR 
--runMode genomeGenerate 
--genomeDir star_index/ 
--genomeFastaFiles xxx.fa 
--sjdbGTFfile xxx.gtf
--sjdbOverhang 199

比對

#設置輸出文件的前綴 --outFileNamePrefix
#設置clean reads 文件 fq1和fq2間用空格
#比對默認輸出是sam格式,如果需要bam需要設置--outSAMtype參數
#當輸入的reads是fq.gz格式時需要使用--readFilesCommand命令來解壓
STAR 
--runThreadN 20 
--genomeDir star_index/ 
--readFilesCommand zcat 
--readFilesIn fq1 fq2

參數說明

  • 輸出unsorted or sorted bam file --outSAMtype BAM Unsorted 實際上就是-name 的sort,下游可以直接接HTSeq
  • --outSAMtype BAM SortedByCoordinate
  • --outSAMtype BAM Unsorted SortedByCoordinate 兩者都輸出
  • --readFilesCommand 針對fastq.gz文件增加 --readFilesCommand gunzip -c 參數/
  • --readFilesCommand zcat參數
  • 針對bzip2文件使用 --readFilesCommand bunzip2 -c參數
# 單獨指定注釋文件,而不用在構建的時候使用
 --sjdbGTFfile /path/to/ann.gtf 
--sjdbFileChrStartEnd /path/to/sj.tab 
# ENCODE參數
 # 減少偽junction的幾率 --outFilterType BySJout 
# 最多允許一個reads被匹配到多少個地方 
--outFilterMultimapNmax 20 # 在未有注釋的junction區域,最低允許突出多少個bp的單鏈序列 
--alignSJoverhangMin 8 # 在有注釋的junction區域,最低允許突出多少個bp的單鏈序列 
--alignSJDBoverhangMin 1 # 過濾掉每個paired read mismatch數目超過N的數據,999代表着忽略這個過濾 
--outFilterMismatchNmax 999 # 相對paired read長度可以允許的mismatch數目,如果read長度為100,數值設定為0.04,則會過濾掉100*2*0.04=8個以上的數據 
--outFilterMismatchNoverReadLmax 0.04 # 最小的intro長度 
--alignIntronMin 20 # 最大的intro長度 
--alignIntronMax 1000000 # maximum genomic distance between mates,翻譯不出來,自行理解 
--alignMatesGapMax 1000000

輸出格式

  • 暫略


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM