Reference :
https://cloud.tencent.com/developer/article/1703051
https://blog.csdn.net/weixin_44452187/article/details/86646409
http://www.360doc.com/content/18/0715/20/19913717_770622175.shtml
https://blog.csdn.net/weixin_30885111/article/details/96585912
http://ccb.jhu.edu/software/hisat/manual.shtml
我們自己測得的數據:
交代一下需要准備的數據:
首先要有雙端測序的.fa.qz文件,要用網上下好的gene注釋文件,hisat2需要用到,具體如何下載,見上面兩個鏈接
注:也可以利用.fa文件生成對應的索引文件,命令如下:
$HISAT_HOME/hisat-build $HISAT_HOME/example/reference/22_20-21M.fa 22_20-21M_hisat //構建索引的命令如上,跟bowtie一樣我修改了一下 /home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat-build 22_20-21M.fa my_hisat_index //連日志都跟bowtie一模一樣,哈哈,可以看到我們的這個參考fasta文件 22_20-21M.fa 就變成索引文件啦,索引還是很多的!
1. 先對數據進行質控
/home/glab/Shanyr/software/FastQC/fastqc -o ./20200910-Liver-D4/neg/ ./20200910-Liver-D4/neg/neg_R1.fq.gz ./20200910-Liver-D4/neg/neg_R2.fq.gz
2. 然后可以采用上面ref中的方法對數據進行質控,去掉認為是質量不好的reads
trim_galore:可以處理illumina,nextera3,smallRNA測序平台的雙端和單端數據,包括去除adapter和低質量reads。 trim_galore的參數: trim_galore的參數在處理過程比較重要:
trim_galore -output_dir clean --paired --length 75 --quality 25 --stringency 5 seq_1.fasq.gz seq_2.fastq.gz
3. 比對,生成bam文件:“將RNA-seq的測序reads使用hisat2比對對參考基因租組”
/home/glab/Shanyr/software/hisat2-2.1.0/hisat2 -p 16 -x ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genome_tran -1 ../neg/neg_R1.fq.gz -2 ../neg/neg_R2.fq.gz -S ../neg/neg.sam
注: -1和-2分別表示雙端測序的1個文件,后面跟的是文件路徑,一定要注意 /data/RNAseq/mm10/genome文件的目錄,genome這個不是文件夾,是index文件的前綴,我的mm10文件下並沒有這個文件,如果不加genome就會發生如下報錯:
4. htseq-count 生成計數矩陣
htseq-count -f sam -r name -s no -a 10 -t exon -i gene_name neg.sam ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genes.gtf > neg.txt