Bulk RNA-seq 轉錄組分析


Reference :

https://cloud.tencent.com/developer/article/1703051

https://blog.csdn.net/weixin_44452187/article/details/86646409

http://www.360doc.com/content/18/0715/20/19913717_770622175.shtml

https://blog.csdn.net/weixin_30885111/article/details/96585912

http://ccb.jhu.edu/software/hisat/manual.shtml

 

我們自己測得的數據:

交代一下需要准備的數據:

首先要有雙端測序的.fa.qz文件,要用網上下好的gene注釋文件,hisat2需要用到,具體如何下載,見上面兩個鏈接

 

 

 注:也可以利用.fa文件生成對應的索引文件,命令如下:

$HISAT_HOME/hisat-build $HISAT_HOME/example/reference/22_20-21M.fa 22_20-21M_hisat

//構建索引的命令如上,跟bowtie一樣我修改了一下

/home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat-build 22_20-21M.fa  my_hisat_index

//連日志都跟bowtie一模一樣,哈哈,可以看到我們的這個參考fasta文件 22_20-21M.fa 就變成索引文件啦,索引還是很多的!

 

1. 先對數據進行質控

/home/glab/Shanyr/software/FastQC/fastqc -o ./20200910-Liver-D4/neg/ ./20200910-Liver-D4/neg/neg_R1.fq.gz ./20200910-Liver-D4/neg/neg_R2.fq.gz

2. 然后可以采用上面ref中的方法對數據進行質控,去掉認為是質量不好的reads

trim_galore:可以處理illumina,nextera3,smallRNA測序平台的雙端和單端數據,包括去除adapter和低質量reads。
trim_galore的參數: trim_galore的參數在處理過程比較重要:
trim_galore
-output_dir clean --paired --length 75 --quality 25 --stringency 5 seq_1.fasq.gz seq_2.fastq.gz

3. 比對,生成bam文件:“將RNA-seq的測序reads使用hisat2比對對參考基因租組”

/home/glab/Shanyr/software/hisat2-2.1.0/hisat2 -p 16 -x ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genome_tran -1 ../neg/neg_R1.fq.gz -2 ../neg/neg_R2.fq.gz -S ../neg/neg.sam

注: -1和-2分別表示雙端測序的1個文件,后面跟的是文件路徑,一定要注意 /data/RNAseq/mm10/genome文件的目錄,genome這個不是文件夾,是index文件的前綴,我的mm10文件下並沒有這個文件,如果不加genome就會發生如下報錯:

4. htseq-count 生成計數矩陣

htseq-count -f sam -r name -s no -a 10 -t exon -i gene_name neg.sam ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genes.gtf > neg.txt

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM