参考基因组下载
基因组各版本的对应关系http://www.bio-info-trainee.com/1469.html
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
#从UCSC下载人类hg19版本参考基因组
mkdir -p ~/rna_seq_AKAP95/data/reference/genome
cd ~/rna_seq_AKAP95/data/reference/genome
wget -c http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#解压
tar -zxvf chromFa.tar.gz
#把每个染色体序列整合到一个文件
cat *.fa > hg19.fa
#删除整合前的文件
rm -r chr*
在UCSC查找参考基因组
-
1.打开UCSChttp://genome.ucsc.edu/,点击Downloads,在选择Genome Data,
-
2.再点击human
我这里选择了hg19版本人类参考基因组注释文件,其实有更好的hg38版本
- 4.选择chromFa.tar.gz文件,未压缩的人类参考基因组为3G,压缩后的为原来的1/3
mouse参考基因组mm10下载流程一样
参考基因组注释下载
#从Gencode下载hg19的注释文件
mkdir -p ~/rna_seq_AKAP95/data/reference/genome/hg19
cd ~/rna_seq_AKAP95/data/reference/genome/hg19
#gtf文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gtf.gz
#gff文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gff3.gz
gunzip *.gz
GTF与GFF文件的区别
1.Ensembl:目的是做出最好的基因注释集。
2.Havana (VEGA):是桑格中心的一个基因注释组织,它的目标和Eiisembl—致,因此,结合得也最紧密。
3.HGNC -给出人类基因唯一的名字和符号。
4.UniProt 主要集中于蛋白质的信息注释。
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|
chromosome name | annotation source | feature type | genomic start location | genomic end location | score(not used) | genomic strand | genomic phase (for CDS features) | attributes |
- GTF第九列以键值对形式存在,键与值之间以空格分隔
- GFF第九列以键值对形式存在,键与值之间以等号分隔
IGV使用
wget https://data.broadinstitute.org/igv/projects/downloads/2.8/IGV_Linux_2.8.0.zip