转录组(四):了解参考基因组及基因注释


参考基因组下载

基因组各版本的对应关系http://www.bio-info-trainee.com/1469.html
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

#从UCSC下载人类hg19版本参考基因组
mkdir -p ~/rna_seq_AKAP95/data/reference/genome
cd ~/rna_seq_AKAP95/data/reference/genome
wget -c http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

#解压
tar -zxvf chromFa.tar.gz

#把每个染色体序列整合到一个文件
cat *.fa > hg19.fa

#删除整合前的文件
rm -r chr*

在UCSC查找参考基因组

我这里选择了hg19版本人类参考基因组注释文件,其实有更好的hg38版本

点击Genome sequence files

  • 4.选择chromFa.tar.gz文件,未压缩的人类参考基因组为3G,压缩后的为原来的1/3
    说明文档
    选择chromFa.tar.gz

mouse参考基因组mm10下载流程一样

参考基因组注释下载

#从Gencode下载hg19的注释文件
mkdir -p ~/rna_seq_AKAP95/data/reference/genome/hg19
cd ~/rna_seq_AKAP95/data/reference/genome/hg19

#gtf文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gtf.gz

#gff文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gff3.gz
gunzip *.gz

hg19注释文件

GTF与GFF文件的区别

1.Ensembl:目的是做出最好的基因注释集。
2.Havana (VEGA):是桑格中心的一个基因注释组织,它的目标和Eiisembl—致,因此,结合得也最紧密。
3.HGNC -给出人类基因唯一的名字和符号。
4.UniProt 主要集中于蛋白质的信息注释。

1 2 3 4 5 6 7 8 9
chromosome name annotation source feature type genomic start location genomic end location score(not used) genomic strand genomic phase (for CDS features) attributes

Gencode GTF

  • GTF第九列以键值对形式存在,键与值之间以空格分隔
  • GFF第九列以键值对形式存在,键与值之间以等号分隔

IGV使用

wget https://data.broadinstitute.org/igv/projects/downloads/2.8/IGV_Linux_2.8.0.zip

IGV初试
参考
http://www.biotrainee.com/thread-1745-1-1.html

https://www.jianshu.com/p/f101c9238fc5


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM