參考基因組下載
基因組各版本的對應關系http://www.bio-info-trainee.com/1469.html
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
#從UCSC下載人類hg19版本參考基因組
mkdir -p ~/rna_seq_AKAP95/data/reference/genome
cd ~/rna_seq_AKAP95/data/reference/genome
wget -c http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#解壓
tar -zxvf chromFa.tar.gz
#把每個染色體序列整合到一個文件
cat *.fa > hg19.fa
#刪除整合前的文件
rm -r chr*
在UCSC查找參考基因組
-
1.打開UCSChttp://genome.ucsc.edu/,點擊Downloads,在選擇Genome Data,
-
2.再點擊human
我這里選擇了hg19版本人類參考基因組注釋文件,其實有更好的hg38版本
- 4.選擇chromFa.tar.gz文件,未壓縮的人類參考基因組為3G,壓縮后的為原來的1/3
mouse參考基因組mm10下載流程一樣
參考基因組注釋下載
#從Gencode下載hg19的注釋文件
mkdir -p ~/rna_seq_AKAP95/data/reference/genome/hg19
cd ~/rna_seq_AKAP95/data/reference/genome/hg19
#gtf文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gtf.gz
#gff文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gff3.gz
gunzip *.gz
GTF與GFF文件的區別
1.Ensembl:目的是做出最好的基因注釋集。
2.Havana (VEGA):是桑格中心的一個基因注釋組織,它的目標和Eiisembl—致,因此,結合得也最緊密。
3.HGNC -給出人類基因唯一的名字和符號。
4.UniProt 主要集中於蛋白質的信息注釋。
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|
chromosome name | annotation source | feature type | genomic start location | genomic end location | score(not used) | genomic strand | genomic phase (for CDS features) | attributes |
- GTF第九列以鍵值對形式存在,鍵與值之間以空格分隔
- GFF第九列以鍵值對形式存在,鍵與值之間以等號分隔
IGV使用
wget https://data.broadinstitute.org/igv/projects/downloads/2.8/IGV_Linux_2.8.0.zip