轉錄組(四):了解參考基因組及基因注釋


參考基因組下載

基因組各版本的對應關系http://www.bio-info-trainee.com/1469.html
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

#從UCSC下載人類hg19版本參考基因組
mkdir -p ~/rna_seq_AKAP95/data/reference/genome
cd ~/rna_seq_AKAP95/data/reference/genome
wget -c http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

#解壓
tar -zxvf chromFa.tar.gz

#把每個染色體序列整合到一個文件
cat *.fa > hg19.fa

#刪除整合前的文件
rm -r chr*

在UCSC查找參考基因組

我這里選擇了hg19版本人類參考基因組注釋文件,其實有更好的hg38版本

點擊Genome sequence files

  • 4.選擇chromFa.tar.gz文件,未壓縮的人類參考基因組為3G,壓縮后的為原來的1/3
    說明文檔
    選擇chromFa.tar.gz

mouse參考基因組mm10下載流程一樣

參考基因組注釋下載

#從Gencode下載hg19的注釋文件
mkdir -p ~/rna_seq_AKAP95/data/reference/genome/hg19
cd ~/rna_seq_AKAP95/data/reference/genome/hg19

#gtf文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gtf.gz

#gff文件
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_33/GRCh37_mapping/gencode.v33lift37.annotation.gff3.gz
gunzip *.gz

hg19注釋文件

GTF與GFF文件的區別

1.Ensembl:目的是做出最好的基因注釋集。
2.Havana (VEGA):是桑格中心的一個基因注釋組織,它的目標和Eiisembl—致,因此,結合得也最緊密。
3.HGNC -給出人類基因唯一的名字和符號。
4.UniProt 主要集中於蛋白質的信息注釋。

1 2 3 4 5 6 7 8 9
chromosome name annotation source feature type genomic start location genomic end location score(not used) genomic strand genomic phase (for CDS features) attributes

Gencode GTF

  • GTF第九列以鍵值對形式存在,鍵與值之間以空格分隔
  • GFF第九列以鍵值對形式存在,鍵與值之間以等號分隔

IGV使用

wget https://data.broadinstitute.org/igv/projects/downloads/2.8/IGV_Linux_2.8.0.zip

IGV初試
參考
http://www.biotrainee.com/thread-1745-1-1.html

https://www.jianshu.com/p/f101c9238fc5


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM