【轉錄組入門】4：參考基因組和注釋文件

本文轉載自查看原文 2018-06-30 21:27 9768 生物信息學/ RNA-seq

作業要求：

在UCSC下載hg19參考基因組，我博客有詳細說明，從gencode數據庫下載基因注釋文件，並且用IGV去查看你感興趣的基因的結構，比如TP53,KRAS,EGFR等等。
作業，截圖幾個基因的IGV可視化結構！還可以下載ENSEMBL，NCBI的gtf，也導入IGV看看，截圖基因結構。了解IGV常識。

參考基因組--下載

地址：UCSC https://genome.ucsc.edu/

(1)、進入UCSC---選擇Downloads---genomic data---human---GRCh37/hg19---Full data set，下拉，找到chromFa.tar.gz,右擊chromFa.tar.gz，選擇“復制鏈接地址”

# 點擊 Full data set后，有各類文件的說明文檔

(2)、終端命令行操作

 1 # 切換到要存放參考基因組的目錄
 2 $ cd data/GSE81916/reference/genome/hg19
 3 
 4 # 用axel或wget下載參考基因組
 5 $ nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz    # wget后面跟的是參考基因組的下載地址
 6 
 7 # 解壓下載后的文件
 8 $ tar -zxvf chromFa.tar.gz
 9 
10 # 解壓后可以發現，參考序列是按照染色體號分開列出的，我們還需要把所有的序列寫入到一個文件中。
11 $ cat *.fa > hg19.fa
12 
13 #最后刪除其他無用的文件
14 $ rm chr*.fa

注釋文件--下載

（1）、進入Gencode數據庫---Data---Human---GRCh37-mapped Release---選擇2016年10月份發布的最新注釋版本“gencode.v26lift37.annotation.gtf.gz”

鼠標右擊，“復制鏈接地址”

（2）、命令行批量下載

1 # 用axel批量下載
2 $ axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
3 # 下載后解壓
4 $ gzip -d gencode.v26lift37.annotation.gtf.gz
5 # 與下載的hg19參考基因組放在一起
6 $ mv genconde.v26lift37.annotation.gtf  ./Reference/Human/hg19

補充：GTF和GFF之間的區別

數據結構：都是由9列構成，分別是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的，第9列不同。

GFF第9列：都是以鍵值對的形式，鍵值之間用“=”連接，不同屬性之間用“；”分隔，都是以ID這個屬性開始。下圖中有兩個ID，說明是不同的序列。

GTF第9列：同樣以鍵值對的形式，鍵值之間是以空格區分，值用雙引號括起來；不同屬性之間用“；”分隔；開頭必須是geneid, transciptid兩個屬性。

基因組瀏覽器：IGV

Integrative Genomics Viewer(IGV)是一種探索大型綜合基因組數據的高性能交互式可視化工具。它支持各種各樣的數據類型，包括基於芯片測序、二代測序數據和基因組注釋數據等。

IGV下載

 1 # 進入IGV官網，並下載相應的軟件包，有Windows，Mac，和LINUX，這里我下載Linux二進制包
 2 $ cd ~/src
 3 $ wget http://data.broadinstitute.org/igv/projects/downloads/IGV_2.3.97.zip
 4 $ unzip IGV_2.3.97.zip && mv IGV_2.3.97 ~/biosoft
 5 
 6 # 添加環境變量
 7 $ vim ~/.bashrc
 8    PATH=$PATH:~/biosoft/IGV_2.3.97
 9 $ source ~/.bashrc
10 
11 # 運行IGV，Linux直接運行igv.sh可以開啟IGV窗口，但是會比較慢，要耐心等待。
12 $ igv.sh

IGV使用

0、初始化窗口

1、載入基因組，選擇Genome標簽，load我們之前已經下載好的hg19.fa基因組。

2、載入基因組注釋，但是在載入之前需要將gff3進行排序，選擇Tools-Run igvtools，進入以下igvtools窗口：

3、獲得sorted文件：command選擇sort，再選擇輸入的注釋文件，點擊Run，就可以生成sorted.gff3文件。

4、通過file->load from file...選擇sorted文件，打開。選擇區域的大小，來看某些基因的信息，藍色的粗線條就是代表基因。說到底，IGV就是一個將基因組及其注釋信息可視化的工具。（下圖是載入基因組和注釋信息后的窗口）

理論知識

RNA-seq數據分析的通用套路是：

1、檢測測序數據的質量，如果需要，對數據進行預處理，去掉接頭，去掉質量差的數據等等

2、將所有數據回帖到genome，根據結果，進行新基因或轉錄本的鑒定，然后對轉錄數據進行定量，並進行差異表達分析。也可跳過對新基因和新轉錄本的分析，只對已知的基因和轉錄本進行定量。

3、如果沒有參考genome數據，可以供transcritome數據代替。

4、如果參考轉錄組數據也沒有，可以直接對RNA-seq數據進行從頭組裝，注釋，作為參考轉錄組。

圖片源於《RNA-seq Data Analysis》

把高通量測序得到的reads回帖到參考基因組上，既是進行后續基因表達定量和差異表達分析的基礎，同時也是可變剪接分析、SNP、InDel分析以及測試數據質量控制的一部分

回帖常用軟件：HISAT2, STAR

參考基因組

參考基因組的實質：就是某一物種的基因組序列，因此是fasta格式。

三大網站：

1.NCBI （https://www.ncbi.nlm.nih.gov/grc）

2.UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)

3.Ensemble （http://asia.ensembl.org/index.html?redirect=no）

三大網站的ftp地址：

ensembl : ftp://ftp.ensembl.org/pub

NCBI : ftp://ftp.ncbi.nih.gov/genomes/

UCSC：ftp://hgdownload.soe.ucsc.edu/goldenPath

推薦：去Ensemble下載參考序列，（UCSC很久沒更新）

目前最常用的人的參考基因組版本如下（Jimmy總結）：

NCBI	UCSC	Ensemble
GRCh36	hg18	ENSEMBL release_52
GRCh37	hg19	ENSEMBL release_59/61/64/68/69/75
GRCh38	hg38	ENSEMBL release_76/77/78/80/81/8

注釋文件

就是基因組的說明書。告訴我們哪些序列是編碼蛋白的基因，哪些是非編碼基因，外顯子、內含子、UTR等的位置等等。注釋文件在以上三個提供參考基因組的網站中都有提供，比如Ensemble。但是現在最權威的人類和小鼠基因組的注釋還屬Gencode數據庫。

IGV軟件界面簡介

主窗口布局：

1.工具欄tool bar

2.紅色框顯示當前顯示的染色體的位置，當縮小顯示范圍到整個染色體范圍時，紅色框消失。

3.顯示當前查看的染色體序列的長度

4.該窗口顯示測序樣品的測序情況。每一條track代表一個樣品或者一次實驗，顯示的情況包括甲基化、表達水平、拷貝數，鹼基突變等信息。

5.參考基因組信息

6.track名（即樣品或者實驗名）

7.Attribute names屬性名，即序列信息，如indel、甲基化等。

更多的使用方法可查看IGV User Guide

參考資料

轉錄組入門(1)-作業-轉錄組-生信技能樹 http://www.biotrainee.com/thread-1796-1-1.html

HOPTOP轉錄組入門（一）布置運行環境-轉錄組-生信技能樹 http://www.biotrainee.com/thread-1800-1-1.html

RNA-seq基礎入門傳送門-轉錄組-生信技能樹 http://www.biotrainee.com/thread-1750-1-1.html

浙大植物學小白的轉錄組筆記 http://www.360doc.com/content/17/0911/22/46164085_686360709.shtml

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 參考基因組及注釋文件下載基因組水平以及轉錄組水平研究技術 SNPEFF snp注釋 (添加自己基因組) 【轉錄組入門】7：差異基因分析如何識別自己基因組數據是哪個全基因組參考版本（Genome Reference Versions/ Genome Build）如何注釋基因組中的tRNA + 安裝tRNAscan-SE 【基因組注釋】GMAP安裝使用問題 NextDenovo 組裝基因組基因組轉座元件 PacBio全基因組測序和組裝