UCSC genome browser 個人track 安裝


         處理基因組數據,很多時候我們會覺得直接看序列文件不夠直觀,如果繪圖的話,把n多G把數據用畫圖出來不僅費勁,就算操作也不方便。因此我們可以用UCSC開發出的genome browser,可以直接把數據信息寫成track,連上genome browser 上查看,它還支持安裝到本地服務器上(genome browser in box ,簡稱GBIB),genome browser 支持的格式有bedGraph, GTF, PSL, BED, bigBed, WIG, bigGenePred, bigMaf, bigChain, bigPsl, bigWig, BAM, CRAM, VCF, MAF, BED detail, Personal Genome SNP, broadPeak, narrowPeak, and microarray (BED15),GFF和GTF文件必須tab分隔。 廢話少說,直接入門。本文主要講SAM,BAM,WIG,bigWig,VCF,BED文件上傳及使用。

 

    一、格式的前期處理

      1.1    WIG 和 bigWig

      WIG 文件格式,有兩種可選的格式,variableStep和fixedStep。variableStep用於區間變化的,fixedStep用於區間固定的。

      variableStep WIG文件以variableStep 開頭,chrom染色體,可選參數span(默認span=1),指定每一行的位置區間,比如2,區間就是chromStart~chromStart+2。chromStart染色體位置,dataValue染色體位置上的值。

1 variableStep  chrom=chrN
2 [span=windowSize]
3 chromStartA  dataValueA
4 chromStartB  dataValueB
5 ... etc ...  ... etc ...

      fixedStep文件以fixedStep開頭,chrom染色體,start是起始固定的位置,step是每兩個起始position之間的間隔,span和variableStep中的step一樣,指定每一行的位置區間。

這樣dataValue1對應的position是start~start+span,dataValue2對應的position是start+step~start+step+span.

1 fixedStep  chrom=chrN
2 start=position  step=stepInterval
3 [span=windowSize]
4 dataValue1
5 dataValue2
6 ... etc ...

    WIG格式要在genome browser 上查看最好轉換為bigWig文件,bigWig文件是index后的二進制WIG文件,在genome browser上查看更加快速,用wigToBigWig命令

1 wigToBigWig sample.wig chrom.sizes output.bw

    chromsizes 文件可以從UCSC上下載,就是各個染色體的長度大小hg19.chrom.sizes可以從這里直接復制。

 1 chr1    249250621
 2 chr2    243199373
 3 chr3    198022430
 4 chr4    191154276
 5 chr5    180915260
 6 chr6    171115067
 7 chr7    159138663
 8 chrX    155270560
 9 chr8    146364022
10 chr9    141213431
11 chr10    135534747
12 chr11    135006516
13 chr12    133851895
14 chr13    115169878
15 chr14    107349540
16 chr15    102531392
17 chr16    90354753
18 chr17    81195210
19 chr18    78077248
20 chr20    63025520
21 chrY    59373566
22 chr19    59128983
23 chr22    51304566
24 chr21    48129895
25 chr6_ssto_hap7    4928567
26 chr6_mcf_hap5    4833398
27 chr6_cox_hap2    4795371
28 chr6_mann_hap4    4683263
29 chr6_apd_hap1    4622290
30 chr6_qbl_hap6    4611984
31 chr6_dbb_hap3    4610396
32 chr17_ctg5_hap1    1680828
33 chr4_ctg9_hap1    590426
34 chr1_gl000192_random    547496
35 chrUn_gl000225    211173
36 chr4_gl000194_random    191469
37 chr4_gl000193_random    189789
38 chr9_gl000200_random    187035
39 chrUn_gl000222    186861
40 chrUn_gl000212    186858
41 chr7_gl000195_random    182896
42 chrUn_gl000223    180455
43 chrUn_gl000224    179693
44 chrUn_gl000219    179198
45 chr17_gl000205_random    174588
46 chrUn_gl000215    172545
47 chrUn_gl000216    172294
48 chrUn_gl000217    172149
49 chr9_gl000199_random    169874
50 chrUn_gl000211    166566
51 chrUn_gl000213    164239
52 chrUn_gl000220    161802
53 chrUn_gl000218    161147
54 chr19_gl000209_random    159169
55 chrUn_gl000221    155397
56 chrUn_gl000214    137718
57 chrUn_gl000228    129120
58 chrUn_gl000227    128374
59 chr1_gl000191_random    106433
60 chr19_gl000208_random    92689
61 chr9_gl000198_random    90085
62 chr17_gl000204_random    81310
63 chrUn_gl000233    45941
64 chrUn_gl000237    45867
65 chrUn_gl000230    43691
66 chrUn_gl000242    43523
67 chrUn_gl000243    43341
68 chrUn_gl000241    42152
69 chrUn_gl000236    41934
70 chrUn_gl000240    41933
71 chr17_gl000206_random    41001
72 chrUn_gl000232    40652
73 chrUn_gl000234    40531
74 chr11_gl000202_random    40103
75 chrUn_gl000238    39939
76 chrUn_gl000244    39929
77 chrUn_gl000248    39786
78 chr8_gl000196_random    38914
79 chrUn_gl000249    38502
80 chrUn_gl000246    38154
81 chr17_gl000203_random    37498
82 chr8_gl000197_random    37175
83 chrUn_gl000245    36651
84 chrUn_gl000247    36422
85 chr9_gl000201_random    36148
86 chrUn_gl000235    34474
87 chrUn_gl000239    33824
88 chr21_gl000210_random    27682
89 chrUn_gl000231    27386
90 chrUn_gl000229    19913
91 chrM    16571
92 chrUn_gl000226    15008
93 chr18_gl000207_random    4262
genome.sizes

    1.2  sam 和 bam文件

      sam/bam 格式是mapping后的序列比對文件,sam文件需要先轉成bam,sam/bam文件傳到genome browser上可以看到reads在chrom上的分布。bam文件需要sort后建立index,並且要將index 文件*.bai放到bam文件所在目錄下。

     如果是sam 文件,先轉變為bam文件

1 samtools view -S -b -o sample.bam sample

    進行sort,並且建立index

1     samtools sort sample.bam sample.sorted
2     samtools index sample.sorted.bam

    1.3  VCF文件

      vcf 文件是千人基因組計划發展出的存儲基因組變異信息的文件,包括SNP和結構變異信息。傳到genome browser上可以看到不同位點的變異信息。

      先要對vcf 格式就行sort,用vcftools 中的vcf-sort,沒有的話需要去下載,https://sourceforge.net/projects/vcftools/

1 vcf-sort sample.vcf > sample.sorted.vcf

      要下載bgzip 和 tabix 程序,https://sourceforge.net/projects/samtools/files/tabix/.

      對sort后的vcf 進行壓縮

1 bgzip sample.sorted.vcf sample.sorted.vcf.gz

      對vcf.gz文件建立index

1 tabix -p vcf sample.sorted.vcf.gz

      建立track的時候,要把tbi格式的index放在vcf.gz所在的文件夾下。

   1.4 bed和bigBed文件

    1.4.1 bed文件格式

     1.4.1.1 必須的三個區域:

        1.chrom  染色體

        2.chromStart  在染色體上的起始位置

        3.chromEnd  在染色體上的結束位置

     1.4.1.2有九個額外的可選的區域

        4.name  行名

        5.score  分值 0-1000,影響顯示的灰色深度

        6.strand  正負鏈,"."無方向,或者“+”或者"-"

        7.thickStart  開始濃密繪制的位置

        8.thickEnd 結束濃密繪制的位置

        9.itemRgb RGB值,R、G、B值(比如255,0,0),如果itemRgb屬性設置為開的話,RGB將設置這一行的顏色

        10.blockCount  該行的區塊(外顯子)數目

        11.blockSizes  逗號分隔的區塊大小的列表,

        12.blockStarts  逗號分隔的區塊開始位置,所以的區塊開始位置都應該能由chromStart計算出來,位置數目應該與blockSizes數目相裂隙。

     bed文件可以在前面添加track和browser行,作為一個track傳上genome browser。后面會詳細說明。

    1.4.2 bigBed文件

      如果bed文件有點大(大於50Mb),你應該將它轉換成bigBed文件,放到服務器上,再鏈接到genome browser上查看。

      先sort bed文件

1 bedSort unsorted.bed > input.bed

     將sort后的bed文件進行轉換,必須去除track和browser行

1 bedToBigBed input.bed chrom.sizes myBigBed.bb

 

二、在UCSC上查看數據

    2.1  UCSC 上My Data 下的Custom Track

         所有文件都可以直接添加自己定制的Custom Track,分為兩步,1.定義browser行 ,2.定義track行

      1.browser行       

1 browser attribute_name attribute_value(s)

 

         postion  定義genome browser起始查看的位置

         hide all  隱藏全部track

         hide  < track_primary_talbe_name(s)> 需要隱藏的tracks列表,空格分隔,下面一樣

         dense all   密度顯示全部track

         dense <track_primary_talbe_name(s)>  需要密度顯示的tracks列表

         pack all   壓緊模式顯示全部track

         pack  <track_primary_talbe_name(s)>   需要壓緊模式顯示的tracks列表

         squish all 壓扁模式顯示 

         full all    全部顯示track

         full  <track_primary_talbe_name(s)>  全部顯示模式顯示的track列表 

       2.track行

         name=<track_label>  定義track的標簽

         description=<center_label>  定義顯示的時候track的中間的標簽

         type=<track_type>    定義track類型,可以定義為BAM, BED detail, bedGraph, bigBed, bigWig, broadPeak, narrowPeak, Microarray, VCF and WIG 

          visibility=<display_mode>   定義顯示模式,定義track的起始顯示模式,包括0 - hide, 1 - dense, 2 - full, 3 - pack, and 4 - squish

          color=<RRR,GGG,BBB>    定義注釋track的主演色,包括三個逗號分隔的0-255之間的數字,默認0,0,0黑色

          itemRgb=On   如果開了這個選項,bed文件定義的itemRgb生效

          colorByStrand=<RRR,GGG,BBB,RRR,GGG,BBB>  設置正負鏈的顏色,默認0,0,0,0,0,0 都是黑色

          useScore=<use_score>   默認是0,使用bed score值定義的顏色,如果是1,會使用數據行來決定顏色深淺

          group=<group>    定義track組,會在genome browser上顯示

          priority=<priority>    定義組內排列位置,沒有分組的話會定義默認組(user)的排列位置

          db=<UCSC_assembly_name>   定義要比對的數據庫,比如hg18,mm8等

          offset=<offset>    補償,定義添加到全部坐標上的數值,默認0

          maxitems<#>    定義track能包括的最大條目,默認250,必須小心設置,不然會導致系統不穩定

          url=<external_url>   定義track 的額外鏈接內容

          htmlUrl=<external_url>   定義track描述頁面的鏈接內容

          bigDataUrl=<external_url>   定義數據文件的url,就是放在服務器上的文件地址,

        下面是UCSC給出的例子

1 browser position chr21:33,031,597-33,041,570
2 track type=bigBed name="bigBed Example One" description="A bigBed file" bigDataUrl=http://genome.ucsc.edu/goldenPath/help/examples/bigBedExample.bb

        bed文件格式可以直接寫入track中,如下,在基因組固定位置顯示藍色和綠色標記

1 browser position chr22:20100000-20140000
2 track name=spacer description="Blue ticks every 10000 bases" color=0,0,255,
3 chr22   20100000 20100001
4 chr22   20110000 20110001
5 chr22   20120000 20120001
6 track name=even description="Red ticks every 100 bases, skip 100" color=255,0,0
7 chr22   20100000 20100100    first
8 chr22   20100200 20100300    second
9 chr22   20100400 20100500    third      

   

    2.2  UCSC 的MyData下的track hub

    track hub 是track 的收集,hub中的track在genome browser瀏覽頁面中以藍色顯示。

    首先在存放hub文件的文件夾下寫一個hub文件,格式如下

    

1 hub hub_name  # hub的名稱
2 shortLabel hub_short_label #hub的短標簽,便於顯示
3 longLabel hub_long_label  #hub具體的標簽
4 genomesFile genomes_filelist #要對比的基因組列表文件路徑  
5 email email_address    #自己的email地址
6 descriptionUrl descriptionUrl   # 對這個track的描述

 

     接下來編輯基因組列表文件

1 genome assembly_database_1 #對比到的基因組,比如hg19
2 trackDb assembly_1_path/trackDb.txt   #trackDb文件,包括對比到hg19的所有track
3 
4 
5 genome assembly_database_2
6 trackDb assembly_2_path/trackDb.txt 

 

     上面是兩個不同的trackDb(track數據庫),分別對比到不同的基因組,而trackDb中寫入有很多不同的對比到該基因組的hub track

      最后編輯trackDb文件

 1 track dnaseSignal  #在genome browser上顯示的track名,必須獨一無二
 2 bigDataUrl dnaseSignal.bigWig  #文件的url,默認在trackDb所在文件夾
 3 shortLabel DNAse Signal 
 4 longLabel Depth of alignments of DNAse reads
 5 type bigWig
 6 
 7 
 8 track dnaseReads
 9 bigDataUrl dnaseReads.bam
10 shortLabel DNAse Reads
11 longLabel DNAse reads mapped with MAQ
12 type bam 

      上面寫入了兩個track,一個是bigWig格式的文件,一個是bam文件.而vcf 文件如下

1 track GC_WGS_tumour_vcf_by_lumpy
2 type vcfTabix
3 bigDataUrl GC_WGS_tumour.sorted.vcf.gz
4 shortLabel GC_WGS tumour vcf lumpy
5 longLabel GC_WGS tumour vcf by lumpy

     上面幾個是基本參數,更多可選的hub track的參數參見hub track 定義文檔

     最后上圖一張

 

參考文獻

UCSC custom track:  http://genome-asia.ucsc.edu/goldenPath/help/customTrack.html

UCSC track hub : http://genome-asia.ucsc.edu/goldenPath/help/hgTrackHubHelp.html

UCSC hub track 定義文檔 :http://genome-asia.ucsc.edu/goldenPath/help/trackDb/trackDbHub.html

        

 

 

    

 

 

       

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM