1)BED文件
BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一個格式 ,提供了一種靈活的方式來定義的數據行,以用來描述注釋信息。BED行有3個必須的列和9個額外可選的列。每行的數據格式要求一致(見下圖)。 每條線的字段數目必須是任意單條數據的在注釋上一致。
BED文件結構:
-------------------------------------------------------------必須有以下3列------------------------------------------------------------------------
chrom :即染色體號
chromStart :即feature在染色體上起始位置 。在染色體上最左端坐標是0
chromEnd :即feature在染色體上的終止位置。例如一個染色體前100個鹼基定義為chromStart=0, chromEnd=100, 跨度為 0-99.
----------------------------------------------------------------可選9列-------------------------------------------------------------------------------
name :feature的名字 ,在基因組瀏覽器左邊顯示;
score :在基因組瀏覽器中顯示的灰度設定,值介於0-1000;
strand :定義鏈的方向,''+” 或者”-”
thickStart :起始位置(例如,基因起始編碼位置)
thickEnd :終止位置(例如:基因終止編碼位置)
itemRGB :是一個RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb設置為'On”, 這個RBG值將決定數據的顯示的顏色。
blockCount :BED行中的block數目,也就是外顯子數目
blockSize:用逗號分割的外顯子的大小, 這個item的數目對應於BlockCount的數目
blockStarts :用逗號分割的列表, 所有外顯子的起始位置,數目也與blockCount數目對應
2)bed和gff之間的關系
前面已經講過GFF格式,用UCSC Genome Browser可以將兩者進行可視化比較。 Bed文件和GFF文件最基本的信息就是染色體或Contig的ID或編號,然后就是DNA的正負鏈信息,接着就是在染色體上的起始和終止位置數值。
兩種文件的區別在於,BED文件中起始坐標為0,結束坐標至少是1;GFF中起始坐標是1而結束坐標至少是1。
3)習題
3.1)bed文件的全稱是什么
3.2)bed文件有幾列?
3.3)bed 文件染色體最左端坐標是從幾開始?
3.4)如何設置界面灰度信息?
3.5)如何給track顯示不同的顏色
3.6)bed和gff文件有什么區別?
3.7)bed文件默認是以什么分割?
3.8)bed文件如何可視化
3.9)如果你的bed文件太大,你將會如何操作?
3.10)bed文件能夠與其它文件進行格式轉化?
3.11)查看test.bed文件中有多少條染色體
3.12)找出所有genome feature在染色體中的最左端起始位置
3.13)找出所有genome feature在染色體中的最右端終止的位置
3.14)輸出feture在染色體上跨度最大的長度
3.15)計算在1號染色體33546713-50489626位置間有多少feature
3.16)顯示最高的灰度值
3.17) 展示所有位於正鏈上的行
3.18)展示負鏈上最長的feture特征
3.19)查看用了多少不同的顏色值(即RGB值)
3.20)顯示正鏈上最長的基因所用的顏色
4) 參考資源
http://www.360doc.com/content/18/0329/22/19913717_741376781.shtml
https://blog.csdn.net/herokoking/article/details/79276513
https://genome.ucsc.edu/FAQ/FAQformat.html#format1