pacbio 采用hdf5文件格式保存原始的下機數據,對於RS 測序系統而言,會產生一個 bas.h5 的文件;
以bas.h5 文件為例,看一下有下機數據中保存了那些信息
h5dump 工具可以用來查看h5 文件的內容:
我從HGAP的wiki 頁面下載了一個測試用的h5文件,文件名為 m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5
運行下面命令:
h5dump -n m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5
可以看到這個文件中所有的group和dataset, 由於結果太多,只展示最上層的兩個group;
group / group /PulseData group /ScanData
通過這個命令的運行結果,可以發現,這個h5文件中有兩個大的group : PulseData 和 ScanData
其中ScanData 存儲的是和儀器相關的一些設備信息,就不詳細看了,重點看下PulseData group 下的信息;
group /PulseData group /PulseData/BaseCalls group /PulseData/ConsensusBaseCalls
在 PluseData group 下面又有兩個subgroup, BaseCalls 和 ConsensusBaseCalls ;
其中BaseCalls 存放的是原始的鹼基calling的結果,而ConsensusBaseCalls 存放的是環形一致性序列(ccs)的鹼基calling的結果,
在這兩個group下有一個相同名稱的數據集 Basecall, 存放的就是鹼基序列的信息
dataset /PulseData/BaseCalls/Basecall dataset /PulseData/ConsensusBaseCalls/Basecall
使用如下命令,查看該數據集的內容:
h5dump -d /PulseData/ConsensusBaseCalls/Basecall m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > Basecall.info
由於文件內容太多,重定向到一個文件中;-d 參數指定你想要查看的數據集的名稱
通過BaseCall.info 文件中的內容可以看到,如下的信息
DATA { (0): 67, 71, 67, 67, 65, 71, 67, 71, 65, 65, 84, 71, 71, 67, 84, 71, 67, (17): 71, 71, 71, 71, 65, 65, 71, 67, 65, 71, 65, 65, 65, 84, 84, 65, 84, (34): 67, 67, 71, 84, 65, 65, 65, 67, 84, 71, 84, 84, 71, 67, 84, 71, 67, (51): 67, 71, 65, 65, 65, 84, 71, 67, 67, 65, 71, 67, 71, 65, 84, 71, 67, (68): 65, 71, 84, 71, 84, 67, 84, 71, 67, 65, 65, 67, 84, 71, 71, 67, 65,
這里的DATA 就是測序得到的鹼基序列,只不過采用了ASCII 編碼,A=> 65, C=> 67, G=>71, T=>84;
只有鹼基序列還不夠,我們還需要鹼基質量的信息,對應的dataset的名稱為 QualityValue
dataset /PulseData/BaseCalls/QualityValue dataset /PulseData/ConsensusBaseCalls/QualityValue
同樣的方式查看鹼基質量的數據:
h5dump -d /PulseData/ConsensusBaseCalls/QualityValue m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > Basecall.quality
通過BaseCall.quality 文件中的內容可以看到,如下的信息
DATA { (0): 51, 44, 42, 44, 24, 24, 51, 51, 51, 51, 50, 20, 20, 20, 50, 51, 51, (17): 48, 48, 48, 47, 9, 9, 9, 51, 51, 46, 31, 31, 31, 31, 44, 51, 51, 30, (35): 30, 51, 51, 7, 7, 7, 7, 51, 51, 44, 44, 44, 51, 51, 50, 27, 27, 26, (53): 27, 27, 27, 27, 51, 36, 36, 30, 30, 51, 51, 49, 49, 51, 51, 51, 51, (70): 51, 51, 51, 51, 51, 51, 49, 44, 31, 51, 51, 20, 20, 34, 48, 48, 31, (87): 30, 34, 36, 23, 23, 51, 26, 26, 49, 50, 45, 45, 50, 44, 41, 43, 50, (104): 50, 51, 37, 37, 50, 51, 25, 25, 44, 51, 51, 51, 37, 37, 37, 37, 51,
這里的DATA就是鹼基質量值,pacbio的鹼基質量值和illumina的鹼基質量值一樣的。
參考鏈接:http://files.pacb.com/software/instrument/2.0.0/bas.h5%20Reference%20Guide.pdf