pacbio 原始下機數據h5 文件簡介


pacbio 采用hdf5文件格式保存原始的下機數據,對於RS 測序系統而言,會產生一個 bas.h5 的文件;

以bas.h5 文件為例,看一下有下機數據中保存了那些信息

h5dump 工具可以用來查看h5 文件的內容:

我從HGAP的wiki 頁面下載了一個測試用的h5文件,文件名為 m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5

運行下面命令:

h5dump -n  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5

可以看到這個文件中所有的group和dataset, 由於結果太多,只展示最上層的兩個group;

group      /
group      /PulseData
group      /ScanData

通過這個命令的運行結果,可以發現,這個h5文件中有兩個大的group : PulseData 和 ScanData

其中ScanData 存儲的是和儀器相關的一些設備信息,就不詳細看了,重點看下PulseData group 下的信息;

group      /PulseData
group      /PulseData/BaseCalls
group      /PulseData/ConsensusBaseCalls

在 PluseData group 下面又有兩個subgroup, BaseCalls 和 ConsensusBaseCalls ;

其中BaseCalls 存放的是原始的鹼基calling的結果,而ConsensusBaseCalls 存放的是環形一致性序列(ccs)的鹼基calling的結果,

在這兩個group下有一個相同名稱的數據集 Basecall, 存放的就是鹼基序列的信息

dataset    /PulseData/BaseCalls/Basecall
dataset    /PulseData/ConsensusBaseCalls/Basecall

使用如下命令,查看該數據集的內容:

h5dump -d /PulseData/ConsensusBaseCalls/Basecall  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > Basecall.info

由於文件內容太多,重定向到一個文件中;-d 參數指定你想要查看的數據集的名稱

通過BaseCall.info 文件中的內容可以看到,如下的信息

DATA {
   (0): 67, 71, 67, 67, 65, 71, 67, 71, 65, 65, 84, 71, 71, 67, 84, 71, 67,
   (17): 71, 71, 71, 71, 65, 65, 71, 67, 65, 71, 65, 65, 65, 84, 84, 65, 84,
   (34): 67, 67, 71, 84, 65, 65, 65, 67, 84, 71, 84, 84, 71, 67, 84, 71, 67,
   (51): 67, 71, 65, 65, 65, 84, 71, 67, 67, 65, 71, 67, 71, 65, 84, 71, 67,
   (68): 65, 71, 84, 71, 84, 67, 84, 71, 67, 65, 65, 67, 84, 71, 71, 67, 65,

這里的DATA 就是測序得到的鹼基序列,只不過采用了ASCII 編碼,A=> 65, C=> 67, G=>71, T=>84;

只有鹼基序列還不夠,我們還需要鹼基質量的信息,對應的dataset的名稱為 QualityValue

dataset    /PulseData/BaseCalls/QualityValue
dataset    /PulseData/ConsensusBaseCalls/QualityValue

同樣的方式查看鹼基質量的數據:

h5dump -d /PulseData/ConsensusBaseCalls/QualityValue  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > Basecall.quality

通過BaseCall.quality 文件中的內容可以看到,如下的信息

DATA {
   (0): 51, 44, 42, 44, 24, 24, 51, 51, 51, 51, 50, 20, 20, 20, 50, 51, 51,
   (17): 48, 48, 48, 47, 9, 9, 9, 51, 51, 46, 31, 31, 31, 31, 44, 51, 51, 30,
   (35): 30, 51, 51, 7, 7, 7, 7, 51, 51, 44, 44, 44, 51, 51, 50, 27, 27, 26,
   (53): 27, 27, 27, 27, 51, 36, 36, 30, 30, 51, 51, 49, 49, 51, 51, 51, 51,
   (70): 51, 51, 51, 51, 51, 51, 49, 44, 31, 51, 51, 20, 20, 34, 48, 48, 31,
   (87): 30, 34, 36, 23, 23, 51, 26, 26, 49, 50, 45, 45, 50, 44, 41, 43, 50,
   (104): 50, 51, 37, 37, 50, 51, 25, 25, 44, 51, 51, 51, 37, 37, 37, 37, 51,

這里的DATA就是鹼基質量值,pacbio的鹼基質量值和illumina的鹼基質量值一樣的。

參考鏈接:http://files.pacb.com/software/instrument/2.0.0/bas.h5%20Reference%20Guide.pdf


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM