HDF5 文件格式簡介


三代測序下機的原始數據不再是fastq格式了,而是換成了hdf5 格式,在做三代數據的分析之前,有必要先搞清楚hdf5 這種文件格式;

官網的鏈接如下:https://support.hdfgroup.org/HDF5/

HDF5 是一種靈活的文件儲存格式,它相對其他的文件格式,肯定是有很多的優點,這里就不一一列舉了,最值得我們關注的是,在這種格式中,數據是如何儲存的。

對於hdf5 文件中的數據存儲,有兩個核心概念:

1)group 和 dataset

dataset 代表數據集,一個文件當中可以存放不同種類的數據集,這些數據集如何管理,就用到了group

最直觀的理解,可以參考我們的文件管理系統,不同的文件位於不同的目錄下:

目錄就是hdf5中的group, 描述了數據集dataset的分類信息,通過group 有效的將多種dataset 進行管理和區分;

文件就是hdf5中的dataset, 表示的是具體的數據;

 

2)metadata

對於每一個dataset 而言,除了數據本身之外,這個數據集還會有很多的屬性 attribute,。在hdf5中,還同時支持存儲數據集對應的屬性信息,

所有的屬性信息的集合就叫做metadata;;

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM