三代測序下機的原始數據不再是fastq格式了,而是換成了hdf5 格式,在做三代數據的分析之前,有必要先搞清楚hdf5 這種文件格式;
官網的鏈接如下:https://support.hdfgroup.org/HDF5/
HDF5 是一種靈活的文件儲存格式,它相對其他的文件格式,肯定是有很多的優點,這里就不一一列舉了,最值得我們關注的是,在這種格式中,數據是如何儲存的。
對於hdf5 文件中的數據存儲,有兩個核心概念:
1)group 和 dataset
dataset 代表數據集,一個文件當中可以存放不同種類的數據集,這些數據集如何管理,就用到了group
最直觀的理解,可以參考我們的文件管理系統,不同的文件位於不同的目錄下:
目錄就是hdf5中的group, 描述了數據集dataset的分類信息,通過group 有效的將多種dataset 進行管理和區分;
文件就是hdf5中的dataset, 表示的是具體的數據;

2)metadata
對於每一個dataset 而言,除了數據本身之外,這個數據集還會有很多的屬性 attribute,。在hdf5中,還同時支持存儲數據集對應的屬性信息,
所有的屬性信息的集合就叫做metadata;;

