兩類容器:group & dataset
group類似文件夾,字典。 dataset是數據集,類似數組
支持更多的對外透明的存儲特征,數據壓縮,誤差檢測,分塊傳輸
group下面可以是group,也可以是dataset
只能儲存純粹的數據,不能儲存DataFrame, Panel等東西,如果要用使用 to_hdf
import h5py
讀:
f = h5py.File(file, mode='r')
f.keys()
dset = f['mydataset']
寫:
f = h5py.File(file, mode='w')
dset = f.create_dataset(name, dataOrSize, dtype, )
可選項:
chunks: True自動分塊, 如果手動分塊則輸入元組
可以對數據塊設置attrs
dset.attrs['abc'] = 1
高級特性:
濾波器組?加入參數compression = 'gzip'
hdf5文件本身大小沒有限制
一個dataSet最多32維, 每個維最多2^64個值
一個chunk最大4G,