Python&HDF5目錄

本文轉載自查看原文 2018-01-24 00:40 1949 python模塊

最近一直沒更新python&量化的博客，是因為忙於看HDF5的書，寫VNPY框架，學scrapy爬蟲。

本來寫博客的目的就是為了當作一種教材，當遇到不會的問題過來找答案。

對於HDF5下面這本書寫的很詳細了，國內針對HDF5的教材少之又少，python這塊應該只有這一本。

大概說下，為什么用HDF5吧。一般股票或期貨的歷史K線數據都會使用MySql或MongoDB（VNPY用的它），但是有下面兩個缺點：

1、速度:不管是mysql還是Mongodb的讀寫都存在進程間通信的問題，不同進程間無法直接通訊，需借助其他工具，這就會增加讀寫時間。

2、大小:由於數據庫（尤其是關系型數據庫）在保存數據信息時，還會插入一些關系數據等信息，一同保存進入文件，對股票歷史k線數據，這種高度結構化的數據，這些關系數據本身是沒用的。額外了占用了存儲空間。

HDF5優點：

1、速度：直接從硬盤讀入內存，繞開了進程間通訊，速度極快。同時它支持切片讀取，即不需要把整個dataset讀入內存，只讀取切片即可。速度和大小都有優化

2、大小：把股票歷史數據的dataframe數據作為dataset存入HDF5，列名和索引作為元數據存入HDF5，這樣基本上HDF5里沒有了與數據不相關的內容，加之其可以使用GZIP和LZF壓縮過濾器，在犧牲一部分寫入速度的同時，大大減小了存儲空間。

大家如果想看的話，就買這本書吧，內容挺全的，基本上能覆蓋日常的應用。京東上有賣。

最后附上該書的目錄xmind文件：

https://files.cnblogs.com/files/GavinSimons/Python%26HDF5.rar

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python和HDF 5大數據應用 Python系列之入門篇——HDF5 python h5py 讀取hdf 數據 “fatal error: hdf5.h: 沒有那個文件或目錄”解決方法【caffe編譯】 fatal error: hdf5.h: 沒有那個文件或目錄 Linux寫配置HDF5的python包h5py Python 存儲與讀取HDF5文件 python讀寫hdf5及cdf格式文件 python3_h5py_hdf5_遍歷_查看文件結構用python讀寫HDF5格式文件