Python&HDF5目錄


最近一直沒更新python&量化的博客,是因為忙於看HDF5的書,寫VNPY框架,學scrapy爬蟲。

本來寫博客的目的就是為了當作一種教材,當遇到不會的問題過來找答案。

對於HDF5下面這本書寫的很詳細了,國內針對HDF5的教材少之又少,python這塊應該只有這一本。

 

大概說下,為什么用HDF5吧。一般股票或期貨的歷史K線數據都會使用MySql或MongoDB(VNPY用的它),但是有下面兩個缺點:

1、速度:不管是mysql還是Mongodb的讀寫都存在進程間通信的問題,不同進程間無法直接通訊,需借助其他工具,這就會增加讀寫時間。

2、大小:由於數據庫(尤其是關系型數據庫)在保存數據信息時,還會插入一些關系數據等信息,一同保存進入文件,對股票歷史k線數據,這種高度結構化的數據,這些關系數據本身是沒用的。額外了占用了存儲空間。

 

HDF5優點:

1、速度:直接從硬盤讀入內存,繞開了進程間通訊,速度極快。同時它支持切片讀取,即不需要把整個dataset讀入內存,只讀取切片即可。速度和大小都有優化

2、大小:把股票歷史數據的dataframe數據作為dataset存入HDF5,列名和索引作為元數據存入HDF5,這樣基本上HDF5里沒有了與數據不相關的內容,加之其可以使用GZIP和LZF壓縮過濾器,在犧牲一部分寫入速度的同時,大大減小了存儲空間。 

 

大家如果想看的話,就買這本書吧,內容挺全的,基本上能覆蓋日常的應用。京東上有賣。

 

 

最后附上該書的目錄xmind文件:

https://files.cnblogs.com/files/GavinSimons/Python%26HDF5.rar


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM