【轉】數據太大爆內存怎么辦？七條解決思路

本文轉載自查看原文 2018-05-01 00:01 944 大數據

在研究、應用機器學習算法的經歷中，相信大伙兒經常遇到數據集太大、內存不夠用的情況。

這引出一系列問題：

本文將討論一些常用的解決辦法，供大家參考。

處理大型 ML 數據文件的七種思路

分配更多內存

有的機器學習工具/庫有默認內存設置，比如 Weka。這便是一個限制因素。

你需要檢查一下：是否能重新設置該工具/庫，分配更多內存。

對於 Weka，你可以在打開應用時，把內存當作一個參數進行調整。

你真的需要用到全部數據嗎？

可以采集一個數據的隨機樣本，比如前 1,000 或 100,000 行。在全部數據上訓練最終模型之前（使用漸進式的數據加載技巧），先試着用這個小樣本解決問題。

總的來說，對算法做快速地抽查、看到結果在前后的變化，在機器學習領域是一個很好的習慣。

你還可以考慮：相對於模型技巧，做一個數據大小的敏感性分析。或許，對於你的隨機小樣本，有一個天然的邊際效應遞減分水嶺。越過這個關口，繼續增加的數據規模帶來的好處微乎其微。

你是否把數據存為原始的 ASCII 文本，比如 CSV 文件？

或許，使用其它格式能加速數據載入並且降低內存占用。好的選擇包括像 GRIB、NetCDF、HDF 這樣的二進制格式。

有很多命令行工具能幫你轉換數據格式，而且不需要把整個數據集載入內存里。

換一種格式，可能幫助你以更緊湊的形式存儲數據，節省內存空間；比如 2-byte 整數，或者 4-byte 浮點。

你的所有數據，需要同時出現在內存里嗎？

或許，你可以用代碼或庫，隨時把需要的數據做流式處理或漸進式加載，導入內存里訓練模型。

這可能需要算法使用優化技術迭代學習，比如使用隨機梯度下降。那些需要內存里有所有數據、以進行矩陣運算的算法，比如某些對線性回歸和邏輯回歸的實現，就不適用了。

比如，Keras 深度學習 API 就提供了漸進式加載圖像文件的功能，名為 flow_from_directory

另一個例子式 Pandas 庫，可批量載入大型 CSV 文件。

關系數據庫為存儲、訪問大型數據集提供了標准化的方法。

在內部，數據存在硬盤中，能漸進式地 in batch 批量加載，並使用標准檢索語言 SQL 檢索。

像 MySQL、Postgres 這樣的開源數據庫工具，支持絕大多數的（全部？）編程語言。許多機器學習工具，都能直接與關系數據庫連通。你也可以用 SQLite 這樣更輕量的方法。

我發現，這種方法對大型表格式數據集非常有效率。

雷鋒網(公眾號：雷鋒網)提醒，你需要用能迭代學習的算法。

有的情況下，你可能必須要使用大數據平台，即為處理超大型數據集而開發的平台。它們能讓你進行數據轉換，並在其上開發機器學習算法。

兩個很好的例子是 Hadoop 與機器學習庫 Mahout，以及 Spark 與 MLLib 庫。

我認為，這是用盡上述辦法仍無法解決的情況下，才需要采用的最后手段。單純是這為你的機器學習項目所帶來的額外硬件、軟件復雜情況，就會消耗許多精力。

即便如此，有的任務確實數據太過龐大，前面的選項都無法奏效

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 防御XSS攻擊的七條原則 Unity3D占用內存太大的解決方法軟件工程的七條基本原理 Druid寫入zookeeper數據太大的解決辦法部署的docker image總是太大，怎么辦？虛擬機分配的硬盤太大怎么辦？ java導出excel（解決導出幾萬條數據內存溢出的問題） Python 程序運行時CPU和內存高解決思路 RabbitMQ內存爆出問題解決思路 jvm內存快照dump文件太大，怎么分析