本文轉載自查看原文 2017-11-02 10:49 1940 hbase

參考：http://blog.csdn.net/zbc1090549839/article/details/51582817

業務背景：由於需要將ngix日志過濾出來的1億+條用戶行為記錄存入Hbase數據庫，以此根據一定的條件來提供近實時查詢，比如根據用戶id及一定的時間段等條件來過濾符合要求的若干行為記錄，滿足這一場景的技術包括：Solr，Elasticsearch，hbase等，在此選用了Hbase來實踐。

step 1 :

直接hbase建表，然后讀取記錄文件逐條寫入Hbase。由於hbase實際的寫入速度遠遠小於我的提交速度，在寫入了1700條記錄后，hbase出現了宕機，提交后無響應。查看hbase日志，出現 out of memory異常。

step 2：

考慮在建表的時候沒有進行預分區，因此寫入的時候會存在熱點寫的問題，同時數據持續增長，需要不斷的對region進行split，實際上這一步相當消耗資源。因此對要寫入的Hbase表重新預分區。好在上一步驟中寫入的數據不多，因此直接刪除表和數據后重新建表並預分區：

[plain] view plain copy print ?

create 'user_actions', {NAME => 'info', VERSIONS=> 3},{SPLITS => ['130','140','160','170','180']}

設計預分區的時候需要有個預判，rowkey的范圍及在各個區間的可能分布情況，由於我這里的rowkey是組合用戶的注冊電話/時間及其他字段，因此上述的預分區，可以將記錄較好的散列在各個region上，對熱點寫有一定的減緩作用。

同時，針對out of memory異常，修改hbase配置文件/conf/hbase-site.xml，將hbase的堆內存增加到3GB(條件有限，如果硬件條件好的話，可以增加到4-8GB)。

繼續寫入，但是寫入速度很慢，維持在數百條/秒的樣子，同時寫入了20幾萬條后響應速度越來越慢。

上述問題的根源在於高頻提交小數據，導致Hbase疲於創建線程並進行資源的回收，最終甚至會出現宕機。

之后，將單條put到Hbase改為一次put多條記錄到hbase，即批量提交，同時限制一秒內提交的頻次。最后順利寫入。由於hbase集群只有三台機器(一台master,2台slave)，進過上述優化后，寫入速度基本維持在1w-2w條/秒的水平，基本滿足需要了。

總結：在hbase涉及一次性寫入大量數據時，有幾個地方可以考慮進行優化：(1)建表的同時進行預分區 (2)修改Hbase本身的配置(能夠優化寫入和讀取的配置項遠不止修改堆內存這一項，在此不表了) (3)盡量使用批量寫入的方法，同樣的道理，讀取的時候，使用批量讀的方法 (4)網絡IO/磁盤IO

除了批量Put外，Hbase還支持Hfiles方式導入：

將要導入的數據預生成hfiles文件。

使用Hbase的BulkLoad方式將Hfile文件批量導入Hbase。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大規模數據爬取 -- Python [轉]BloomFilter——大規模數據處理利器 Pandas處理超大規模數據大規模數據如何實現數據的高效追溯？ Tensorflow 大規模數據集訓練方法實時大規模數據的訂閱和推送服務使用Keras訓練大規模數據集爬蟲大規模數據采集心得和示例大規模數據從SQL SERVER導入到ORACLE方法 mysql數據庫大規模數據讀寫並行時導致的鎖表問題