6.4.4 減小數據傾斜的性能損失 數據傾斜是數據中的常見情況。數據中不可避免地會出現離群值(outlier),並導致數據傾斜。這些離群值會顯著地拖慢MapReduce的執行。常見的數據傾斜有以下幾類: 數據頻率傾斜——某一個區域的數據量要遠遠大於其他區域。 數據大小傾斜——部分記錄 ...
. 測量MapReduce和環境的性能指標 性能調優的基礎系統的性能指標和實驗數據。依據這些指標和數據,才能找到系統的性能瓶頸。性能指標和實驗數據要通過一系列的工具和過程才能得到。 這部分里,將介紹Hadoop自帶的工具和性能指標。還將捎帶介紹性能監控工具。 . . 作業統計數據抽取工具 這一章中介紹的很多技術都需要從Hadoop中抽取作業和任務的性能指標。有以下三種辦法抽取這些統計數據: 用J ...
2014-03-10 06:40 2 2045 推薦指數:
6.4.4 減小數據傾斜的性能損失 數據傾斜是數據中的常見情況。數據中不可避免地會出現離群值(outlier),並導致數據傾斜。這些離群值會顯著地拖慢MapReduce的執行。常見的數據傾斜有以下幾類: 數據頻率傾斜——某一個區域的數據量要遠遠大於其他區域。 數據大小傾斜——部分記錄 ...
6.4.3 優化洗牌(shuffle)和排序階段 洗牌和排序階段都很耗費資源。洗牌需要在map和reduce任務之間傳輸數據,會導致過大的網絡消耗。排序和合並操作的消耗也是很顯著的。這一節將介紹一系列的技術來緩解洗牌和排序階段的消耗。 技術46 規避使用reduce Reduce在用 ...
6.2 診斷性能瓶頸 有的時候作業的執行時間會長得驚人。想靠猜也是很難猜對問題在哪。這一章中將介紹如何界定問題,找到根源。涉及的工具中有的是Hadoop自帶的,有的是本書提供的。 系統監控和Hadoop任務 在Hadoop的0.20.x版本中,並沒有提供 ...
1 硬件選擇 主要區分NAMENODE與DATANODE的功能需求,NN維護全局元數據信息,隨着保存的INODES數量的增加,對內存需求增加,按每一百萬INODES一G來粗略計算,JVM的XMX參數需要動態調整。 2 OS參數調優 操作系統,生產環境中都使用LINUX,以下就是指對LINUX ...
4.3 抽樣(Sampling) 用基於MapReduce的程序來處理TB級的數據集,要花費的時間可能是數以小時計。僅僅是優化代碼是很難達到良好的效果。 在開發和調試代碼的時候,沒有必要處理整個數據集。但如果在這種情況下要保證數據集能夠被正確地處理,就需要用到抽樣了。抽樣是統計學中的一個方法 ...
首先看一個圖: 注:右圖在我們工作中經常用到 我們專注的web性能指標有那些? 1、頁面加載時間 2、全部頁面加載時間 0-2秒:用戶體驗最好,打分1002-8秒:用戶可以容忍,從第2秒開始,每超過1秒減5分8-15秒:用戶不能忍受,從第2秒開始,每超過 ...
主要有以下三種方式: 一,CPU時間 time.clock() 測量CPU時間,比較精准,通過比較程序運行前后的CPU時間差,得出程序運行的CPU時間。 二, 時鍾時間 time.time() 測量時鍾時間,也就是通常的類似掐表計時。 三,基准時間 timeit.timeit ...
數以百萬計的圖片存儲分別在HDFS中。很不幸的是,這樣做恰好碰上了HDFS和MapReduce的弱項,如下: ...