原文:[大牛翻譯系列]Hadoop(7)MapReduce:抽樣(Sampling)

. 抽樣 Sampling 用基於MapReduce的程序來處理TB級的數據集,要花費的時間可能是數以小時計。僅僅是優化代碼是很難達到良好的效果。 在開發和調試代碼的時候,沒有必要處理整個數據集。但如果在這種情況下要保證數據集能夠被正確地處理,就需要用到抽樣了。抽樣是統計學中的一個方法。它通過一定的過程從整個數據中抽取出一個子數據集。這個子數據集能夠代表整體數據集的數據分布狀況。在MapRedu ...

2014-03-09 08:09 0 3091 推薦指數:

查看詳情

[大牛翻譯系列]Hadoop(5)MapReduce 排序:次排序(Secondary sort)

4.2 排序(SORT) 在MapReduce中,排序的目的有兩個: MapReduce可以通過排序將Map輸出的鍵分組。然后每組鍵調用一次reduce。 在某些需要排序的特定場景中,用戶可以將作業(job)的全部輸出進行總體排序。 例如:需要了解前N個最受歡迎的用戶或網頁 ...

Fri Mar 07 14:18:00 CST 2014 0 6693
[大牛翻譯系列]Hadoop(2)MapReduce 連接:復制連接(Replication join)

4.1.2 復制連接(Replication join) 復制連接是map端的連接。復制連接得名於它的具體實現:連接中最小的數據集將會被復制到所有的map主機節點。復制連接有一個假設前提:在被連接的數據集中,有一個數據集足夠小到可以緩存在內存中。 如圖4.5所示,MapReduce復制連接工作 ...

Tue Mar 04 15:22:00 CST 2014 4 2100
[大牛翻譯系列]Hadoop(18)MapReduce 文件處理:基於壓縮的高效存儲(一)

5.2 基於壓縮的高效存儲 (僅包括技術25,和技術26) 數據壓縮可以減小數據的大小,節約空間,提高數據傳輸的效率。在處理文件中,壓縮很重要。在處理Hadoop的文件時,更是如此。為了讓Hadoop更高效處理文件,就需要選擇一個合適的壓縮編碼器,加快作業運行,增加集群的數據存儲能力 ...

Fri Mar 21 14:28:00 CST 2014 0 3537
[大牛翻譯系列]Hadoop(14)MapReduce 性能調優:減小數據傾斜的性能損失

6.4.4 減小數據傾斜的性能損失 數據傾斜是數據中的常見情況。數據中不可避免地會出現離群值(outlier),並導致數據傾斜。這些離群值會顯著地拖慢MapReduce的執行。常見的數據傾斜有以下幾類: 數據頻率傾斜——某一個區域的數據量要遠遠大於其他區域。 數據大小傾斜——部分記錄 ...

Sun Mar 16 19:44:00 CST 2014 0 4234
[大牛翻譯系列]Hadoop(8)MapReduce 性能調優:性能測量(Measuring)

6.1 測量MapReduce和環境的性能指標 性能調優的基礎系統的性能指標和實驗數據。依據這些指標和數據,才能找到系統的性能瓶頸。性能指標和實驗數據要通過一系列的工具和過程才能得到。 這部分里,將介紹Hadoop自帶的工具和性能指標。還將捎帶介紹性能監控工具。 6.1.1 作業 ...

Mon Mar 10 14:40:00 CST 2014 2 2045
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM