大數據學習——有兩個海量日志文件存儲在hdfs


有兩個海量日志文件存儲在hdfs上,
其中登陸日志格式:user,ip,time,oper(枚舉值:1為上線,2為下線);
訪問之日格式為:ip,time,url,假設登陸日志中上下線信息完整,切同一上下線時間段內是用的ip唯一,
計算訪問日志中獨立user數量最多的前10個url,用MapReduce實現。

提示:
1、要統計前10,需要兩個步驟,第一個步驟實現join,統計出每個url對應的獨立用戶數,第二步驟求出top10
2、兩個大表join,用同一job多輸入
3、要根據ip字段join,所以要根據ip分區
4、求top10

 

答案在此:

https://www.cnblogs.com/feifeicui/p/10247352.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM