有兩個海量日志文件存儲在hdfs上,
其中登陸日志格式:user,ip,time,oper(枚舉值:1為上線,2為下線);
訪問之日格式為:ip,time,url,假設登陸日志中上下線信息完整,切同一上下線時間段內是用的ip唯一,
計算訪問日志中獨立user數量最多的前10個url,用MapReduce實現。
提示:
1、要統計前10,需要兩個步驟,第一個步驟實現join,統計出每個url對應的獨立用戶數,第二步驟求出top10
2、兩個大表join,用同一job多輸入
3、要根據ip字段join,所以要根據ip分區
4、求top10
答案在此:
https://www.cnblogs.com/feifeicui/p/10247352.html