使用Spark進行搜狗日志分析實例——統計每個小時的搜索量

本文轉載自查看原文 2018-10-17 22:01 1198 Spark實例/ spark示例 scala

 1 package sogolog
 2 
 3 import org.apache.spark.rdd.RDD
 4 import org.apache.spark.{SparkConf, SparkContext}
 5 
 6 /**
 7   * 統計每小時搜索次數
 8   */
 9 /*
10 搜狗日志示例
11 訪問時間(時：分：秒)    用戶ID                [查詢詞]        該URL在返回結果中的排名    用戶點擊的順序號    用戶點擊的URL
12 00:00:00    2982199073774412    [360安全衛士]    8 3    download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html
13 00:00:00    07594220010824798    [哄搶救災物資]    1 1    news.21cn.com/social/daqian/2008/05/29/4777194_1.shtml
14 00:00:00    5228056822071097    [75810部隊]    14 5    www.greatoo.com/greatoo_cn/list.asp?link_id=276&title=%BE%DE%C2%D6%D0%C2%CE%C5
15 00:00:00    6140463203615646    [繩藝]    62 36    www.jd-cd.com/jd_opus/xx/200607/706.html
16 */
17 object CountByHours {
18   def main(args: Array[String]): Unit = {
19 
20     //1、啟動spark上下文、讀取文件
21     val conf = new SparkConf().setAppName("sougo count by hours").setMaster("local")
22     val sc = new SparkContext(conf)
23     var orgRdd = sc.textFile("C:\\Users\\KING\\Desktop\\SogouQ.reduced\\SogouQ.reduced")
24     println("總行數："+orgRdd.count())
25 
26     //2、map操作,遍歷處理每一行數據
27     var map:RDD[(String,Integer)] = orgRdd.map(line=>{
28         //拿到小時
29         var h:String = line.substring(0,2)
30         (h,1)
31     })
32 
33     //3、reduce操作，將上面的 map結果按KEY進行合並、疊加
34     var reduce:RDD[(String,Integer)] = map.reduceByKey((x,y)=>{
35       x+y
36     })
37 
38     //打印出按小時排序后的統計結果
39     reduce.sortByKey().collect().map(println)
40   }
41 }

運行結果：

搜狗日志下載地址：http://www.sogou.com/labs/resource/q.php

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用Spark進行搜狗日志分析實例——map join的使用大數據綜合案例--搜狗搜索日志分析 Spark之搜狗日志查詢實戰使用Spark MLlib進行情感分析使用Docker快速部署ELK日志分析及搜索服務 mysql中使用sql語句統計日志計算每天的訪問量 spark實戰之網站日志分析用shell統計訪問日志里每個ip訪問次數【轉】 Git statistics對每個人每天代碼量的統計（針對所有分支，所有項目）網站日志統計案例分析與實現