1 Linux单机处理

egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10

2 Scala单机处理（Array）

line.split(" ").map((_, 1)).groupBy(_._1).map(_._2.reduce((v1, v2) => (v1._1, v1._2 + v2._2))).toArray.sortWith(_._2 > _._2).foreach(println)

3 Spark分布式处理（Scala）

val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
sc.textFile("test_word.log").flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false).take(10).foreach(println)

4 Flink分布式处理（Scala）

    val env = ExecutionEnvironment.getExecutionEnvironment
    env.readTextFile("test_word.log").flatMap(_.toLowerCase.split("\\s+").map((_, 1)).groupBy(0).sum(1).sortPartition(1, Order.DESCENDING).first(10).print

5 MongoDB

>db.table_name.mapReduce(function(){ emit(this.column,1);}, function(key, values){return Array.sum(values);}, {out:"post_total"})

6 Hadoop示例

hadoop jar /path/hadoop-2.6.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar wordcount /tmp/wordcount/input /tmp/wordcount/output

附：测试文件test_word.log内容如下：

hello world
hello www

输出如下：

2 hello
1 world
1 www

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 软工之词频统计器及基于sketch在大数据下的词频统计设计 [大数据]统计词频【大数据】中文词频统计【大数据】中文词频统计 Python大数据：jieba 中文分词，词频统计【原创】大数据基础之Benchmark（1）HiBench 【原创】大数据基础之Logstash（5）监控【原创】大数据基础之调度框架【原创】大数据基础之Kudu（6）kudu tserver内存占用统计分析大数据之统计学基础