Begin 上次用C#把《全唐诗》和《唐诗三百首》整理成为QData格式之后,就开始进行各种分析… 详细内容可以看看上次这篇文章,《用C#来学习唐诗三百首和全唐诗》 接下来讲一下分析的内容,由于笔者不是很懂文学和大数据统计什么的,所以只好随便分析一通,首先分析的有:标题、作者、单字 ...
Begin 继上次对唐诗三百首和全唐诗四万多首诗进行分析之后 详细内容可以看看上次这篇文章, 以大数据眼光欣赏唐人文墨 一 这篇文章来讲讲具体的代码实现,本项目全部采用C 编写。 软件介绍 首先为了做本次分析,我用C 写了一个Winform程序,名字很逗比,叫做 我爱读诗词 唐诗 。 软件和唐诗三百首数据文件打包下载:http: pan.baidu.com s gftDKTd 全唐诗数据由于太大了 ...
2017-04-05 20:33 3 864 推荐指数:
Begin 上次用C#把《全唐诗》和《唐诗三百首》整理成为QData格式之后,就开始进行各种分析… 详细内容可以看看上次这篇文章,《用C#来学习唐诗三百首和全唐诗》 接下来讲一下分析的内容,由于笔者不是很懂文学和大数据统计什么的,所以只好随便分析一通,首先分析的有:标题、作者、单字 ...
spark 2.1.1 一 启动命令 启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.ap ...
1大数据乘法的算法思路: 输入两个字符串,得到结果,例如:123456789*123456789; 思路:1)首先 123456789*1 = 9 18 27 36 45 54 63 72 81 ...
一 简介 Shuffle,简而言之,就是对数据进行重新分区,其中会涉及大量的网络io和磁盘io,为什么需要shuffle,以词频统计reduceByKey过程为例, serverA:partition1: (hello, 1), (word, 1)serverB:partition2 ...
大数据分页实现与性能优化 摘要:Web 应用程序中经常使用数据分页技术,该技术是提高海量数据访问性能的主要手段。实现web数据分页有多种方案,本文通过实际项目的测试,对多种数据分页方案深入分析和比较,找到了一种更优的数据分页方案Row_number()二分法。它依靠二分思想,将整个待查 ...
摘要:Web 应用程序中经常使用数据分页技术,该技术是提高海量数据访问性能的主要手段。实现web数据分页有多种方案,本文通过实际项目的测试,对多种数据分页方案深入分析和比较,找到了一种更优的数据分页方案Row_number()二分法。它依靠二分思想,将整个待查询记录分为2部分,使扫描 ...
先上说说思路, 1, 把一个bigdata文件拆分成N个小文件,小文件容量小于当前机器的内存 2,对小文件进行排序处理 3,对小文件进行并归排序,代码中我是用1 and 1,一个个并归生成新的排序完成的文件,直到全部并归完成 简单说说我这里的并归算法,代码中 ...
#查询用户余额代码案例 import sys import MySQLdb import pandas as pd optmap = { 'dbuser' : 'aduser', 'dbpass' : '123654', 'dbhost ...