Begin 继上次对唐诗三百首和全唐诗四万多首诗进行分析之后… 详细内容可以看看上次这篇文章,《以大数据眼光欣赏唐人文墨(一)》 这篇文章来讲讲具体的代码实现,本项目全部采用C#编写。 软件介绍 首先为了做本次分析,我用C#写了一个Winform程序,名字很逗比,叫做 ...
Begin 上次用C 把 全唐诗 和 唐诗三百首 整理成为QData格式之后,就开始进行各种分析 详细内容可以看看上次这篇文章, 用C 来学习唐诗三百首和全唐诗 接下来讲一下分析的内容,由于笔者不是很懂文学和大数据统计什么的,所以只好随便分析一通,首先分析的有:标题 作者 单字分析 还有诗句字数 也就是 五言 七言 标题分析 标题分析就是分析有多少首诗采用了某一个标题啦 首先是 唐诗三百首 从统计 ...
2017-03-18 17:49 10 996 推荐指数:
Begin 继上次对唐诗三百首和全唐诗四万多首诗进行分析之后… 详细内容可以看看上次这篇文章,《以大数据眼光欣赏唐人文墨(一)》 这篇文章来讲讲具体的代码实现,本项目全部采用C#编写。 软件介绍 首先为了做本次分析,我用C#写了一个Winform程序,名字很逗比,叫做 ...
1.为什么产生大数据技术 对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师 ...
一、Scala入门 1.1 概述 1.1.1 为什么学习Scala 主要基于以下几个原因: 1) 大数据主要的批处理计算引擎框架Spark是基于Scala语言开发的 2) 大数据主要的流式计算引擎框架Flink也提供了Scala相应的API ...
大数据 linux操作部分 1.创建用户 进入root身份: su 输入root密码 创建新用户: useradd zhang 给新用户设置密码: passwd zhang 给新用户设置下次登陆时,更改密码: chage -d 0 zhang ...
1.1 什么是大数据 主要解决:海量数据的存储和海量数据的分析计算问题 大数据中的存储单位:bit,byte,KB,MB,GB,TB,PB,EB,ZB 1byte = 8bit 1KB = 1024byte 1MB = 1024KB 1GB = 1024MB 1TB = 1024GB ...
一.大数据预处理技术 现实世界中的数据一般是不完整的、 带有随机性的、有噪声的或不唯一、不一致的“脏数据”,数据质量不高,无法直接进行数据挖掘,或者挖掘的效果差强人意。为了以后的处理更加方便以及模型具有更好的效果,往往在使用模型之前需要对数据进行预处理,就产生了数据预处理技术。 数据 ...
大数据工程师(开发)面试题(附答案) MapReduce 1. 不指定语言,写一个WordCount的MapReduce 我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下: 补:至于java版本,虾皮博主的一篇文章讲解 ...
大数据概述 1、大数据时代 1.第三次信息化浪潮 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前 ...