这个作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339。 首先,我是分析B站最火番剧剧迷们的评论,也就是我前面的文章------爬虫大作业分析的数据。下面开始进行HIVE分析。 1.数据导入 ...
本次作业的要求来自:https: edu.cnblogs.com campus gzcc GZCC SE homework 前言 本次作业是在 爬虫大作业 的基础上进行的,在 爬虫大作业 中,我主要对拉勾网python岗位的招聘信息进行的数据爬取,最终得到了 条数据存在一个名为lagoupy.xls中。本次作业的任务主要有以下三点: .对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的c ...
2019-06-12 01:14 0 870 推荐指数:
这个作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339。 首先,我是分析B站最火番剧剧迷们的评论,也就是我前面的文章------爬虫大作业分析的数据。下面开始进行HIVE分析。 1.数据导入 ...
作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 热门微博— —996与日剧《我要准时下班》 至此,“996话题”在微博上被传得沸沸扬扬。微博上关于“996”的话题已超过千个,甚至更多 ...
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 。 B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕。这次我的目的就是爬取B站视频的评论数据,分析某番剧为何会深受 ...
前几章我们介绍了 Hadoop 的 MapReduce 和 HDFS 两大组件,内容比较基础,看完后可以写简单的 MR 应用程序,也能够用命令行或 Java API 操作 HDFS。但要对 Hadoop 做深入的了解,显然不够用。因此本章就深入了解一下 MapReduce 应用的运行机制,从而学习 ...
之多样 图2-5 大数据特点之低价值密度 1.3 大数据应用场景 大数据应用场景如图2-6 ...
Hadoop有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。以下是由应届毕业生网小编J.L为您整理推荐的面试笔试题目和经验,欢迎参考阅读。 单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker ...
第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapRe ...
大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战。Hadoop作为一个开源的分布式并行处理平台,以其高拓展、高效率、高可靠等优点越来越受到欢迎。这同时也带动了hadoop商业版的发行。这里就通过大快DKhadoop为大家详细介绍一下hadoop大数据平台 ...