前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题。 说明: 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异。如果碰到同样的问题,本博客 ...
最近开始跟随 子雨大数据之Spark入门教程 Python版 学习大数据方面的知识。 这里是网页教程的链接: http: dblab.xmu.edu.cn blog 在学习中遇到的一些问题,将会在这里进行总结,并贴上我的解决方法。 Spark独立应用程序编程时报错: 按照教程所写的配置好环境之后,运行第一个spark 程序时报错显示: 有人说是JAVA版本的问题。 google找了很久之后发现在S ...
2018-09-11 20:22 0 4448 推荐指数:
前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题。 说明: 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异。如果碰到同样的问题,本博客 ...
昨天在课堂上学习了jieba库,跟着老师写了同样的代码时却遇到了问题: jieba分词报错AttributeError: module 'jieba' has no attribute 'cut' 文件名为jieba.py 代码是: 运行结果为 我去网上先查 ...
在使用numpy读取一个四百多万行数据的.csv文件时抛出了如下异常: numpy.core._exceptions.MemoryError: Unable to allocate array with shape (4566386, 23) and data type <U20 以下 ...
关于使用hive left join关联出重复数据的问题解决方法记录 问题描述 两张表A表和B表 A表数据结构 ID、名称、其他字段 B表数据结构 ID、名称、其他字段 需求 需要将B表中ID在A表中存在的数据拿出来分析最终将结果吐出到新表中 我这边分析 ...
问题一 因为已经有程序占用了Django的默认端口了,所以只要这么启动项目,81是使用的端口,然后访问即可http://127.0.0.1:81/ 解决: 问题二 TypeError: not enough arguments for format string ...
最近在做项目功能时 ,发现有20万以上的数据。要求导出时直接导出成压缩包。原来的逻辑是使用poi导出到excel,他是操作对象集合然后将结果写到excel中。 使用poi等导出时,没有考虑数据量的问题,大数据量无法满足,有个几千行jvm就哭了。更别提几万行几百万行数据了。 经过一天的研究发现 ...
前段时间公司搭建hdp的大数据管理平台。今天又有人遇到了。今天在这里记录一下。在安装的过程当中遇到的问题如下: ERROR 2018-02-27 16:29:23,891 NetUtil.py:93 - [SSL: CERTIFICATE_VERIFY_FAILED] certificate ...
解决方法: 使用easyexcel解决超大数据量的导入导出xlsx文件 easyexcel最大支持行数 1048576。 官网地址: https://alibaba-easyexcel.github.io/ GitHub地址: https ...