花费 32 ms
Hive 时间日期处理总结

最近用hive比较多,虽然效率低,但是由于都是T+1的业务模式。所以也就不要求太多了,够用就行。其中用的吧比较多就是时间了,由于大数据中很多字段都不是标准的时间类型字段,所以期间涉及了很多的时间日期字 ...

Wed Feb 28 00:11:00 CST 2018 0 26088
pyspark 内容介绍(一)

pyspark 包介绍 子包 pyspark.sql module pyspark.streaming module pyspark.ml pack ...

Sat Jan 21 03:10:00 CST 2017 6 27729
时间序列数据库概览

背景    目前对于时序大数据的存储和处理往往采用关系型数据库的方式进行处理,但由于关系型数据库天生的劣势导致其无法进行高效的存储和数据的查询。时序大数据解决方案通过使用特殊的存储方式,使得时 ...

Tue Jan 16 23:54:00 CST 2018 2 19303
如何使用Python读取大文件

背景 最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法。 原味 ...

Sun Feb 11 22:11:00 CST 2018 0 17127
Elasticsearch-深入理解索引原理

最近开始大面积使用ES,很多地方都是知其然不知其所以然,特地翻看了很多资料和大牛的文档,简单汇总一篇。内容多为摘抄,说是深入其实也是一点浅尝辄止的理解。希望大家领会精神。 首先学习要从官方开始 ...

Fri Mar 02 00:42:00 CST 2018 3 16006
ES 复合查询

  ES在查询过程中比较多遇到符合查询,既需要多个字段过滤也需要特殊情况处理,本文简单介绍几种查询组合方便快捷查询ES。 bool(组合查询) must 所有的语句都 ...

Wed Jun 10 18:43:00 CST 2020 0 4043
Elasticsearch-精确查找

转译:(https://www.elastic.co/guide/en/elasticsearch/guide/current/_finding_exact_values.html#_finding_ ...

Tue Mar 06 01:21:00 CST 2018 0 5584
hivesql优化的深入解析

转载:https://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map ...

Tue Apr 10 23:31:00 CST 2018 2 4725
ES 最佳实践配置

Elasticsearch 性能优化 Elasticsearch 是当前流行的企业级搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。作为一个开箱即 ...

Mon Jul 13 18:34:00 CST 2020 0 2402
Spark DataFrame简介(一)

1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍D ...

Mon Mar 16 20:05:00 CST 2020 0 2724

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM