标签【大数据技术】

深入理解Apache Flink核心技术

Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关 ...

Hive中三种方式删除表数据内容

使用truncate仅可删除内部表数据，不可删除表结构（truncate可删除所有的行，但是不能删除外部表）使用shell命令删除外部表使用 drop 可删除整 ...

前台、中台与后台的概念

前台：这里所说的“前台”和“前端”并不是一回事。所谓前台即包括各种和用户直接交互的界面，比如web页面，手机app；也包括服务端各种实时响应用户请求的业务逻辑，比如商品查询、订单系统等等。后台 ...

一、Hive介绍　　Hive是基于Hadoop的一个数据仓库，Hive能够将SQL语句转化为MapReduce任务进行运行。　　Hive架构图分为以下四部分。　　　　1、用户接口 ...

一、Delta、Hudi、Iceberg对比概览由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的Delta lake也显得格外亮眼。在没有 ...

注意 1. Flink使用1.11.0版本、HIVE使用2.3.6版本、Hadoop使用2.10.0版本注意 2. 将hive-site.xml文件放在maven项目的resource目录下。注 ...

Flink Kafka consumer的消费策略配置

...

服务器一般是云服务器或者放置在机房，我们日常工作中通过远程连接工具连接到服务器进行操作，这类工具很多（如SecureCRT、XShell、Putty、FinallShell、TeamViewer以及w ...

网络爬虫：　　网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引 ...

Hive的10种优化总结

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。 ...