Spark簡介 Apache Spark是用於大規模數據處理的統一分析引擎,基於內存計算,提高了在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性,允許用戶將Spark部署在大量硬件之上 ...
前言 Flink 是流式的 實時的 計算引擎 上面一句話就有兩個概念,一個是流式,一個是實時。 流式:就是數據源源不斷的流進來,也就是數據沒有邊界,但是我們計算的時候必須在一個有邊界的范圍內進行,所以這里面就有一個問題,邊界怎么確定 無非就兩種方式,根據時間段或者數據量進行確定,根據時間段就是每隔多長時間就划分一個邊界,根據數據量就是每來多少條數據划分一個邊界,Flink 中就是這么划分邊界的,本 ...
2021-01-25 20:13 0 564 推薦指數:
Spark簡介 Apache Spark是用於大規模數據處理的統一分析引擎,基於內存計算,提高了在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性,允許用戶將Spark部署在大量硬件之上 ...
HBase簡介 HBase 是一個分布式的、面向列的開源數據庫。建立在 HDFS 之上。Hbase的名字的來源是 Hadoop database,即 Hadoop 數據庫。HBase 的計算和存儲能 ...
RDD算子調優 不廢話,直接進入正題! 1. RDD復用 在對RDD進行算子時,要避免相同的算子和計算邏輯之下對RDD進行重復的計算,如下圖所示: 對上圖中的RDD計算架構進行修改,得到如 ...
本文引自:https://www.cnblogs.com/Elliott-Su-Faith-change-our-life/p/7472265.html Java中PriorityQueue通 ...
SpringDataJpaSpring Data JPA 讓我們解脫了DA0層的操作,基本上所有CRUD都可以依賴於它來實現,在實際的工作工程中,推薦使用Spring Data JPA+ORM(如 ...
1. hive內部表和外部表的區別 未被external修飾的是內部表,被external修飾的為外部表。 區別: 內部表數據由Hive自身管理,外部表數據由HDFS管理; ...
前言大家好,我是禿頂的碼哥!前幾天和同事聊到一個比較尷尬的話題,程序員該如何面對35歲的這道坎?(之所以感到尷尬,是因為碼哥也即將35歲了) “高薪”是所有人對於我們程序員的印 ...
一、Time 在Flink的流式處理中,會涉及到時間的不同概念 Event Time(事件時間):是事件創建的時間。它通常由事件中的時間戳描述,例如采集的日志數據中,每一條日志都會記錄自己的生成時間,Flink通過時間戳分配器訪問事件時間戳 Ingestion Time(采集時間):是數據 ...