了代碼。整個Spark框架源碼是一個巨大的工程。下面我們一起來看下spark的底層執行原理。 Spa ...
HBase簡介 HBase 是一個分布式的 面向列的開源數據庫。建立在 HDFS 之上。Hbase的名字的來源是 Hadoop database,即 Hadoop 數據庫。HBase 的計算和存儲能力取決於 Hadoop 集群。 它介於 NoSql 和 RDBMS 之間,僅能通過主鍵 row key 和主鍵的 range 來檢索數據,僅支持單行事務 可通過 Hive 支持來實現多表 join 等復 ...
2021-01-14 09:36 3 1056 推薦指數:
了代碼。整個Spark框架源碼是一個巨大的工程。下面我們一起來看下spark的底層執行原理。 Spa ...
一、快速入門 示例:有一定基礎的小伙伴們可以選擇性的跳過該步驟 HashMap是Java程序員使用頻率最高的用於映射鍵值對(key和value)處理的數據類型。隨着JDK版本的跟新,JDK1.8對HashMap底層的實現進行了優化,列入引入紅黑樹的數據結構和擴容的優化等。本文結合JDK1.7 ...
前言 Flink 是流式的、實時的 計算引擎 上面一句話就有兩個概念,一個是流式,一個是實時。 流式:就是數據源源不斷的流進來,也就是數據沒有邊界,但是我們計算的時候必須在一個有邊界的范圍內進行 ...
RDD算子調優 不廢話,直接進入正題! 1. RDD復用 在對RDD進行算子時,要避免相同的算子和計算邏輯之下對RDD進行重復的計算,如下圖所示: 對上圖中的RDD計算架構進行修改,得到如 ...
Kafka 簡介 Apache Kafka 是一個分布式發布-訂閱消息系統。是大數據領域消息隊列中唯一的王者。最初由 linkedin 公司使用 scala 語言開發,在2010年貢獻給了Apach ...
Kafka 簡介 Apache Kafka 是一個分布式發布-訂閱消息系統。是大數據領域消息隊列中唯一的王者。最初由 linkedin 公司使用 scala 語言開發,在2010年貢獻給了Apach ...
前言大家好,我是禿頂的碼哥!前幾天和同事聊到一個比較尷尬的話題,程序員該如何面對35歲的這道坎?(之所以感到尷尬,是因為碼哥也即將35歲了) “高薪”是所有人對於我們程序員的印 ...
這篇文章是很久之前的一篇《回溯算法詳解》的進階版,之前那篇不夠清楚,就不必看了,看這篇就行。把框架給你講清楚,你會發現回溯算法問題都是一個套路。 廢話不多說,直接上回溯算法框架。解決一個回溯問題,實際上就是一個決策樹的遍歷過程。你只需要思考 3 個問題: 1、路徑:也就是已經做出的選擇 ...