hive和Hadoop、spark、HDFS、Hbase是什么?


什么是ETL

即extract:提取

transform:轉換

load:加載

ETL其實是數據清洗后的數據

 

什么是數據中台:

從抽取數據開始,到最終用戶看到,這一系列過程都是數據中台;

指的是一套數據應用和工具,包括分布式ETL、數據資產管理、數據標簽管理、數據沙箱、自助分析平台、元數據管理、數據質量管理等等,底層則已現有的數倉、大數據平台等為數據源,為企業提供數據資產管理的能力,並持續挖掘數據價值,持續提供數據智能服務。

 

什么是數據倉庫:

數倉是存數據的,企業的各種數據往里面抽取,主要目的是為了分析數據,后續會基於它產出供分析挖掘的數據,或者數據應用需要的數據

 

如何理解Hivehadoop關系?

1)從概念上來看

-> Hive是基於Hadoop的一個數據倉庫工具,hadoop是海量分布式存儲計算框架,底層就是hdfs分布式文件管理系統和mapreduce分布式計算框架;它是MapReduce的一個封裝,底層就是MapReduce程序;

2)從本質上來看

hive是用來調用計算引擎MapReduce操作數據hdfs的;

就是把hivesql語句轉化為MapReduce程序,hivesql其實就是mapreduce封裝而成。Hive的出現是為了自動化編寫MapReduce程序,通過sql語句讓mapreduce進行查詢、聚合、排序等;

3hadoop三大組件:

Hdfs分布式文件管理系統、mapreduce分布式計算系統、yarn資源調度框架;

Hive的優缺點

1. 優點

1)簡單、只需要寫SQL語句就行;

2)Hive常用於數據分析,適合處理離線數據(靜態數據);

3)優勢在於處理大數據;

ps:mysql適合處理數據的增刪改查,適合處理業務型實時數據(動態數據)

2. 缺點

1)數據挖掘不擅長(擅長數據挖掘的是Spark);

2)Hive自動生成MapReduce作業,通常不夠智能化,效率比較低

3)不能更新、刪除、插入;只能通過文件追加數據

4)不能對列建立索引(想提高Hive的查詢速度,請學習Hive的分區、桶的應用)

4)hive只適合做數據分析,不適合做業務型實時數據

Hive鏈接方式

只能通過jdbc來鏈接;

 

什么是JDBC

  JDBC(JavaDataBase Connectivity)就是Java數據庫連接,說白了就是用Java語言來操作數據庫。原來我們操作數據庫是在控制台使用SQL語句來操作數據庫,JDBC是用Java語言向數據庫發送SQL語句。

 

什么都是spark

即:海量分布式存儲分析框架、搜索引擎是spark,操作語言是Spark SQL ,比hadoop的mapreduce更快,效率更高;目前華為雲采用的就是spark框架;他的分布式文件管理系統obs是基於hdfs封裝優化的;

 

什么是hbase

Hbase基於hdfs的非關系型數據庫;

是一種Key/Value系統,它運行在HDFS之上

HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮、實時讀寫的分布式數據庫,HBase是一個分布式存儲、數據庫引擎,可以支持千萬的QPS、PB級別的存儲,hadoop行存儲瓶頸是是幾十億級別的;不支持sql,是面向列的數據庫,新增列直接insert即可

 

mysql/sqlserver

關系型數據庫,支持事務,支持索引,支持sql,表結構需要提前定義;想要新增列,需要ALTER TABLE 語句用於在已有的表中添加、修改或刪除

mysql單表數據瓶頸是千萬級的行記錄

瓶頸說的是性能瓶頸,不會存在溢出情況因為都是存在磁盤上

數據本身只要磁盤夠就不會溢出

但是如果我們的主鍵ID,是int類型(32位),自增,那int類型最大值是2,147,483,647(21億),如果數據量超過這個,那就會數據類型溢出

所以現在業務數據表一般用bigint(64位,最大值9223372036854775807)(百億億),絕對夠用,對於一般配置表,基礎信息表這種用int也是絕對夠用的

 

 

什么是flink

分布式計算系統,處理在線的實時的大數據;

機制是:客戶端通過DMS(數據庫管理平台)kafka寫入數據,采用flink流式處理框架計算(一條條寫入),寫入到rds的mysql中;

 

 

 

mangodb是什么?

MongoDB 是由C++語言編寫的,是一個基於分布式文件存儲的開源數據庫系統。

也是一個數據庫類型,他比sqlserver和mysql,生提供高讀寫的能力,吞吐量大大增強。

MongoDB 將數據存儲為一個文檔,數據結構由鍵值(key=>value)對組成。類似json格式

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM