大數據平台架構思考


筆者早期從事數據開發時,使用spark開發一段時間,感覺大數據開發差不多學到頭了,該會的似乎都會了。在后來的實踐過程中,發現很多事情需要站在更高的視角來看問題,不然很容易陷入“不識廬山真面目”的境界。最近在思考數據資產管理平台的建設,進行血緣分析開發,有如下感悟:

大數據平台從數據層面來說,包括數據本身和元數據;從業務層面來說,在數據中心(數據倉庫)的基礎上,支撐數據分析、數據挖掘,提高其分析、挖掘效率;從管理角度來說,為了提升開發效率,需要利用好組件管理平台,對元數據進行管理,打造數據開發運維平台。

在此基礎上,一個完善的大數據架構,至少包括三個方面:

  1. 開發組件管理平台:用於搭建和管理大數據開發組件,如etl、hdfs、hbase、presto、kerbose等;
  2. 數據資產(元數據)管理平台:元數據采集、元數據管理、血緣分析、數據質量、數據標准、數據指標、數據生命周期管理等。
  3. 開發運維平台:數據脫敏、權限管理、調度管理、開發管理、發布管理、運維監控與預警等等。

大數據架構設計需要兼顧不同需求,根據不同的數據分析、數據挖掘場景,在資源限制與性能要求下,提供不同的平台方案。

對於大數據架構師,不僅要熟悉各種組件的使用及其適用場景,還需要熟悉組件管理、元數據管理、開發運維管理等。其搭建的平台,能否提高數據分析效率,能否提高數據挖掘的效率,能否保證數據質量,能否打通整個數據鏈條等。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM