元數據治理-Atlas血緣


參考:

官網:

https://atlas.apache.org

簡單介紹:

https://cloud.tencent.com/developer/article/1544396    GG

https://blog.csdn.net/wangpei1949/article/details/87555794   #web

和CDH集成:

https://blog.csdn.net/xueyao0201/article/details/94310583

部署:

官網:

https://atlas.apache.org/#/Installation    

https://blog.csdn.net/MuQianHuanHuoZhe/article/details/82048755   GG

 

 

一、Atlas是什么?
在當今大數據的應用越來越廣泛的情況下,數據治理一直是企業面臨的巨大問題。

大部分公司只是單純的對數據進行了處理,而數據的血緣,分類等等卻很難實現,市場上也急需要一個專注於數據治理的技術框架,這時Atlas應運而生。

Atlas是Hadoop的數據治理和元數據框架。

Atlas是一組可擴展和可擴展的核心基礎治理服務,使企業能夠有效,高效地滿足Hadoop中的合規性要求,並允許與整個企業數據生態系統集成。

Apache Atlas為組織提供了開放的元數據管理和治理功能,以建立其數據資產的目錄,對這些資產進行分類和治理,並為數據科學家,分析師和數據治理團隊提供圍繞這些數據資產的協作功能。

Atlas支持各種Hadoop和非Hadoop元數據類型
提供了豐富的REST API進行集成
對數據血緣的追溯達到了字段級別,這種技術還沒有其實類似框架可以實現
對權限也有很好的控制

 

架構原理:

Atlas包括以下組件:
采用Hbase存儲元數據
采用Solr實現索引
Ingest/Export 采集導出組件 Type System類型系統 Graph Engine圖形引擎 共同構成Atlas的核心機制
所有功能通過API向用戶提供,也可以通過Kafka消息系統進行集成
Atlas支持各種源獲取元數據:Hive,Sqoop,Storm。。。
還有優秀的UI支持

 

壓力大時需要單獨一台機器部署Apache Atlas
Atlas Hive hook向Hive注冊偵聽以創建/更新/刪除操作,並通過Kafka通知更新Atlas中的元數據以獲取Hive中的更改
采集的動作存到hbase,然后再展示出來.

接下來需求是給hive安裝擴展插件采集血緣關系。
1、每台機器都要新建一個/etc/hive/auxlib文件夾,然后往里面上傳22個atlas特有的jar包;emr配置hive_aux_jars_path
/etc/hive/auxlib/atlas-hive-plugin-impl每台都拷上
2、接着,往hive配置文件夾/etc/ecm/hive-conf加2個atlas特有配置文件(除了java_home和內嵌程序hbase開關的manage為前綴,配置項都以atlas為前綴)。重啟hive
/etc/ecm/hive-conf/atlas-application.properties
/etc/ecm/hive-conf/atlas-env.sh
3、運行import_hive.sh的腳本
 /etc/hive/auxlib/hook-bin/import_hive.sh


官網:
https://atlas.apache.org/#/HookHive
Atlas Hive鈎子向Hive注冊以偵聽創建/更新/刪除操作,並通過Kafka通知更新Atlas中的元數據以獲取Hive中的更改。請按照以下說明在Hive中設置Atlas掛鈎:

通過添加以下內容,在hive-site.xml中設置Atlas掛鈎:
<property>
<name>hive.exec.post.hooks</name>
<value>org.apache.atlas.hive.hook.HiveHook</value>
</property>
解壓縮apache-atlas-$ {project.version} -hive-hook.tar.gz
cd apache-atlas-hive-hook-$ {project.version}
將文件夾apache-atlas-hive-hook-$ {project.version} / hook / hive的全部內容復制到<atlas package>/ hook / hive
<atlas package>在您的配置單元配置的hive-env.sh中添加“ export HIVE_AUX_JARS_PATH = / hook / hive”
將<atlas-conf>/atlas-application.properties 復制到hive conf目錄。

 

采集到的數據展示到worker1上:
http://8.xx.xx.xxx:21060

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM