Github 1.9K Star的數據治理框架-Amundsen


Amundsen的使命,整理有關數據的所有信息,並使其具有普遍適用性

這是Amundsen官網的一句話,對於元數據的管理工作,復雜且繁瑣。可用的工具很多各有千秋,數據血緣做的較好的應該是Apache Atlas,而數據可視化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能,讓數據治理更加的簡單便捷,而這正是Amundsen的使命。

類似於Atlas (Apache),Datahub (LinkedIn)。Amundsen主要在於提高數據分析師,數據科學家和數據工程師的工作效率。它可以通過為數據資源建立索引,並通過一定的機制來支持在頁面上進行排名搜索。可以將其視為搜索功能,但搜索的是元數據。該項目以挪威探險家Roald Amundsen(第一個發現南極的人)的名字命名。

Amundsen由LF AI&Data基金會維護。LF AI&Data是Linux Foundation的保護基金會,支持人工智能,機器學習,深度學習和數據方面的開源創新。

目前Amundsen在github有1.9kStar,還沒有Releases的版本,項目正處於蒸蒸日上的上升期。

架構

下圖顯示了Amundsen的總體架構。

可見,Hive,Presto等數據源通過Databuilder ingestion框架獲取元數據,寫入Elasticsearch和Neo4j,通過搜索服務與元數據服務提供給前端。

主要模塊如下:

前端服務

作為用戶交互的web頁面。

這是基於Flask的Web應用程序,頁面是React構建的。

搜索服務

搜索服務采用Elasticsearch的搜索功能(或者Apache Atlas),並提供一個RESTful API服務。

元數據服務

元數據服務目前使用的Neo4j的圖數據庫進行交互。

功能展示

Amundsen提供了搜索,推薦,表描述,數據預覽在內的非常多的功能,數據血緣功能正在研發中。

以上是部分功能展示:

登陸頁面:Amundsen的登陸頁面

搜索預覽:查看搜索結果

表的詳細頁面:Hive 等表的可視化

列詳細信息:主要是一些列的統計信息

數據預覽頁面:表數據預覽的可視化,可以與Apache Superset或其他數據可視化工具集成。

集成

Amundsen支持的數據源非常多。

Apache Druid,Apache Hive,CSV,Oracle,

Mysql,Delta Lake等等。

Amundsen還可以連接到任何提供dbapisql_alchemy接口的數據庫。

同時Amundsen還支持和一些儀表盤的集成,比如

Redash,Tableau。

ETL工具的集成,Apache Airflow。

BI可視化工具,Apache Superset。

未來規划

作為數據治理領域的未來之星,Amundsen有着非常好的計划。

2021年願景

可以和所有的數據源進行集成,解決越來越多的數據治理問題。

近期工作重點

數據血緣(設計完成)

集成數據質量系統(進行中)

列值過濾(已開始)

搜索結果層次結構(計划中)

當然,還有很多計划中的功能,這里不一一列舉。

期待未來Amundsen的發展,我們也將對其新版本與新功能的發布持續關注!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM