Github 1.9K Star的數據治理框架-Amundsen - 碼上歡樂

相關內容簡體繁體

Github 1.9K Star的數據治理框架-Amundsen

本文轉載自查看原文 2021-03-25 13:36 439 大數據

Amundsen的使命，整理有關數據的所有信息，並使其具有普遍適用性。

這是Amundsen官網的一句話，對於元數據的管理工作，復雜且繁瑣。可用的工具很多各有千秋，數據血緣做的較好的應該是Apache Atlas，而數據可視化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能，讓數據治理更加的簡單便捷，而這正是Amundsen的使命。

類似於Atlas (Apache)，Datahub (LinkedIn)。Amundsen主要在於提高數據分析師，數據科學家和數據工程師的工作效率。它可以通過為數據資源建立索引，並通過一定的機制來支持在頁面上進行排名搜索。可以將其視為搜索功能，但搜索的是元數據。該項目以挪威探險家Roald Amundsen（第一個發現南極的人）的名字命名。

Amundsen由LF AI＆Data基金會維護。LF AI＆Data是Linux Foundation的保護基金會，支持人工智能，機器學習，深度學習和數據方面的開源創新。

目前Amundsen在github有1.9kStar，還沒有Releases的版本，項目正處於蒸蒸日上的上升期。

架構

下圖顯示了Amundsen的總體架構。

可見，Hive，Presto等數據源通過Databuilder ingestion框架獲取元數據，寫入Elasticsearch和Neo4j，通過搜索服務與元數據服務提供給前端。

主要模塊如下：

前端服務

作為用戶交互的web頁面。

這是基於Flask的Web應用程序，頁面是React構建的。

搜索服務

搜索服務采用Elasticsearch的搜索功能（或者Apache Atlas），並提供一個RESTful API服務。

元數據服務

元數據服務目前使用的Neo4j的圖數據庫進行交互。

功能展示

Amundsen提供了搜索，推薦，表描述，數據預覽在內的非常多的功能，數據血緣功能正在研發中。

以上是部分功能展示：

登陸頁面：Amundsen的登陸頁面

搜索預覽：查看搜索結果

表的詳細頁面：Hive 等表的可視化

列詳細信息：主要是一些列的統計信息

數據預覽頁面：表數據預覽的可視化，可以與Apache Superset或其他數據可視化工具集成。

集成

Amundsen支持的數據源非常多。

Apache Druid，Apache Hive，CSV，Oracle，

Mysql，Delta Lake等等。

Amundsen還可以連接到任何提供dbapi或sql_alchemy接口的數據庫。

同時Amundsen還支持和一些儀表盤的集成，比如

Redash，Tableau。

ETL工具的集成，Apache Airflow。

BI可視化工具，Apache Superset。

未來規划

作為數據治理領域的未來之星，Amundsen有着非常好的計划。

2021年願景

可以和所有的數據源進行集成，解決越來越多的數據治理問題。

近期工作重點

數據血緣（設計完成）

集成數據質量系統（進行中）

列值過濾（已開始）

搜索結果層次結構（計划中）

當然，還有很多計划中的功能，這里不一一列舉。

期待未來Amundsen的發展，我們也將對其新版本與新功能的發布持續關注！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 我成了 GitHub Star 前瞻|Amundsen的數據血緣功能 2021 github java領域超40k star項目，top10 拿走，不謝在github上查找star最多的項目 amundsen 來自lyft 的開源數據發現平台 11、比對軟件STAR（https://github.com/alexdobin/STAR）數據治理 VS 公司治理、IT治理、數倉治理服務治理框架 dubbo服務治理框架 Github顯示Star曲線圖

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM