一、元數據概述
1.1、定義
元數據定義:描述數據的數據,對數據及信息資源的描述性信息。小編認為元數據不僅僅是關於數據的數據,它還是一種上下文,賦予信息更加豐富的身份。
以圖片為例,其圖片本身是一種數據,那么圖片的名稱、屬性、尺寸、使用什么設備生成的、生成的時間、責任人等等這些信息其實都屬於元數據。
1.2、類型
元數據的類型可以分為以下三種:
1.2.1、業務元數據
描述數據系統中業務領域相關概念、關系和規則的數據,包括業務術語、信息分類、指標、統計口徑等。
例如:針對機場基礎信息數據,其標識信息、數據質量與精度信息、空間參照信息、發布與更新信息、負責單位與聯系信息等均構成描述該機場基本數據(如機場代碼、坐標等)的業務元數據。
業務元數據也可以大致分為邏輯元數據和物理元數據。
1.2.1.1、邏輯元數據
有關邏輯結構(例如表)的業務元數據被視為邏輯元數據;我們使用元數據進行數據分類和標准化我們的 ETL 處理。表所有者可以在業務元數據中提供有關表的審計信息。它們還可以提供用於寫入表的列默認值和驗證規則。
1.2.1.2、物理元數據
有關存儲在表或分區中的實際數據的元數據被視為物理元數據。
我們的 ETL 處理在作業完成時存儲有關數據的指標,稍后用於驗證。相同的指標可用於分析數據的成本 + 空間。鑒於兩個表可以指向相同的位置(如在 Hive 中),區分邏輯元數據和物理元數據很重要,因為兩個表可以具有相同的物理元數據但具有不同的邏輯元數據
1.2.2、技術元數據
描述數據系統中技術領域相關概念、關系和規則的數據,包括物理模型的表與字段、ETL規則、集成關系等。
例如:針對圖像數據,其基本數字對象(對象標識符、文件大小、字節序列、壓縮類別等)、基本圖像信息、圖像捕捉元數據、圖像評估元數據(空間度量、圖像色彩編碼等)等構成描述該數據的技術元數據。
1.2.3、操作元數據
操作元數據:描述數據處理日志及運營情況的數據,包括系統執行日志、訪問記錄等。
1.3、目的及意義
小編認為通過元數據可以幫助企業更好的維護管理數據,沉淀數據資產,且在整個數據生態系統起到承上啟下的作用,對於用戶來說可以快速、准確獲取到完整的上下文數據信息,並完全理解信任數據,對於團隊來說可以提升協作效率,減少重復工作,對於企業來說可以充分挖掘數據價值,做出正確的執行決策
1.4、元數據管理
在對元數據進行管理時需要制定元數據標准、管理規范、管理平台與管控機制,
通過全流程的元數據管理(元數據的生產、采集、注冊、維護),實現元數據應用。
、元數據管理解決方案
大多數企業中通常會出現一種情況:用戶經常不得不問其他人在哪里可以找到合適的數據,因為很難在數據環境中導航。此外,元數據和上下文的缺乏使得難以信任數據。這種缺乏信任使員工無法使用其知識領域之外的資源,他們害怕不小心使用過時或不正確的信息。因此為了解決這類問題,元數據管理至關重要。關於元數據管理解決方案大致分為四類:
1、早期傳統解決方案
2、Saas/內部解決方案
3、開源解決方案
4、Lake Discovery
1、早期傳統解決方案
2.1、Metaphor
支持功能:
1、Data Catalog:數據目錄
其實是一種元數據管理工具,公司用來在其系統內清點和組織數據。典型的好處包括改進數據發現、治理和訪問;
2、Data Context:獲取完整的數據信息
通過授權整個組織的專家根據業務背景豐富數據,使數據具有可操作性。包括示例查詢、關鍵指標的定義、標記數據事件等等。集成到用戶的自然工作流程中,使目錄永遠不會過時。
3、Data Discovery:快速得到想要的數據
通過建立對數據的信任的直觀、上下文豐富的發現體驗,縮短獲取數據的時間。對於每項數據資產,查看依賴它的人、他們使用的查詢、指標如何定義以及是否存在任何問題——所有這些都通過用戶的自然表現而浮出水面
4、Data Insights:數據洞察
通過深入了解數據的利用方式,優化您的數據團隊花費時間和金錢的方式。將投資從未充分利用的數據集、儀表板和工作轉移到更高價值的數據資產
地址:https://metaphor.io/
2.2、Stemma
特點:一站式元數據管理解決方案
2.2.1、可以通過簡單/高級搜索來查看具體的表或者看板等等
2.2.2、可以根據比較常見的數據標簽快速查看
2.2.3、系統會推薦比較常用的數據,也就是我們經常看到的熱度分析
2.2.4、通過我們搜索得到的結果查看具體的信息
有該表或者數據集的描述信息、責任人、最近更新時間、所屬標簽、數據范圍、最近查詢人員、問題反饋交流、關於該目標數據最近的一系列行為以及可以查看上下游血緣等等。
2.2.5、查看搜索目標數據任務上下游血緣信息
2.2.6、同樣可以看到該數據集所涉及到的列、看板(可以看到該看板的具體信息以及協作者相關的信息)
地址:https://www.stemma.ai/
2.3、Acryl
Acryl Data是一個元數據管理服務提供商,將LinkedIn的元數據工具DataHub進行了商業化。
願景:通過下一代多雲元數據管理平台為您的數據帶來更好的清晰度
特點:數據發現,數據質量和聯邦治理的一站式數據協作平台,可實現跨數據集,流,模型,儀表板體驗整個數據生態系統,從而讓數據更加清晰。
1、輕松集成並搜索整個多雲數據生態系統,可以快速揭示隱藏的洞察力並建立數據產品
2、基於自動立即觸發策略來確保高質量數據
3、基於API-First可擴展的元數據平台,可以實現對分析的安全性,且可復用。
地址:https://www.acryl.io/
2.4、Select Star
願景:Data discovery made easy。
特點:
1、組織並管理您的數據:通過標記和向數據添加文檔,以便每個人都可以找到其正確數據集
2、及時監聽列變化:Star會自動檢測並顯示列級別數據血緣,並且可以信任它來自哪里
3、捕獲數據的使用:即無需尋找負責人,就能知道數據的用途、是否屬於熱度數據
4、維護數據安全和治理:Star會把數據基於AICPA SOC 2安全、機密性和可用性進行標准化處理,確保數據安全
地址:https://selectstar.com/
2.5、Secoda
願景:快速查找、定位、修復數據,提高協作效率。
定位:Secoda是一個用於管理和搜索所有數據知識的單一個工具,可以和用戶使用的其他工具進行配合。
功能:
1、Data Catalog:數據目錄
2、Data Analysis:數據分析
3、Data Dictionary:數據字典
4、Data Requests:數據請求使用
特點:
1、通過一個按鈕就可以把所有的數據源進行集成,並且可以秒級訪問搜索。
2、自動管理並記錄元數據,包括表、字段、指標等等。
3、知識庫的沉淀,Secoda會記錄用戶創建的查詢、看板以及其他操作。
4、協作分享,可以將查詢、分析、元數據和指標等數據資源根據權限控制進行分享協作。
5、代替在JIRA,Slack和Google表單之間跳躍,團隊可以使用Secoda管理整個數據請求過程。避免重復回答同樣的問題
地址:https://www.secoda.co/
2、Saas/內部解決方案
2.1、Data Galaxy
特點:實現數據治理最佳方式
1、理解業務數據並可以共享通用定義;即由團隊成員共同維護定義業務術語詞匯的知識庫
2、統一企業數據字典:即快速定位感興趣的數據及其附帶的所有屬性,並可以根據自定義的屬性按照特定的需求調整數據目錄
3、數據血緣,跟蹤數據路徑:所有者可以從雜亂復雜的信息系統中快速定位和跟蹤路徑或者分析數據或者使用變化影響的血緣可視化,實現數據可追溯性和可審計性,對於控制技術風險以及業務和合規風險至關重要。
地址:https://www.datagalaxy.com/en-gb/home/
2.2、Castordoc
特點:發現、理解並使用數據資產
1、發現:快速直觀的搜索,可瀏覽數以千計的表格、列、儀表板或 KPI。
2、理解:幫助用戶理解數據。Castor 會自動顯示流行度、使用統計數據和血統。
3、審計:可記錄到團隊成員編寫的SQL查詢
4、文檔:使用 Castor 的 Magic Paste 功能共享文檔。使用管理面板優先處理和管理文檔
5、管理:為治理目的分配所有者、標記個人信息並映射所有數據資產。
6、協作:在任何地方發表評論提及同事時會發送通知
地址:https://www.castordoc.com/
2.3、Zeenea
特點:
1、擺脫不必要的束縛:Zeenea 是一個 100% 基於雲的解決方案,只需點擊幾下即可在世界任何地方使用。通過選擇 Zeenea Data Catalog,控制實施和維護數據目錄的成本,同時簡化團隊的信息訪問。
2、輕松連接數據源:提供通用連接和 API 優先方法使 Zeenea 能夠適應任何系統和任何數據策略(邊緣、雲、多雲、跨雲、混合),以構建企業范圍的信息存儲庫。
3、借助自動化功能和連接器,可以在幾分鍾內使用包含來自每天使用的數據源和工具的信息的數據目錄
4、從數據中立即創建價值:自動供給機制和提供的建議/校正算法降低目錄的總體成本,並在短時間內為團隊提供高質量的信息
地址:https://zeenea.com/
2.4、Google Data Catalog
特點:
無服務器 |
可伸縮的全代管式元數據管理服務,不要求設置或管理任何基礎架構,因此能夠集中精力發展業務。 |
元數據即服務 |
利用元數據管理服務,可以使用自定義 API 和界面對數據資產進行編目,從而集中查看任何位置的數據。 |
集中式目錄 |
靈活而強大的編目系統,能夠自動捕獲技術元數據並利用標記以結構化格式捕獲業務元數據。 |
搜索和發現 |
界面簡單易用,具有強大的結構化搜索功能,可讓您輕松地快速查找數據資產,使用與 Gmail 和雲端硬盤所用相同的 Google 搜索技術。 |
架構化元數據 |
支持架構化標記(例如 Enum、Bool、DateTime)而不僅僅是簡單的文本標記,為組織提供豐富且有條理的業務元數據。 |
Cloud DLP 集成 |
發現敏感數據並對其進行分類,以提供情報並幫助簡化數據治理過程。 |
本地連接器 |
將非 Google Cloud 數據資產的技術元數據提取到 Data Catalog,可集中查看所有數據資產。 |
Cloud IAM 集成 |
提供訪問權限級別控制功能,在對數據資產進行讀取、寫入和搜索時遵循源 ACL,獲享企業級的訪問權限掌控力。 |
治理 |
集成了 Cloud DLP 和 Cloud IAM,可提供堅實的安全性和合規性基礎。 |
地址:https://cloud.google.com/data-catalog
2.5、Azure Purview
特點:
1、創建跨整個數據資產的統一數據地圖,為有效的數據治理和使用奠定基礎
1.1、自動化和管理混合源的元數據;
1.2、使用內置和自定義分類器以及 Microsoft 信息保護敏感度標簽對數據進行分類;
1.3、在 SQL Server、Azure、Microsoft 365 和 Power BI 中一致地標記敏感數據;
1.4、使用 Apache Atlas API 輕松集成所有數據系統
2、更加容易定位數據
2.1、使用熟悉的業務和技術搜索術語,更加快速A容易找到想要的數據;
2.2、使用企業級業務詞匯表消除對 Excel 數據字典的需求;
2.3、通過交互式數據血緣可視化了解數據的來源為數據科學家、工程師和分析師提供 BI、分析、人工智能和機器學習所需的數據
3、通過預覽版全面了解數據管理活動
3.1、按資源類型、分類和文件大小等資產維度查看整個數據資產及其分布
3.2、獲取有關掃描成功、失敗或取消的狀態更新
3.3、添加重要觀點或重新分發詞匯表術語以獲得更好的搜索結果
地址:https://azure.microsoft.com/en-in/services/purview/
2.6、Atlan
特點:
1、發現管理數據:Alation通過清點、分類和整理數據, 提供了對企業數據資產的可見性。與耗時的自上而下、孤立的方法相比,Alation 使企業能夠將治理工作集中在最關鍵的數據資產上,以便對業務產生最大的影響。
2、推動實施、工作流程和管理:Alation 實現了治理策略、工作流和文檔的敏捷批准和交流。通過提供分析和儀表板來監控和跟蹤策展進度
3、積極吸引業務線用戶:Alation 沒有限制業務線用戶使用數據,而是將治理、協作和通信功能直接放入他們的日常工作流程中,以鼓勵准確、合規的數據驅動決策。
4、自動化數據治理流程:Alation 平台結合了機器學習和眾包,以自動化和加速數據管理、數據分類、業務術語表和數據質量文檔。
5、建立對數據的信任:Alation 對數據質量指標、描述和看板進行編目,並在消費和分析點實時向用戶展示數據質量信息。通過觸手可及的數據分析信息,數據使用者可以查看有關數據的重要特征、統計數據和數字圖表,從而使他們能夠自信地快速采取行動
6、主動降低風險:數據血緣可幫助用戶了解數據的來源、誰使用它以及如何使用它。而且,通過影響分析報告,用戶可以全面了解變更的下游影響,有助於主動降低風險
地址:https://www.alation.com/
2.7、Data.World
特點:
1、數據發現:在整個數據生態系統進行統一搜索和發現
2、治理和訪問:獲得敏捷的環境治理,以便可以擴展自助分析。同時為每個人提供個性化的發現,使數據工作合規。
3、協作溝通:讓不同的團隊可以輕松地在數據項目上協同工作。讓每個人都使用他們熟悉和喜愛的工具,以便他們可以充分貢獻,這樣可以在上下文中共享結果,並捕獲跨工具、團隊和數據源的血緣
4、復用:創建可重用、可擴展的數據和分析
地址:https://data.world
2.8、Twitter Data Access Layer
致力目標:
1、數據發現:我們如何找到最重要的數據集,誰擁有這些數據集,它們的語義和其他相關元數據是什么?
2、數據審計:誰創建或使用這些數據集,它們是如何創建的,它們的依賴關系和服務級別協議 (SLA) 是什么,它們的警報規則是什么以及它們與它們的依賴關系是否一致,以及數據集的生命周期如何管理?
3、數據抽象:數據在邏輯上代表什么,它的物理表示是什么,它位於哪里,復制到哪里,格式是什么?
2.9、Shopify Artifact
Artifact 是一種建立在數據模型之上的搜索和瀏覽工具,該模型將元數據集中在各種數據過程中。Artifact 允許所有團隊發現數據資產、他們的文檔、血緣、使用、權限和其他有助於用戶構建必要數據上下文的元數據。此工具可幫助團隊在其角色中更有效地利用數據
架構如下:
從一個通用數據模型和一個簡單的元數據攝取管道開始,該管道從 Shopify 的各種數據存儲和流程中提取信息。元數據提取器還會基於特征構建依賴圖。處理后,信息存儲在 Elasticsearch 索引中,GraphQL API 通過 Apollo 客戶端將數據公開給 Artifact UI。
2.10、Netflix Metacat
Metacat 是一種元數據服務,使數據易於發現、處理和管理。在 Netflix,數據倉庫由存儲在 Amazon S3(通過 Hive)、Druid、Elasticsearch、Redshift、Snowflake 和 MySql 中的大量數據集組成。平台支持使用 Spark、Presto、Pig 和 Hive 來消費、處理和生成數據集。鑒於數據源的多樣性,並確保數據平台可以作為一個“單一”數據倉庫跨這些數據集進行互操作,由此構建了 Metacat。
Netflix 大數據平台的核心架構涉及三個關鍵服務。它們是執行服務 (Genie)、元數據服務和事件服務。這些想法並不是 Netflix 獨有的,他們認為這是構建一個系統所必需的架構。
許多年前,當Netflix開始構建平台時,采用 Pig 作為ETL 語言,采用 Hive 作為臨時查詢語言。由於 Pig 本身沒有元數據系統,因此構建一個可以在兩者之間進行互操作的系統似乎是當時的理想選擇。
因此 Metacat 誕生了,一個系統充當支持的所有數據存儲的聯合元數據訪問層。各種計算引擎可用於訪問不同數據集的集中式服務。一般來說,Metacat 服務於三個主要目標:
1、元數據系統的聯合視圖
2、數據集元數據的統一 API
3、數據集的任意業務和用戶元數據存儲
值得注意的是,其他擁有大型分布式數據集的公司也面臨着類似的挑戰。Apache Atlas、Twitter 的數據抽象層和 Linkedin 的 WhereHows(Linkedin 的數據發現)。
Metacat 提供統一的 REST/Thrift 接口來訪問各種數據存儲的元數據,相應的元數據存儲仍然是模式元數據的真實來源,因此 Metacat 不會在其存儲中實現它。它只直接存儲有關數據集的業務和用戶定義的元數據。它還將有關數據集的所有信息存儲到 Elasticsearch 以進行全文搜索和發現。
在更高的層次上,Metacat 的功能可以分為以下幾類:
1、數據抽象和互操作性
2、業務和用戶定義的元數據存儲
3、數據發現
4、數據變更審計和通知
5、Hive 元存儲優化
2.11、Uber Databook
Databook是Uber的內部平台,該平台可以顯示和管理數據集的內部位置和所有者的元數據,能夠將數據轉化為知識
功能:
1、可擴展性:新的元數據、存儲和實體很容易添加。
2、可訪問性:服務可以以接口方式訪問所有元數據
3、可伸縮性:支持高吞吐量讀取
4、支持跨數據中心讀寫
Databook 提供了來自 Hive、Vertica、MySQL、Postgres、Cassandra 和其他幾個內部存儲系統的各種元數據,包括:表模式、表/列描述、樣本數據、統計數據、血緣、、表新鮮度、SLA 和責任人等等。
所有元數據都可以通過UI可視化和 RESTful API 訪問。
1、RESTful API 由 Dropwizard 提供支持,Dropwizard 是一種用於高性能 RESTful Web 服務的 Java 框架,部署在多台機器上,並由 Uber 的內部請求轉發服務進行負載平衡。
2、可視化 UI 是用 React.js 和 Redux 以及 D3.js 編寫的,主要提供整個公司的工程師、數據科學家、數據分析師和運營團隊使用,以及對數據質量問題進行分類並識別和探索相關數據集。
架構:
2.12、Spotify Lexicon
Lexikon是一個數據洞察庫,可幫助用戶查找和理解生成的數據和知識的一套內部產品,其目的是為了改善數據發現體驗
2.13、Airbnb Data Portal
Airbnb內部的產品用於提升數據可發現性和探索性,建立對數據的信任。其主要功能有以下幾點:
1、搜索:Dataportal 最重要的功能是對整個數據生態系統的統一搜索。用戶可以搜索日志記錄、數據表、圖表、儀表板。搜索卡中盡可能多地顯示有關資源的元數據,以建立上下文和信任。利用圖的拓撲來提高搜索相關性,使用 PageRank 來推廣高質量的相關資源,有據可查和經常使用的資源將導致更高的分數,這有助於確保搜索將用戶吸引到最理想的實體。
2、上下文和元數據:從搜索中,用戶可以通過訪問其詳細內容頁面來進一步探索資源。沒有上下文的數據通常毫無意義,可能會導致不明智和代價高昂的決策。因此,內容頁面展示了擁有的跨數據工具資源的所有信息,以顯示它如何適應整個數據生態系統:誰使用了資源,誰創建了它,它何時被創建或更新,它與哪些其他資源相關, 等等。
更多的元數據轉化為更多的數據。對於數據表尤其如此,它是任何數據倉庫的基礎。易於編輯的元數據信息方便了表描述和列注釋的更新,繞過了復雜和用戶受限的命令。
3、以用戶為中心的數據:Dataportal提供了一個專門的用戶頁面來整合用戶創建、使用、收藏的所有數據資源,同時企業中的任何員工都可以查看任何其他員工的頁面,這從生產和消費的角度都提高了透明度。
4、以團隊為中心的數據:Dataportal提供了一個專門的團隊頁面,因為團隊有他們查詢的表格、他們創建和查看的儀表板、他們跟蹤的團隊指標等等。這樣就可以把團隊間鏈接起來,方便快速定位管理項目。
2.14、Facebook Nemo
Nemo是一個內部數據發現引擎,致力於讓數據發現過程變得更加簡單快速並對結果的准確性充滿信心。
Nemo使用較復雜的搜索引擎架構實現可擴展性,同時能夠解析和回答自然語言查詢。例如,您可以問“Instagram 上每周有多少活躍用戶?”並獲取指向包含相關數據的表的地址。
搜索引擎架構:
Nemo 有兩個主要組件,索引和服務,前端位於服務部分的頂部。索引又分為批量索引(每天發生)和即時索引(立即更新索引)。因此,無論何時創建 Hive 表,即時更新都保證可以在幾秒鍾內按名稱或創建者找到它。例如過去一個月訪問該表的工程師數量,是在更繁重的批量過程中收集的,可能會滯后一兩天。雖然最大的數據源(例如 Hive)由 Nemo 本身的工程師處理,但創建新型數據工件的工程師可以通過調用 Nemo API 自行搜索他們的工件。
對於服務,基於 spaCy 的 NLP 庫執行文本解析;檢索和初始排名步驟由 Unicorn 處理,更復雜的信號(如基於 kNN 的評分和 FBLearner 訓練的 ML 模型)用於后處理。此外,在后處理過程中會考慮各種社交信號——例如給定工件的用戶列表。無文本查詢通常只是類型和質量限制的列表,經過特殊處理,最終得分強調個人和團隊級別的使用。
前端負責顯示結果和其他各種技術細節,例如提供查詢構建系統,以便用戶可以輕松指定多個限制,這些限制可以簡單地轉換為 Unicorn 查詢。它還突出顯示重復或低質量的工件,以引導用戶做出正確的選擇。
2.15、Alation
地址:https://www.alation.com/
特點:
1、數據治理促進增長:Alation 的主動數據治理以人為本,因此人們可以訪問他們需要的數據,並在工作流程中提供有關如何使用數據的指導
2、自助分析:共享查詢以跨團隊協作。歡迎更多人使用數據,並支持大規模的快速數據驅動決策。
3、支持遷移
4、搜索與發現:為組織中的所有數據和數據用戶提供單一的參考系統。一目了然地了解數據質量、上下文和使用模式
2.16、Collibra
Collibra 的數據智能雲致力於整個公司的每個人、團隊和系統與准確、可信的數據保持一致——將人們與事實結合起來,激發推動業務發展。其產品特點如下:
1、通過認證報告推動戰略決策:由於業務術語和指標的不一致,組織通常對執行報告缺乏信任。Collibra的解決方案有助於集中、管理和認證報告和指標,從而節省大量成本。
2、提高數據湖的采用率和投資回報率:由於缺乏可管理性、可追溯性和數據訪問策略,企業數據湖經常成為數據沼澤。Collibra的解決方案可幫助用戶安全、合規地發現、理解、信任和訪問其數據湖中的數據
3、利用數據基礎加速隱私操作:組織通常缺乏可靠的數據基礎來以可擴展的方式響應監管要求。Collibra的解決方案有助於集中、自動化和指導數據隱私工作流程,以支持全球法規
4、通過識別重復數據降低成本:許多組織在不知不覺中購買了類似的第三方數據集。Collibra的解決方案有助於自動識別重復數據集,使數據專業人員能夠輕松清除重復數據。
地址:http://collibra.com/
3、開源解決方案
3.1、Apache Atlas
Atlas 是一組可擴展和可擴展的核心基礎治理服務——使企業能夠有效和高效地滿足其在 Hadoop 中的合規性要求,並允許與整個企業數據生態系統集成。
Apache Atlas 為組織提供開放的元數據管理和治理功能,以構建其數據資產的目錄,對這些資產進行分類和治理,並為數據科學家、分析師和數據治理團隊提供圍繞這些數據資產的協作功能。
地址:https://atlas.apache.org
特點:
1、元數據類型和實例
1.1、各種 Hadoop 和非 Hadoop 元數據的預定義類型
1.2、能夠為要管理的元數據定義新類型
1.3、類型可以有原始屬性、復雜屬性、對象引用;可以從其他類型繼承
1.4、類型的實例,稱為實體,捕獲元數據對象詳細信息及其關系
1.5、用於處理類型和實例的 REST API 允許更輕松的集成
2、分類
2.1、能夠動態創建分類 - 如 PII、EXPIRES_ON、DATA_QUALITY、SENSITIVE
2.2、分類可以包括屬性 - 如 EXPIRES_ON 分類中的 expiry_date 屬性
2.3、實體可以與多個分類相關聯,從而更容易發現和安全實施
2.4、通過譜系傳播分類 - 自動確保分類在數據經過各種處理時跟隨數據
3、血緣
3.1、直觀的 UI 可在數據通過各種流程時查看數據的血緣
3.2、用於訪問和更新譜系的 REST API
4、搜索/發現
4.1、直觀的 UI,可按類型、分類、屬性值或自由文本搜索實體
4.2、豐富的 REST API 可按復雜條件進行搜索
4.3、用於搜索實體的 SQL 之類的查詢語言 - 領域特定語言 (DSL)
5、安全和數據屏蔽
5.1、元數據訪問的細粒度安全性,支持對實體實例的訪問和添加/更新/刪除分類等操作的控制
5.2、與 Apache Ranger 的集成支持基於與 Apache Atlas 中實體關聯的分類對數據訪問進行授權/數據屏蔽。例如:誰可以訪問歸類為 PII、敏感的數據。客戶服務用戶只能看到歸類為 NATIONAL_ID 的列的最后 4 位數字
3.2、Datahub
Datahub也是業界比較熟悉的一款工具, 支持數據發現、數據可觀察性和聯合治理。其特點:
1、開源
2、龐大的生態系統:DataHub 已集成Kafka、Airflow、MySQL、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery 等等。
3、DataHub 遵循基於推送的架構,這意味着它是為不斷變化的元數據而構建的。模塊化設計使其能夠隨着任何組織的數據增長而擴展。
地址:https://datahubproject.io/
3.3、Amundsen
Amundsen是一款開源數據發現和元數據引擎。其特點如下:
1、發現數據:通過簡單的文本搜索搜索數據。受PageRank 啟發的搜索算法會根據表格/儀表板上的名稱、描述、標簽和查詢/查看活動推薦結果
2、查看自動化和精選的元數據:使用自動化和精選的元數據建立對數據的信任——表和列的描述、其他常用用戶、表上次更新時間、統計信息、數據預覽(如果允許)等。通過鏈接 ETL 作業和生成的代碼輕松分類數據。
3、協作:通過描述更新表和列,關於使用哪個表和列以及包含什么的問題,減少不必要溝通。
4、共享:查看同事經常使用、擁有或添加書簽的數據。通過查看在給定表上構建的儀表板,了解最常見的表查詢是什么樣的。
地址:http://amundsen.io/
4、Lake Discovery
4.1、Databricks Unity Catalog
Unity Catalog 是由Databricks開發的一款統一目錄數據和人工智能的細粒度治理工具,可與您現有的目錄、數據和存儲系統配合使用,因此您可以利用現有投資並構建面向未來的治理模型。例如,它允許您在 Apache Hive Metastores 或 Amazon S3 中掛載現有數據,並跨高級安全解決方案(如 Immuta 或 Privacera)管理策略,同時使用 ANSI SQL DCL 管理權限,所有這些都集中在一處。
其特點如下:
1、Unity Catalog UI 讓您可以輕松地在一處地方發現、審核和管理數據資產。數據血緣、基於角色的安全策略、表或列級標簽以及中央審計功能使數據管理員可以輕松自信地管理和保護數據訪問,直接在 Lakehouse 上滿足合規性和隱私需求。
2、Unity Catalog 通過開放標准 ANSI SQL DCL 為跨雲的數據資產帶來細粒度的集中治理。這意味着數據庫管理員可以使用熟悉的 SQL 輕松地授予對任意、特定於用戶的視圖的權限,或對標記在一起的所有列設置權限
3、每個組織都需要與客戶、合作伙伴和供應商共享數據,以更好地協作並從他們的數據中釋放價值。Unity Catalog 建立在開源 Delta Sharing 之上,以集中管理和治理組織內部和組織之間的共享資產。
地址:https://databricks.com/product/unity-catalog