公司是大數據公司,其中有一塊業務主要是大數據的相關內容。我們測試部門也有同事專門對針對這個平台進行測試。由於我們公司有一個平台是做數治工坊的相關內容,其中從元數據管理、流程管理、配置管理、運維監控,整個主流程的了解,加深了對大數據的了解。經過同事的講解和培訓,初步了解了什么是元數據管理、流程管理、調度管理、運維監控,每個模塊對應有哪些內容。
數據采集流程圖如下:
- 元數據管理:主要維護系統所管理的對象的各種元數據,如表、接口、程序。簡單說,元數據存儲-表管理(采集數據、數據交換)-接口管理-數據交換-程序管理。
- 流程管理:主要實現上線相關功能,如上線流程模板的維護、對象如表、接口、程序、字段等的上線處理、上線任務管理及對象下線處理等。簡單說,流程模板,提交上線,管理員審核-上線,測試庫沒問題后切換到生產庫。
- 調度管理:主要管理調度環境、配置調度任務(程序)等相關功能。
- 運維監控:主要實現對任務調度環境及執行情況監控管理、前置機數據采集接口調度執行情況及業務數據查詢等功能。
1 元數據管理
元數據管理,對實際對象的管理。包括元數據交換、元數據存儲、元數據維護、元數據質量、元數據分析(血緣分析、影響分析、數據地圖等)。
1.1 元數據
描述數據的數據。元數據按用途不同分為技術元數據、業務元數據、管理元數據。
- 業務元數據:描述數據系統中業務領域相關概念、關系和規則的數據。包括業務術語、指標、信息分類、統計口徑等。
- 技術元數據:技術領域。包括數據平台內對象和數據結構的定義、源數據到目的數據的映射、數據轉換的描述等。
- 管理元數據:管理領域。包括人員角色、崗位職責、管理流程等。
1.2 元數據管理工具
元數據管理工具,可以了解數據資產分布及產生過程,工具具備如下功能:
- 元數據采集
- 異構環境,支持傳統關系型數據庫和大數據平台中采集從數據產生系統到數據加工處理系統到數據應用報表系統的全量元數據。包括過程中的數據實體(系統、庫、表、字段的描述)以及數據實體加工處理過程中的邏輯。
- 自動化方式,比如用戶維護好數據源連接信息后,根據數據源的更新頻率,設定元數據同步周期,定時自動解析、獲取、並更新元數據信息,保證平台元數據信息及時有效。
- 元數據識別:能夠從本身不包含元數據信息的數據中提取特征,並以此識別元數據。
- 元數據分類:能夠根據業務特點和管理需要,動態分類元數據。
- 元數據展示:能夠根據類別、類型等信息展示各個數據實體的信息及分布情況,展示數據實體間的組合、依賴關系,以及數據實體加工處理上下游的邏輯關系。
- 元數據應用:利用元數據發現數據之間的關聯性,一般包括數據地圖、數據血緣分析、影響分析、全鏈分析、熱度分析等。
- 元數據搜索:可根據數據源庫、類型等搜索元數據信息。
1.3 元數據管理實際功能
元數據的管理,實現對實際對象的管理。主要包括元數據交換、元數據存儲、元數據維護、元數據質量、元數據分析。
- 元數據交換:提供元數據自動采集功能。設計原理是系統初始化定義一些內置JOB,用戶可以利用JOB實例化一些自定義任務,可用定時器進行調度。
- 元數據存儲:維護系統所管理的對象的各種元數據,比如表、接口、程序、數據交換、數據服務。
- 元數據維護:主要完成數據庫表的元數據的血緣分析及表字段間的關系,以便對系統所維護的所有數據做到溯源和影響的分析,保證數據的質量。
- 元數據質量:對系統所管理的對象的元數據進行特定的質量稽核,並生成稽核報告等。主要包括完整性稽核和模型對比稽核。
- 完整性稽核:對系統維護的對象(數據庫表)的重點屬性完整性進行相應稽核,如無中文注釋、無主題模型、孤立模型、無字段結構模型。
- 模型對比稽核:對比倉庫維的元數據與實際業務庫元數據之間的差異,如無數據字典、無實例對象、字段不一致。
- 元數據分析:針對系統維護的表模型和指標模型進行相似性分析,並生成稽核報告。元數據分析的稽核算法及稽核時機,通過模型相似性分析(表模型)和指標相似性分析(指標模型)這2個程序實現。
2. 數據采集與預處理
數據預處理:對數據進行挖掘以前,需要先對原始數據進行清理、集成、變換等一系列處理工作,以達到挖掘算法進行知識獲取研究所要求的最低規范和標准。
數據預處理常見方法:數據清洗、數據集成、數據變換。
2.1 數據清洗
數據清洗過程一般包括填補存在遺漏的數據值、平滑有噪聲的數據、識別或除去異常值並且解決數據不一致等問題,從而達到糾正錯誤、標准化數據格式、清除異常和重復數據等目的。
- 填充缺失值:忽略元組、人工填寫缺失值、使用一個全局常量填充缺失值、用屬性的均值填充缺失值、用同類樣本的屬性均值填充缺失值、使用最可能的值填充缺失值。
- 光滑噪音數據:噪音是被測量的變量的隨機誤差或方差。分箱、回歸、聚類。
- 數據清洗過程:包括檢測偏差與糾正偏差2個步驟。
- 檢測偏差:考察每個屬性的定義域和數據類型、每個屬性是否存在已知的依賴、每個屬性可接受的值、值的長度范圍;考察所有的值是否都落在期望的值域內、屬性之間是否存在已知的依賴、把握數據趨勢和識別異常、考察數據還要遵循唯一性規則、連續性規則和空值規則。
- 糾正偏差:
2.2 數據集成
多個不同數據源的數據合並在一起,形成一致的數據存儲。比如多個不同的數據庫合並到一個數據庫中進行存儲。
2.3 數據交換
將數據轉換成適合與挖掘的形式,通常包括平滑處理、聚集處理、數據泛化處理、規格化、屬性構造等方式。
數據交換:完成在企業內部的ERP、CRM、SCM、數據庫、數據倉庫以及其他重要的內部系統之間無縫的共享和交換數據。數據交換可以解決數據孤島問題。
前置機:信用平台有很多后台核心處理系統,需要對外提供各種接口服務。企業有業務需求,需要訪問信用平台,就會要求信用平台通過專線或硬件隔離技術將運行這個軟件的計算機連接到外部企業的外網系統上,運行這個軟件的計算機,從功能上就稱為前置機。
2.4 常用大數據采集工具
Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible、LinkedIn的Kafka。均采用分布式架構,來滿足大規模日志采集的需求。
3 數據倉庫
數據倉庫是在企業管理和決策中面向主題的、集成的、隨時間變化的、非易失性數據的集合。數據庫更像是一種過程,即對分布在企業內部各處的業務數據的整合、加工和分析的過程,而不是可以購買的一種產品。
4 ETL
ETL工具:數據抽取、轉換和裝載工具合稱為ETL工具。ETL是用來描述將數據從源端經過提取、轉換、裝入到目的端的過程。
- 抽取:將數據從各種原始的業務系統中讀取處理
- 轉換:按照預先設計好的規則將抽取的數據進行轉換,使本來異構的數據格式能統一起來
- 裝載:將轉換完的數據按計划增量或全部導入到數據倉庫中。
數據過濾
數據匯總
問題:
1、元數據如何把傳統數據庫與大數據里面的數據進行對接起來的
2、元數據存儲位置在哪里?
3、元數據維護、分析、質量如何與元數據存儲流程進行對接?
4、元數據交換怎么進行交換的?