數據治理概況
**本人博客網站 **IT小神 www.itxiaoshen.com
數據治理背景
企業數據治理現狀普遍存在缺乏統一的數據視圖、安全的數據環境、數據價值管理體系,同時也容易形成數據孤島,出現數據質量低下常見現象;數據治理不是一蹴而就的而是一項繁雜、長期需要工匠精神和鍥而不舍的工作,沒有一針頂破天的訣竅,也沒有立竿見影的途徑。只有將數據治理變成一種常態化機制,形成一種習慣、一種文化、持之以恆、不忘初心、不懈努力,才能達到預期目標。
廣義上講,數據治理是對數據的全生命周期進行管理,包含數據采集、清洗、轉換等傳統數據集成和存儲環節的工作、同時還包含數據資產目錄、數據標准、質量、安全、數據開發、數據價值、數據服務與應用等,整個數據生命期而開展開的業務、技術和管理活動都屬於數據治理范疇。數據治理專注於將數據作為企業數據資產進行應用和管理的一套管理機制,能夠消除數據的不一致性,建立規范的數據應用標准,提高數據質量,實現數據內外部共享,並能夠將數據作為企業或組織的寶貴資產應用於業務、管理、戰略決策中,發揮數據資產價值。數據治理的發展是伴隨着不同行業對數據資源資產化、數據確權與合規、數據價值創造與共享、隱私保護的認識、研究和實踐的一個演進過程,目前,隨着數據治理理論體系的逐步完善,技術方法和工具的日趨成熟,數據治理被越來越多的企業學習了解和實際應用。
依據國家關於加強數字化改革對數據開發利用數字化轉型的企業推進落實數據治理;數據治理正在逐步形成為業界的共識,數據治理涵蓋數據發現可用、數據及時穩定產出、數據質量保障、數據安全合規、數據生產的經濟性,根據所處在數據治理的階段不同,數據治理關注的核心需求也存在差異,數據治理管理過程最簡單最通俗的就是利用組織、制度、流程和工具將信安系統的數據轉換為有用的信息的過程。
數據治理目標
首先要清楚不是為了數據治理而進行數據治理,分別從數據治理業務目標和管理目標來賦能的企業價值。
數據治理的業務目標在保障數據安全的前提下,明確數據指標和數據應用,依托於企業數據治理可以為企業的應用決策提供全方位的支撐,實現業務賦能以及提升企業數據的價值。
數據治理的管理目標是提高數據的質量(准確性、及時性、完整性、唯一性、一致性,有效性),確保數據的安全性(保密性、完整性及可用性),提供安全保障,滿足風險控制和國家監管機構的監管要求,實現數據資源在企業系統的共享,推進數據資源的整合、服務和共享,從而企業系統的信息化管理水平,為充分發揮數據資產核心價值提供強有力的基礎支撐。
明確企業數據治理范圍
企業圍繞着自身數據不僅限於內部管理數據、業務數據、用戶數據、研發技術和專利數據等開展數據治理工作,可通過企業數據調研入手。
數據治理落地實施和同行面試基礎
數據治理整體流程
數據治理框架從原則、范圍、實施與評估並層層深入層層展開;通過數據治理實施技術工具,可以讓數據質量變得更好,發掘數據資產的商業價值,數據治理是一個管理體系構建過程,分別從組織、制度、流程、工具四個維度協調展開。
組織維度建設
建立合適的數據治理組織是企業數據治理的關鍵。數據治理的組織建設一般包括組織架構設計、部門職責、人員編制、崗位職責及能力要求、績效管理等內容。數據治理是一項需要企業通力協作的工作,而有效的組織架構是企業數據治理能夠成功的有力保障。為達到數據戰略目標,非常有必要建立體系化的組織架構,明確職責分工,建立數據組織是保障數據治理能夠長期有效的重要手段之一,數據組織都是可以跨職責的,組織的職能和分類如下:
- 數據治理委員會,在公司內部擁有數據的最高決策權,代表了企業的高層視角。
- 數據管理指導委員會,為數據委員會提供支持,針對一些具體數據管理措施起草相關政策和標准,提供委員會評審和批准。
- 數據管理制度團隊,在某個業務領域內,協助完成數據制度管理的數據管理專員小組,數據管理制度團隊來着不同的部門和跨業務領域的數據專家。
制度維度建設
企業的數據治理必須要有相關制度,否則無法可依,再好的技術工具也沒有用。因此建立完善的數據治理制度很重要。
保障組織架構正常運轉和數據治理各項工作的有序實施,需要建立一套涵蓋不同管理粒度、不同適用對象,異覆蓋數據治理過程的管理制度體系,從“法律”層面保障數據治理工作有據、可行、可控。數據治理制度框架分為政策、制度、細則、手冊4個梯次,企業的數據治理制度通常根據企業的IT制度的總體框架和指導原則制定,通常包含數據質量管理、數據標准管理、數據安全管理、數據績效管理等制度,以及元數據管理、主數據管理、交易數據管理、數據指標管理等辦法及若干指導手冊。
流程維度建設
制定數據治理的流程框架也是數據治理的重要工作;廣義上講,數據治理流程是對數據的全生命周期進行管理,包含數據采集、存儲、處理、使用、共享、銷毀等,同時還包含數據資產目錄、元數據管理、主數據管理、數據指標管理、數據標准、數據質量、數據安全、數據開發、數據價值、數據服務與應用等,整個數據生命期而開展開的業務、技術和管理活動所遵循的活動步驟進行治理。
工具維度建設
功能架構
數據治理需要多種數據治理工具軟件的支撐,提供數據采集、治理、建模、分析,應用,使數據對內優化管理賦能業務,對外可以數據合作價值釋放,成為企業數據資產管理和服務中樞。數據治理工作從輔助數據接入整合能力、數據共享應用能力、數據綜合管理能力、基礎組件支撐能力四方面全面建設數據能力和培育能力體系,實現數據接入、存儲計算、數據分析、數據服務、數據資產管理、運營管理等功能,以多類型大數據量的匯聚為基礎,以統一模型為標准,為前端應用提供靈活的統一數據服務。數據治理需要多種數據治理工具軟件的支撐,包括以主數據為核心的必要軟件、以數據資產目錄為核心的數據資源管理工具、以元數據和數據模型為核心的數據中台,此外還有時序數據、數據交換等。這些工具互有側重,需要根據實際需求予以剪裁。
“無治理、不分析”,沒有高質量的數據,就不會有可信的AI。數據治理是人工智能基礎,能夠為人工智能提供高質量的數據輸入。而人工智能是一種技術,它不僅僅是在數據應用端產生作用,在數據的管理端同樣需要人工智能,有了人工智能加持,數據治理將變得更加高效和智能,結合人工智能技術在數據采集、數據建模、元數據管理、主數據管理、數據標准、數據質量及數據安全等領域提供更為深入高效的應用。
數據治理平台用於落實數據管理體系,實現數據管理自動化,提高數據管理效率,確保數據質量、實現安全數據共享,數據治理工具總體功能架構包含工作流管理、數據架構工具、數據發現、數據標准管理、數據模型管理、數據指標管理工具、主數據管理、元數據管理、數據質量管理、數據地圖、數據血緣、數據安全、數據共享與發布、數據生命周期。
工作流管理
- 提供數據批量全量采集、批量增量采集、實時采集功能。
- 提供數據流式加工處理、批量加工處理功能。
- 提供數據加工項目管理、加工任務調度、任務監控、任務運維、告警通知等功能。
數據發現
通過部署數據發現系統,支持串接和旁路的流量網絡監測發現梳理企業數據分布,包括以下內容:
- 結構化數據發現:數據庫內容進行表單的自動發現。
- 半結構化和非結構化數據發現:文件系統的半結構化和非結構化數據自動發現。
數據標准管理
整理業務規則,統一數據定義;提供標准模型及數據標准的創建、發布、修改、應用、注銷、查詢等功能。
建立規范的數據標准,消除跨系統的非一致性問題,包括標准定義、標准查詢、標准發布等功能,數據標准是實現數據標准化、規范化的前提,是保證數據質量的必要條件。數據標准一般分為元數據標准、主數據標准、交易數據標准、數據指標標准、數據分類標准、數據編碼標准、數據集成標准等內容。數據標准管理是規范數據標准的內容、程序和方法的活動,分為標准制定、標准實施和控制、標准修訂等。
數據標准建設提供全面完整的數據標准管理流程及辦法,用於決定和建立單一、准確、權威的事實來源,實現台數據的完整性、有效性、一致性、規范性、准確性、開放性和共享性管理,並為數據質量檢查、數據安全管理提供標准依據。預置數據標准的規則。
- 標准管理功能要求如下:
- 維度統一:包括維度名稱,別名,描述,數據類型,呈現格式等標准。
- 度量統一:包括度量名稱,別名,描述,數據類型,呈現格式等標准。
- 指標統一:包括指標名稱,別名,描述,數據類型,呈現格式等標准。
- 邏輯表統一:包括邏輯表的表名稱,別名,描述及表字段名稱,別名,業務含義的定義標准規范。
- 物理表統一:包括物理表的表名稱,別名,描述及表字段的數據類型,數據長度,業務含義的定義標准規范。
- 數據標准管理工具
- 標准生成:支持按照業務領域、業務主題、信息分類、信息項等生成標准細則;
- 標准映射:支持將制定的標准與實際數據進行關聯映射,即實現數據標准的落地執行,維護標准與元數據之間的落地映射關系,包括元數據與數據標准的映射、元數據與數據質量的映射,以及數據標准和數據質量的映射,能提供在線的手工映射配置功能,並能對映射結果做頁面展示;
- 映射查詢:具備查詢標准項與元數據之間的落地情況,並提供下載功能;
- 維護標准:具備對標准狀態進行管理;
- 標准導出:具備按照當前系統中發布的最新標准或者選擇版本來下載標准信息;
數據模型管理
確認影響業務的關鍵數據指標,完整表達業務主體的數據相關性,良好的規則模型管理是企業數據資產管理成功的重要因素。
主數據管理
-
提供主數據創建、發布、分發、變更、注銷等管理功能。
-
通過規范主數據獲取、管理與應用,最優化管理和使用企業黃金數據。主數據申請、主數據發布、主數據分發等功能。
-
主數據治理平台是企業數據規划、數據標准落地的載體,實現數據治理統一標准、統一規則的支撐;主數據治理平台是有效實施主數據、元數據、數據指標管理,提供規范統一的主數據服務的平台;主數據治理平台是實現數據從產生到應用,分層協同、全面治理的核心。主數據管理對需要共享的數據建立統一視圖和集中管理,為各業務系統數據調用提供黃金數據。
-
主數據管理工具是主數據全生命周期管理的平台,也是主數據標准、運維體系落地的重要保障。從主數據標准管理、主數據代碼管理、主數據清洗校驗、主數據生命周期管理、主數據質量管理、主數據應用評價、主數據全景圖,主數據應用需求管理、業務需求等。
元數據管理
-
提供元模型的創建、發布、修改、刪除、查詢等管理功能以及元數據同步、導入、導出、修改、發布、刪除、查詢等管理功能。
-
自動采集元數據,生成數據影響力分析、血緣圖譜和全鏈路分析,為數據管理提供關鍵驅動力。包括元數據采集、血緣分析、影響分析等功能。
-
元數據管理內置豐富的采集適配器,端到端的自動化采集,一鍵元數據分析,快速理清數據資源,了解數據來龍去脈,構建數據地圖,為數據標准建設和數據質量提供基礎支撐。
- 技術元數據:庫表結構、字段約束、數據模型、ETL程序、SQL程序等。
- 業務元數據:業務指標、業務代碼、業務術語等。
- 管理元數據:數據所有者、數據質量定責、數據安全等級等。
數據質量管理
- 提供數據質量規則管理、數據稽核任務管理和數據質量報告管理等功能。
- 獲得干凈、結構清晰的數據,提升數據價值含量。包括質量規則定義、質量檢查、質量報告等功能,數據質量是指數據的適用性,描述數據對業務和管理的滿意度。數據質量主要指數據的准確性、及時性、完整性、唯一性、一致性,有效性六個方面。數據質量管理是對數據的分析、監控、評估和改進的過程。包括規划和實施質量管理技術,以測量、評估和提高數據在組織內的適用性,提高數據對業務和管理的滿足度。重點關注數據質量需求、數據質量檢查、數據質量分析和數據質量提升的實現能力。
- 數據質量管理以數據標准為數據檢核依據,以元數據為數據檢核對象,通過向導化、可視化等簡易操作手段,將質量評估、質量檢核、質量整改與質量報告等工作環節進行流程整合,形成完整的數據質量管理閉環。
- 針對數據接入、存儲、共享、維護、分發共享、消亡等整個生命周期的每個階段里可能引發的各類數據質量問題,具備識別、度量、監控、預警等一系列管理功能,使得數據質量獲得進一步提高。
數據安全管理
-
數據安全管理不僅限於數據分類分級、基於RABC屬性級別的數據權限管理、敏感數據保護、合規要求,對數據分類分級進行自動化識別。
- 針對結構化數據:能夠根據輸入的數據識別判斷規則配置,對數據進行自動化分類,根據國家、地方、行業積累分級規則和依據初步定級。
- 針對非結構化數據:能夠根據輸入的規則配置快速識別系統數據、用戶數據、業務數據、應用數據,對數據進行自動化分類,根據國家、地方、行業積累分級規則和依據初步定級。
-
從國家的法規來評估系統的安全風險,從而制定相應制度和策略;從技術層面上講,保證數據在采集、傳輸、存儲的安全性,比如在傳輸過程中使用SSL協議加密或者在數據存儲過程中使用了相應的訪問控制策略等等;應用層面上,我們需要對訪問的數據加以控制,比如可以設計基於RBAC的訪問控制模型,那資源就只能被擁有某個權限的角色對應的用戶才能訪問;整個安全上我們希望通過制度、流程、手段、工具、產品的方式做到“事前可管、事中可控、事后可查"。
-
通過感知危險、防范泄露、管理權限、數據容災,確保數據資產的安全性。數據安全管理是為了確保數據隱私和機密性得到維護,數據不被破壞,數據被適當訪問。通過采用各種技術和管理措施,保證數據的機密性、完整性和可用性。數據安全體系框架通過3個維度構建而成,包括政策法規、技術層面和安全組織人員。數據安全治理體系框架在符合政策法規及標准規范的同時,需要在技術上實現對數據的實時監管,並配合經過規范培訓的安全組織人員,構成了數據安全治理整體架構的建設。數據安全治理能力建設並非單一產品或平台的構建,而是建設一個覆蓋數據全部生命周期和使用場景的數據安全體系,需要從決策到技術,從制度到工具,從組織架構到安全技術通盤考慮。
-
數據安全管理貫穿於數據治理全過程,提供對隱私數據的加密、脫敏、模糊化處理、數據庫授權監控等多種數據安全管理措施,全方位保障數據的安全運作。
數據資產地圖
- 數據資產地圖可以明確知道有哪些數據資產、數據資產分布在哪、數據資產的質量情況、數據資產的使用情況等。
- 有效構建並管理整體數據資產內容,快速查詢不同數據存儲位置、數據類別、數據級別,並能快速進行搜索展示。
- 提供事實表、維度表、匯總表等數據模型創建、指標設計、指標洞察分析等功能;提供數據可視化設計開發功能;有效構建並管理整體數據資產內容,快速查詢不同數據存儲位置、數據類別、數據級別,並能快速進行搜索展示。
- 數據資產地圖可以幫助我們更好的支撐各種數據的應用,豐富的服務接口拓展,支撐數據資產的多渠道應用,如數據共享、決策支持等,最終實現數據資產價值最大化。
- 通過對元數據的加工,可以形成數據資產地圖等應用。數據資產地圖一般用於在宏觀層面組織信息,以全局視角對信息進行歸並、整理,展現數據量、數據變化情況、數據存儲情況、整體數據質量等信息,為數據管理部門和決策者提供參考。
數據血緣
提供數據血緣分析、數據血緣展示、數據血緣查詢等功能。
數據應用
- 建立數據倉庫包括關系型數據庫數倉和分布式數倉。
- 建立計算引擎包括離線計算和流計算兩部分組成,計算引擎是共享層平台提供的基礎數據處理分析能力。
- 數據預處理完成導入的源數據數據校驗、清洗和脫敏的過程,解決重復,不完整、錯誤和噪聲的源數據問題,通過改進數據的質量,提高后續數據分析的效率、精度和性能。
- 建模分析通過數據處理分析,實現對導入的數據進行預處理和建模分析等功能,具備輸出通用數據計算結果和基礎模型展現等功能。
- 數據治理應用行業如金融、醫療、政務、運營商、
數據共享交換
- 提供數據發布接口設計、數據共享交換功能。
- 數據交換服務將若干個業務子系統之間進行數據或者文字的傳輸和共享,提高信息資源的利用率,集數據采集、處理分發、交換傳輸於一體,輕松玩轉企業級數據交換作業。
- 數據共享平台如支持通過文件接口、查詢接口等方式,共享數據給各應用系統。
數據價值管理
數據價值可以圍繞成本和應用價值兩方面來展開,強調數據生產經濟性比如成本包括了你采集、存儲、傳輸、運維方面的成本,這是可以計算出來,而它的價值方面可以通過他使用的分類、頻次、對象和產生的收益效果來評估。
全生命周期管理
- 提供數據生命周期管理、數據下線、數據銷毀、任務管理等功能。
- 數據生命周期記錄數據從創建和初始存儲,到它過時被刪除的整個流動過程,對數據進行近線歸檔、離線歸檔、銷毀和全生命周期監控。
- 包括數據歸檔、數據銷毀等功能,搭建雲數智一體化數據平台,滿足前台應用准確性、快速性和多樣性的數據需求,縮短研發周期、降低技術成本,將數據中心逐步由成本中心向資產中心轉變,提升數據價值,實現五個打通:
- 橫向打通:破除部門壁壘,打通專業。橫向跨專業間的分析挖掘融通;
- 縱向打通:內部多層級數據打通,形成統一資源目錄。上下級數據共享交換;
- 內外打通:消除內外數據的鴻溝,實現內外部數據的關聯分析;
- 管理打通:建立企業標准,實現統一管理統計口徑;
- 服務打通:數據中台統一對外提供數據服務和應用構建,與業務系統和數據應用充分協同。
- 面向數據全生命周期,提供的一站式數據規划、集成、開發、治理、服務、應用等產品。數據平台能力框架:5個維度(采、聚、理、用、保),7個功能層次。