術語解釋
數據治理過程中有一些描述特定場景的名詞,它們高度概括了治理過程活動的定義。對專業術語的理解可以幫助理解數據治理項目。在實際工作中總結的名詞意義和摘抄於成熟商業軟件的介紹,對術語的不同理解,主要是站在不同的角度管理數據引起的差異,我將主要羅列幾種幫助工程師開發治理系統和面向客戶解釋的術語描述。
1.數據治理
- 數據治理是將整個企業或組織的數據作為一種商業資產進行應用和管理的一套管理機制。
- 數據治理是對各種數據管理系統的管理。
- 數據治理是指從使用零散數據變成使用統一規范數據,從具有很少或沒有組織和流程質量到企業范圍內的數據治理,從嘗試處理數據混亂狀態到數據井井有條的一個過程。
數據治理通過建立數據標准,進行數據融合,消除數據不一致性、提高數據質量,實現數據的廣泛共享,並助力數據應用於業務、管理、決策中,使數據資產能夠充分發揮其價值。
數據管理是數據治理的基礎,數據治理是數據管理的延申,數據治理是在做好數據管理的基礎上,在經營管理中充分發揮數據價值的動態過程。
2.數據治理平台
- 數據治理平台是支撐企業或組織進行數據治理工作的信息化支撐平台,是集元數據、數據標准、數據質量、數據集成、主數據、數據資產、數據開發、數據安全等多組件於一體的一整套解決方案。
3.數據集成
- 數據集成是把多源異構的數據通過ETL整合到目標數據庫或文件系統過程。
- 數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。
數據集成的核心任務是要將互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。集成是指維護數據源整體上的數據一致性、提高信息共享利用的效率;透明的方式是指用戶無需關心如何實現對異構數據源數據的訪問,只關心以何種方式訪問何種數據。實現數據集成的系統稱作數據集成系統,它為用戶提供統一的數據源訪問接口,執行用戶對數據源的訪問請求。
數據集成可以分為下述4個層次:
1.基本數據集成
基本數據集成面臨的問題很多。
通用標識符問題是數據集成時遇到的最難的問題之一。由於同一業務實體存在於多個系統源中,並且沒有明確的辦法確認這些實體是同一實體時,就會產生這類問題。處理該問題的辦法如下。
(1)隔離。保證實體的每次出現都指派一個唯一標識符。
(2)調和。確認哪些實體是相同的,並且將該實體的各次出現合並起來。
當目標元素有多個來源時,指定某一系統在沖突時占主導地位。
數據丟失問題是最常見的問題之一,一般解決的辦法是為丟失的數據產生一個非常接近實際的估計值來進行處理。
2.多級視圖集成
多級視圖機制有助於對數據源之間的關系進行集成:底層數據表示方式為局部模型的局部格式,如關系和文件;中間數據表示為公共模式格式,如擴展關系模型或對象模型;高級數據表示為綜合模型格式。
視圖的集成化過程為兩級映射:
(1)數據從局部數據庫中,經過數據翻譯、轉換並集成為符合公共模型格式的中間視圖。
(2)進行語義沖突消除、數據集成和數據導出處理,將中間視圖集成為綜合視圖。
3.模式集成
模型合並屬於數據庫設計問題,其設計的好壞常視設計者的經驗而定,在實際應用中很少有成熟的理論指導。
實際應用中,數據源的模式集成和數據庫設計仍有相當的差距,如模式集成時出現的命名、單位、結構和抽象層次等沖突問題,就無法照搬模式設計的經驗。
在眾多互操作系統中,模式集成的基本框架如屬性等價、關聯等價和類等價可最終歸於屬性等價。
4.多粒度數據集成
多粒度數據集成是異構數據集成中最難處理的問題,理想的多粒度數據集成模式是自動逐步抽象。
數據綜合(或數據抽象)指由高精度數據經過抽象形成精度較低、但是粒度較大的數據。其作用過程為從多個較高精度的局部數據中,獲得較低精度的全局數據。在這個過程中,要對各局域中的數據進行綜合,提取其主要特征。數據綜合集成的過程實際上是特征提取和歸並的過程。
數據細化指通過由一定精度的數據獲取精度較高的數據,實現該過程的主要途徑有:時空轉換,相關分析或者由綜合中數據變動的記錄進行恢復。數據集成是最終實現數據共享和輔助決策的基礎。
4.ETL
- ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL 是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
5.數據標准
- 數據標准是指保障數據定義和使用的一致性、准確性、完整性的規范性約束。
它為分散在各系統中的數據提供一套統一的數據命名、數據定義、數據類型、賦值規則的定義基准,並通過標准評估確保數據在復雜數據環境中維持數據模型的一致性、規范性,從源頭確保數據的正確性及質量,並可以提升數據開發和數據管理的一貫性和效率。 - 為確保系統各數據庫與各功能模塊之間的數據分類、編碼及數據文件命名的系統性和唯一性,滿足系統正常高效運行以及與其他相關系統協同運作的要求,實現系統之間相互兼容、信息共享,數據庫建設時必須遵循有關的標准規范。
6.數據治理標准
- 最新治理標准文件 GBT 34960.5-2018 信息技術服務治理 第5部分 數據治理規范
7.元數據
- 元數據被定義為:描述數據的數據,對數據及信息資源的描述性信息。
元數據(Metadata)是描述其它數據的數據(data about other data),或者說是用於提供某種資源的有關信息的結構數據(structured data)。元數據是描述信息資源或數據等對象的數據,其使用目的在於:識別資源;評價資源;追蹤資源在使用過程中的變化;實現簡單高效地管理大量網絡化數據;實現信息資源的有效發現、查找、一體化組織和對使用資源的有效管理。 元數據的基本特點主要有:
a)元數據一經建立,便可共享。元數據的結構和完整性依賴於信息資源的價值和使用環境;元數據的開發與利用環境往往是一個變化的分布式環境;任何一種格式都不可能完全滿足不同團體的不同需要;
b)元數據首先是一種編碼體系。元數據是用來描述數字化信息資源,特別是網絡信息資源的編碼體系,這導致了元數據和傳統數據編碼體系的根本區別;元數據的最為重要的特征和功能是為數字化信息資源建立一種機器可理解框架。
元數據體系構建了電子政務的邏輯框架和基本模型,從而決定了電子政務的功能特征、運行模式和系統運行的總體性能。電子政務的運作都基於元數據來實現。其主要作用有:描述功能、整合功能、控制功能和代理功能。
由於元數據也是數據,因此可以用類似數據的方法在數據庫中進行存儲和獲取。如果提供數據元的組織同時提供描述數據元的元數據,將會使數據元的使用變得准確而高效。用戶在使用數據時可以首先查看其元數據以便能夠獲取自己所需的信息。
(1)業務元數據:業務元數據是定義和業務相關數據的信息,用於輔助定位、理解及訪問業務信息。業務元數據的范圍主要包括:業務指標、業務規則、數據質量規則、專業術語、數據標准、概念數據模型、實體/屬性、邏輯數據模型等。
(2)技術元數據:它可以分成結構性技術元數據和關聯性技術元數據。結構性技術元數據提供了在信息技術的基礎架構中對數據的說明,如數據的存放位置、數據的存儲類型、數據的血緣關系等。關聯性技術元數據描述了數據之間的關聯和數據在信息技術環境之中的流轉情況。技術元數據的范圍主要包括:技術規則(計算/統計/轉換/匯總)、數據質量規則技術描述、字段、衍生字段、事實/維度、統計指標、表/視圖/文件/接口、報表/多維分析、數據庫/視圖組/文件組/接口組、源代碼/程序、系統、軟件、硬件等。技術元數據一般以已有的業務元數據作為參考設計的。
(3)操作元數據:操作元數據主要指與元數據管理相關的組織、崗位、職責、流程,以及系統日常運行產生的操作數據。操作元數據管理的內容主要包括:與元數據管理相關的組織、崗位、職責、流程、項目、版本,以及系統生產運行中的操作記錄,如運行記錄、應用程序、運行作業。
(4)管理元數據:管理性元數據是元數據在信息資源管理層面上的拓展,將在信息資源管理層面推進信息資源的共建、共享、共管。在不同元數據源之間進行自動發現、映射和轉換,改進元數據的可管理性。
8.主數據
- 機構內部共享數據的單一視圖,是在各個業務系統中統一使用的基本業務數據(如人員信息、組織機構信息等業務基礎數據)。
- 它能統一商業實體定義,簡化改進商業流程並提高業務的響應速度。
9.參考數據
參考數據是增加數據可讀性、可維護性以及后續應用的重要數據。例如,你看到“性別”的這個字段,很可能是1代表男性、2代表女性。在許多企業中有這樣的約定俗成,而更多的參考數據可能記錄在開發人員和運營人員的大腦當中。但問題是一旦這些人離開,您系統里面的數據就成了一堆沒有注釋的天書。
在很多系統里面都會有這樣和那樣的數據字典。但是正是由於這些數據字典局僅限於個別系統而沒有統一標准,從一個側面間接造就了大量的數據孤島。企業為了進行更有效率的數據整合、數據共享和數據分析應用,開始嘗試對參考數據進行企業或者部門層面的整合和管理,利用參考數據集記錄系統嘗試為范圍內的IT系統中的數據庫提供統一的參考數據。
10.數據模型
- 數據模型是真實世界數據特征的抽象,用於描述一組數據的概念和定義,包括概念模型、物理模型、主題域模型(多維模型)
數據模型按不同的應用層次分成三種類型:分別是概念數據模型、邏輯數據模型、物理數據模型。
概念數據模型:
概念數據模型(Conceptual Data Model),是一種面向用戶、面向客觀世界的模型,主要用來描述世界的概念化結構,它是數據庫的設計人員在設計的初始階段,擺脫計算機系統及DBMS的具體技術問題,集中精力分析數據以及數據之間的聯系等,與具體的數據管理系統(Database Management System,簡稱DBMS)無關。概念數據模型必須換成邏輯數據模型,才能在DBMS中實現。
在概念數據模型中最常用的是E-R模型、擴充的E-R模型、面向對象模型及謂詞模型。
邏輯數據模型:
邏輯數據模型(Logical Data Model),是一種面向數據庫系統的模型,是具體的DBMS所支持的數據模型,如網狀數據模型(Network Data Model)、層次數據模型(Hierarchical Data Model)等等。此模型既要面向用戶,又要面向系統,主要用於數據庫管理系統(DBMS)的實現。
物理數據模型:
物理數據模型(Physical Data Model),是一種面向計算機物理表示的模型,描述了數據在儲存介質上的組織結構,它不但與具體的DBMS有關,而且還與操作系統和硬件有關。每一種邏輯數據模型在實現時都有其對應的物理數據模型。DBMS為了保證其獨立性與可移植性,大部分物理數據模型的實現工作由系統自動完成,而設計者只設計索引、聚集等特殊結構。
11.數據字典
數據字典是指對數據的數據項、數據結構、數據流、數據存儲、處理邏輯等進行的定義和描述。
12.代碼集
代碼集是系統定義的一組碼值的集合。(如:性別、民族)
13.代碼映射
代碼映射是只兩個代碼集中的碼值的對應關系。
14.數據項
數據元素可由若干個數據項(data item)組成,數據項是數據的不可分割的最小單位。數據項的名稱有編號、別名、簡述、數據項的長度、類型、數據項的取值范圍。數據項是數據記錄中最基本的、不可分的有名數據單位,是具有獨立含義的最小標識單位。
15.指標項
包含名稱、長度、類型是描述數據的基本單元。類似數據元,為避免與元數據混淆取的別名。
16.數據元
也稱為數據元素,是用一組屬性描述其定義、標識、表示和允許值的數據單元,在一定語境下,通常用於構建一個語義正確、獨立且無歧義的特定概念語義的信息單元。數據元可以理解為數據的基本單元,將若干具有相關性的數據元按一定的次序組成一個整體結構即為數據模型。
17.接入系統
接入系統是指提供數據源的業務系統。
18.數據源
數據源是指提供數據的源端,包括數據庫、文件系統、接口等。
19.數據開發
為實現數據的特定應用所做的數據處理工作,包括數據匯聚、數據轉換清洗、數據融合加工等。
20.數據質量
對數據的規范性、一致性、完整性、准確性、時效性的描述。
21.數據安全
數據安全是指防止數據被濫用、篡改、丟失、泄露的一套管理機制和措施。
22.數據脫敏
數據脫敏是指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護,是保證數據安全的一種措施,其他的措施包括:數據權限、日志審計等。
23.數據資產
- 數據資產是企業或組織內所有能夠產生價值的數據資源。
- 數據資產是企業或組織擁有或控制的,能給企業及組織帶來未來經濟利益的數據資源。
24.數據資產管理
數據治理 + 數據共享
25.數據資源目錄
數據資源目錄是指數據資源的分類。
26.數據血緣
數據血緣關系是指數據在產生、處理、流轉到消亡過程中,數據之間形成的一種類似於人類社會血緣關系的關系。