数据治理-术语解释


术语解释


数据治理过程中有一些描述特定场景的名词,它们高度概括了治理过程活动的定义。对专业术语的理解可以帮助理解数据治理项目。在实际工作中总结的名词意义和摘抄于成熟商业软件的介绍,对术语的不同理解,主要是站在不同的角度管理数据引起的差异,我将主要罗列几种帮助工程师开发治理系统和面向客户解释的术语描述。

1.数据治理

  • 数据治理是将整个企业或组织的数据作为一种商业资产进行应用和管理的一套管理机制。
  • 数据治理是对各种数据管理系统的管理。
  • 数据治理是指从使用零散数据变成使用统一规范数据,从具有很少或没有组织和流程质量到企业范围内的数据治理,从尝试处理数据混乱状态到数据井井有条的一个过程。

数据治理通过建立数据标准,进行数据融合,消除数据不一致性、提高数据质量,实现数据的广泛共享,并助力数据应用于业务、管理、决策中,使数据资产能够充分发挥其价值。
数据管理是数据治理的基础,数据治理是数据管理的延申,数据治理是在做好数据管理的基础上,在经营管理中充分发挥数据价值的动态过程。

2.数据治理平台

  • 数据治理平台是支撑企业或组织进行数据治理工作的信息化支撑平台,是集元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据开发、数据安全等多组件于一体的一整套解决方案。

3.数据集成

  • 数据集成是把多源异构的数据通过ETL整合到目标数据库或文件系统过程。
  • 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。实现数据集成的系统称作数据集成系统,它为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。
数据集成可以分为下述4个层次:
1.基本数据集成
  基本数据集成面临的问题很多。
  通用标识符问题是数据集成时遇到的最难的问题之一。由于同一业务实体存在于多个系统源中,并且没有明确的办法确认这些实体是同一实体时,就会产生这类问题。处理该问题的办法如下。
  (1)隔离。保证实体的每次出现都指派一个唯一标识符。
  (2)调和。确认哪些实体是相同的,并且将该实体的各次出现合并起来。
  当目标元素有多个来源时,指定某一系统在冲突时占主导地位。
  数据丢失问题是最常见的问题之一,一般解决的办法是为丢失的数据产生一个非常接近实际的估计值来进行处理。
  2.多级视图集成
  多级视图机制有助于对数据源之间的关系进行集成:底层数据表示方式为局部模型的局部格式,如关系和文件;中间数据表示为公共模式格式,如扩展关系模型或对象模型;高级数据表示为综合模型格式。
  视图的集成化过程为两级映射:
  (1)数据从局部数据库中,经过数据翻译、转换并集成为符合公共模型格式的中间视图。
  (2)进行语义冲突消除、数据集成和数据导出处理,将中间视图集成为综合视图。
  3.模式集成
  模型合并属于数据库设计问题,其设计的好坏常视设计者的经验而定,在实际应用中很少有成熟的理论指导。
  实际应用中,数据源的模式集成和数据库设计仍有相当的差距,如模式集成时出现的命名、单位、结构和抽象层次等冲突问题,就无法照搬模式设计的经验。
  在众多互操作系统中,模式集成的基本框架如属性等价、关联等价和类等价可最终归于属性等价。
  4.多粒度数据集成
  多粒度数据集成是异构数据集成中最难处理的问题,理想的多粒度数据集成模式是自动逐步抽象。
  数据综合(或数据抽象)指由高精度数据经过抽象形成精度较低、但是粒度较大的数据。其作用过程为从多个较高精度的局部数据中,获得较低精度的全局数据。在这个过程中,要对各局域中的数据进行综合,提取其主要特征。数据综合集成的过程实际上是特征提取和归并的过程。
  数据细化指通过由一定精度的数据获取精度较高的数据,实现该过程的主要途径有:时空转换,相关分析或者由综合中数据变动的记录进行恢复。数据集成是最终实现数据共享和辅助决策的基础。

4.ETL

  • ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

5.数据标准

  • 数据标准是指保障数据定义和使用的一致性、准确性、完整性的规范性约束。
    它为分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则的定义基准,并通过标准评估确保数据在复杂数据环境中维持数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升数据开发和数据管理的一贯性和效率。
  • 为确保系统各数据库与各功能模块之间的数据分类、编码及数据文件命名的系统性和唯一性,满足系统正常高效运行以及与其他相关系统协同运作的要求,实现系统之间相互兼容、信息共享,数据库建设时必须遵循有关的标准规范。

6.数据治理标准

  • 最新治理标准文件 GBT 34960.5-2018 信息技术服务治理 第5部分 数据治理规范

7.元数据

  • 元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。
    元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有:
    a)元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;
    b)元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
    元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。
    由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
    (1)业务元数据:业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问业务信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。
    (2)技术元数据:它可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。技术元数据一般以已有的业务元数据作为参考设计的。
    (3)操作元数据:操作元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的操作数据。操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业。
    (4)管理元数据:管理性元数据是元数据在信息资源管理层面上的拓展,将在信息资源管理层面推进信息资源的共建、共享、共管。在不同元数据源之间进行自动发现、映射和转换,改进元数据的可管理性。

8.主数据

  • 机构内部共享数据的单一视图,是在各个业务系统中统一使用的基本业务数据(如人员信息、组织机构信息等业务基础数据)。
  • 它能统一商业实体定义,简化改进商业流程并提高业务的响应速度。

9.参考数据

参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。
在很多系统里面都会有这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部门层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统一的参考数据。

10.数据模型

  • 数据模型是真实世界数据特征的抽象,用于描述一组数据的概念和定义,包括概念模型、物理模型、主题域模型(多维模型)

数据模型按不同的应用层次分成三种类型:分别是概念数据模型、逻辑数据模型、物理数据模型。
概念数据模型:
概念数据模型(Conceptual Data Model),是一种面向用户、面向客观世界的模型,主要用来描述世界的概念化结构,它是数据库的设计人员在设计的初始阶段,摆脱计算机系统及DBMS的具体技术问题,集中精力分析数据以及数据之间的联系等,与具体的数据管理系统(Database Management System,简称DBMS)无关。概念数据模型必须换成逻辑数据模型,才能在DBMS中实现。
在概念数据模型中最常用的是E-R模型、扩充的E-R模型、面向对象模型及谓词模型。
逻辑数据模型:
逻辑数据模型(Logical Data Model),是一种面向数据库系统的模型,是具体的DBMS所支持的数据模型,如网状数据模型(Network Data Model)、层次数据模型(Hierarchical Data Model)等等。此模型既要面向用户,又要面向系统,主要用于数据库管理系统(DBMS)的实现。
物理数据模型:
物理数据模型(Physical Data Model),是一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构,它不但与具体的DBMS有关,而且还与操作系统和硬件有关。每一种逻辑数据模型在实现时都有其对应的物理数据模型。DBMS为了保证其独立性与可移植性,大部分物理数据模型的实现工作由系统自动完成,而设计者只设计索引、聚集等特殊结构。

11.数据字典

数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行的定义和描述。

12.代码集

代码集是系统定义的一组码值的集合。(如:性别、民族)

13.代码映射

代码映射是只两个代码集中的码值的对应关系。

14.数据项

数据元素可由若干个数据项(data item)组成,数据项是数据的不可分割的最小单位。数据项的名称有编号、别名、简述、数据项的长度、类型、数据项的取值范围。数据项是数据记录中最基本的、不可分的有名数据单位,是具有独立含义的最小标识单位。

15.指标项

包含名称、长度、类型是描述数据的基本单元。类似数据元,为避免与元数据混淆取的别名。

16.数据元

也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。

17.接入系统

接入系统是指提供数据源的业务系统。

18.数据源

数据源是指提供数据的源端,包括数据库、文件系统、接口等。

19.数据开发

为实现数据的特定应用所做的数据处理工作,包括数据汇聚、数据转换清洗、数据融合加工等。

20.数据质量

对数据的规范性、一致性、完整性、准确性、时效性的描述。

21.数据安全

数据安全是指防止数据被滥用、篡改、丢失、泄露的一套管理机制和措施。

22.数据脱敏

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,是保证数据安全的一种措施,其他的措施包括:数据权限、日志审计等。

23.数据资产

  • 数据资产是企业或组织内所有能够产生价值的数据资源。
  • 数据资产是企业或组织拥有或控制的,能给企业及组织带来未来经济利益的数据资源。

24.数据资产管理

数据治理 + 数据共享

25.数据资源目录

数据资源目录是指数据资源的分类。

26.数据血缘

数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM