dataworks可以帮助企业完成 数据集成、数据开发、数据治理、数据服务,将大数据全生命周期管理整合到一条完整链路中。
(一)一条数据开发链路
首先满足企业数据打通的需求。DataWorks 数据集成能够在复杂网络条件下,打通 各个异构数据源的传输通道,实现近 50 种异构数据源的离线/实时的同步,且支持线下 数据库批量同步到云上,提高数据上云效率,让企业更好地迈出大数据建设的“第一步”。
其次,DataWorks 底层对接了 MaxCompute、E-MapReduce、CDH、Hologres、 AnalyticDB、实时计算 Flink 版等大数据引擎,让多种计算引擎的数据开发治理工作都可 以在同一个平台一站式的完成。在 DataWorks 上,开发人员可以通过 DAG 图拖拽节点 的方式开发数据节点,按照企业业务流程设计编排数据任务节点依赖关系,对数据进行 一站式地抽取、处理、转换后产出业务所需的结果表。
开发好的任务可以发布到运维中心定时自动调度运行,DataWorks 强大的任务调度 能力可以提供每日千万级的大规模、周期性任务的调度,经历多年“双 11”千万级调度 考验,能够满足企业数据任务稳定产出的需求,保障数据生产的时效性与稳定性。在任 务运维上,DataWorks 提供了数据发现、数据安全、数据质量、智能监控、资源优化等 丰富的功能,可以很大程度上降低企业任务运维的难度和成本。
最后,大数据平台加工好的数据集可以无缝对接到机器学习平台中进行 AI 训练与在 线预测服务,也可以通过数据服务以 API 形式零代码实现数据分享,在保证安全的情况 下,去进行不同部门或者不同业务、不同应用间的数据共享,支撑 BI、大屏等各类数据 应用,而“低代码化”的数据分析和数据服务化工具可以帮助业务人员快速从数据中获 得商业洞察。
(二)一套数据标准架构
对于企业而言,数据绝不是简单地堆积在一起,阿里巴巴通过数据中台建设,规范 了集团统一的数据标准架构,将数据进行清晰的结构分层,每一层又有明确的范围与边 界。在贴源层,企业将完成全域数据的汇聚,保留所有的原始数据。在整合层,企业通 过数据标准、数据建模等方式确立数据的规范体系。在汇总层,企业将基于业务需求对 数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务应用构建数据集市, 为应用提供源源不断的高质量数据服务。这一套架构本身不具备产品化能力,但企业可 以基于 DataWorks,快速复制这套数据标准架构。
(三)一套数据治理体系
企业如何管理数据资产?如何保障数据质量?如何保障数据安全?如何有效地控制 成本以及减少不必要浪费?这些问题都对数据治理提出了更高的要求。正常来讲,各类 数据治理工作通过人工的方式其实也能够完成,但是阿里巴巴现在每天处理 EB 级的数 据,每天调度的任务数在千万级,很难想象靠人工来完成所有的治理工作。DataWorks 将阿里巴巴十多年数据治理的实践沉淀成产品化能力,完整覆盖模型设计、数据质量管 理、元数据管理、安全管理等贯穿数据加工处理和使用的全链路所需的治理能力。一个 平台,就具备一套完整的体系化的能力。
此外,DataWorks 数据建模产品能力,可以让企业从业务视角进行数仓规划、数据 标准定义、维度建模和数据指标设计,用规范化的“图纸”指导大数据“建设”工作, 提升企业数据中台建设的规范性和标准性,大大降低企业数据中台建设门槛和成本。 DataWorks 将持续加大与生态伙伴合作,推出具备不同行业属性和不同建模方法的数据 建模类产品,以支撑不同行业不同场景的数仓模型设计。