大家好,我是独孤风,一名曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动作者。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。
数据治理需要进行系统的学习才能真正掌握,也需要进行专业的考试认证才能证明自己在数据治理方面的学习能力和知识掌握情况。如果对数据治理和数据治理认证CDMP有疑问的话,可以参考我之前的文章,有详细的介绍。
5000字详解数据治理如何入门(附国际数据治理认证考试-CDMP学习群)
到底什么是CDMP——数据治理国际认证超全面介绍
正文共: 7958字 7图
预计阅读时间: 20分钟
本文档基于数据治理相关学习资料整理,为数据治理专业认证CDMP的学习笔记(思维导图与知识点)整理。
文章较长,建议收藏后阅读。
后续的文档请关注公众号 大数据流动,会持续的更新~
本文档为元数据管理部分,共分为5个部分。
由于页面显示原因,部分层级未能全部展开。结构如下图所示。
一、元数据管理概述
元数据 metadata:定义和描述其它数据的数据。
元数据是定义和描述其他数据的数据。这意味着元数据是数据,当数据以这种方式来使用时,就成了元数据。只有在特定的环境下、出于特定的目的或从特定的角度来看,数据才成为元数据。
数据用作元数据的环境、目的或角度的集合称为语境。因此,在一定的语境中,元数据就是关于数据的数据。由于元数据也是数据,因此,元数据可以存储在数据库中,并通过模型来组织。一些模型仅适用于特定的应用,其他一些则更通用。
描述元数据的模型常常被称为元模型。在这个意义上,GB/T 18391. 3 介绍的概念模型是一个元模型。
元数据:包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、 软件代码、技术基础设施),数据与概念之间的联系(关系)。
元数据管理提供了获取和管理组织数据的主要方法。
元数据管理不仅是知识管理面临的一个挑战,还是风险管理的一个必要条件。
元数据管理的语境关系图:
如果没有可靠的元数据,组织就不知道拥有什么数据,数据表示什么,数据来自何处,它如何在系统中流转,谁有权访问它。
活动:
1.定义元数据战略。
2.理解元数据需求。(1)业务人员需求。(2)技术人员需求。
3.定义元数据架构。(1)创建元模型。(2)应用元数据标准。(3)管理元数据存储。
4.创建和维护元数据。(1)整合元数据。(2)分发和传递元数据。
5.查询、报告和分析元数据。
目标:
1)记录和管理与数据相关的业务术语的知识体系,以确保理解和使用数据内容的一致性。
2)收集和整合来自不同来源的元数据,以确保了解来自不同部门的数据的相似与差异。
3)确保元数据的质量、一致性、及时性和安全。
4)提供标准途径,使元数据使用者可以访问元数据。
5)推广或强制使用技术元数据标准,以实现数据交换。
原则:
1)组织承诺。将数据作为企业资产进行管理。
2)战略。战略能推动需求,要与业务优先级保持一致。
3)企业视角。确保未来的可扩展性。
4)潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助。5)访问。确保员工了解如何访问和使用元数据。
6)质量。所以流程所有者应对元数据的质量负责。
7)审计。指定、实施、审核元数据标准。
8)改进。创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队。
业务驱动因素:良好的元管理有助于:
1)通过提供上下文语境和执行数据质量检查提高数据的可信度。2)通过扩展用途增加战略信息(如主数据)的价值。
3)通过识别冗余数据和流程提高运营效率。
4)防止使用过时或不正确的数据。
5)减少数据的研究时间。
6)改善数据使用者和 IT 专业人员之间的沟通。
7)创建准确的影响分析,从而降低项目失败的风险。
8)通过缩短系统开发生命周期时间缩短产品上市时间。
9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响。
10)满足监管合规。
管理不善容易导致以下问题:1)冗余的数据和数据管理流程。2)重复和冗余的字典、存储库和其他元数据存储。3)不一致的数据元素定义和与数据滥用的相关风险。4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。5)怀疑元数据和数据的可靠性。
为方便理解,整理本部分思维导图如下:
二、基本概念
1、元数据和数据
如何在元数据和非元数据之间划分界限?从经验来说,一个人的元数据,可能是另一个人的数据。
不应担心理论上的区别,而重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据。
2、元数据的类型
元数据的类型:业务元数据、技术元数据和操作元数据。
在图书馆或信息科学中,可分为描述元数据、结构元数据、管理元数据。
业务元数据(Business Metadata):主要关注数据的内容和条件,另包括与数据治理相关的详细信息。
业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
示例:1)数据集、 表和字段的定义和描述。
2)业务规则、转换规则、计算公式和推导公式。
3)数据模型。
4)数据质量规则和检核结果。
5)数据的更新计划。
6)数据溯源和数据血缘。
7)数据标准。
8)特定的数据元素记录系统。
9)有效值约束。
10)利益相关方联系信息(如数据所有者、数据管理专员)。11)数据的安全/隐私级别。
12)已知的数据问题。
13)数据使用说明。
技术元数据(Technical Metadata):提供有关数据的技术细节、存储数据的系统以及在系统内 和系统之间数据流转过程的信息。
示例:1)物理数据库表名和字段名。
2)字段属性。
3)数据库对象的属性。
4)访问权限。
5)数据 CRUD(增、删、改、查)规则。
6)物理数据模型,包括 数据表名、键和索引。
7)记录数据模型与实物资产之间的关系。
8)ETL 作业详细信息。
9)文件格式模式定义。
10)源到目标的映射文档。
11)数据血缘文档,包括上游和下游变更影响的信息。
12)程序和应用的名称和描述。
13)周期作业(内容更新)的调度计划和依赖。
14)恢复和备份规则。
15)数据访问的权限、组、角色。
操作元数据(Operational Metadata):描述了处理和访问数据的细节,
例如:1)批处理程序的作业执行日志。
2)抽取历史和结果。
3)调度异常处理。
4)审计、平衡、控制度量的结果。
5)错误日志。
6)报表和查询的访问模式、频率和执行时间。
7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。8)备份、保留、创建日期、灾备恢复预案。
9)服务水平协议(SLA) 要求和规定。
10)容量和使用模式。
11)数据归档、保留规则和相关归档文件。
12)清洗标准。
13)数据共享规则和协议。
14)技术人员的角色、职责和联系信息。
3、ISO/IEC 11179 元数据注册标准
提供了元数据注册的框架,该标准由以下几部分组成:
1、数据元素的生成和标准化框架
2、数据元数据分类
3、数据元素的基本属性
4、数据定义的形成规则和指南
5、数据元素的命名和识别原则
6、数据元素的注册
4、非结构化数据的元数据
非结构化数据的元数据:
描述元数据,如目录信息和同义关键字;
结构元数据,如标签、字段结构、特定格式;
管理元数据,如来源、更新计划、访问权限和导航信息;
书目元数据,如图书馆目录条目;
记录元数据,如保留策略;
保存元数据,如存储、归档条件和保存规则
5、元数据来源
元数据通常是作为应用程序处理的副产品而不是最终产品创建的。大多数操作元数据是在处理数据时生成的。可以对现有系统中的数据进行逆向工程,并从现有数据字典、模型和流程文档中收集业务元数据。管理数据库所需的大部分技术元数据和使用数据所需的业务元数据,可以作为项目工作的一部分进行收集和开发。为元数据本身而创建元数据很少能行得通。
元数据来源包括:
(1)应用程序中元数据存储库。
(2)业务术语表。
业务术语表的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。
业务词汇表应用程序的构建需满足三个核心用户的功能需求。
1)业务用户。2)数据管理专员。3)技术用户。
业务术语表应包含业务术语属性,例如:1)术语名称、定义、缩写或简称,以及任何同义词。2)负责管理与术语相关的数据的业务部门和/或应用程序。3)维护术语的人员姓名和更新日期。4)术语的分类或分类间的关联关系(业务功能关联)。5)需要解决的冲突定义、问题的性质、 行动时间表。6)常见的误解。7)支持定义的算法。8)血缘。9)支持该术语的官方或权威数据 来源。
(3)商务智能工具。
(4)配置管理工具。
(5)数据字典。
(6)数据集成工具。数据集成工具提供了应用程序接口(API),允许外部元数据存储库提取血缘关系信息和临时文件元数据。
(7)数据库管理和系统目录。数据库目录是元数据的重要来源,它们描述了 数据库的内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、 可用性,以及许多其他操作元数据属性。
(8)数据映射管理工具。通常也存储在整个企业的 Excel 文档中。
(9)数据质量工具。
(10)字典和目录。包含有关组织内数据的系统、源和位置的信 息。
(11)事件消息工具。
(12)建模工具和存储库。
(13)参考数据库。记录各种类型的枚举 数据(值域)的业务价值和描述
(14)服务注册。
(15)其他元数据存储。特定格式的清单,如 事件注册表、源列表或接口、代码集、词典、时空模式、空间参考、数字地理数据集的分发、存储库的存储库和业务规则。
6、元数据架构的类型
元数据也有生命周期,所有元数据管理解决方案都包含与元数据生命周期相对应的架构层次。
1、元数据创建和采集。
2、元数据在一个或多个存储库中存储。
3、元数据集成。
4、元数据交付。
5、元数据使用。
6、元数据控制和管理。
元数据架构的类型:
(1)集中式元数据架构。集中式元数据架构由单一的元数据存储库组成, 包含来自各种不同源的元数据副本。
集中式存储库的优点:1)高可用性,因为它独立于源系统。2)快速的元数据检索,因为存储库 和查询功能在一起。3)解决了数据库结构问题,使其不受第三方或商业系统特有属性的影响。4)抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。
集中式存储库的缺点:1)必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中。2)维护集中式存储库的成本可能很高。3)元数据的抽取可能需要自定义模块或中间件。4) 验证和维护自定义代码会增加对内部 IT 人员和软件供应商的要求。
(2)分布式元数据架构。维护了单一的接入点,没有持久 化的存储库,元数据检索引擎负责从源系统检索数据来响应用户请求。
分布式元数据架构的优点:1)元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的。2)查询是分布式的,可能会提高响应和处理的效率。3)来自专有系统的元数据请求仅 限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作 量。4)自动化元数据查询处理的开发可能更简单,只需要很少的人工干预。5)减少了批处理, 没有元数据复制或同步过程。
分布式元数据架构的缺点:1)无法支持用户自定义或手动插入的元数据项,因为没有存储库可 以放置这些添加项。2)需要通过统一的、标准化的展示方式呈现来自不同系统的元数据。3)查 询功能受源系统可用性的影响。4)元数据的质量完全取决于源系统。
(3)混合式元数据架构。元数据仍直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据。单向。
(4)双向元数据架构。允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。
为方便理解,整理本部分思维导图如下:
三、活动
【活动 1】定义元数据战略。
元数据战略包括定义组织元数据架构蓝图和与战略目标匹配的实施步骤。
步骤:1)启动元数据战略计划。目的是保证团队可以定义出短期和长期目标。关键利益相关方应参与计划制订。
2)组织关键利益相关方的访谈。通过访谈得到元数据战略的基础知识。
3)评估现有的元数据资源和信息架构。评估确定难度,对关键 IT 员工做进一步访谈,审查系统架构、数据模型等文档。
4)开发未来的元数据架构。优化和确认未来愿景,开发可以满足管理 现阶段元数据环境长期目标的元数据架构。这个阶段必须考虑战略组成部分,如组织架构、与数 据治理所需的管理人员一致、受控的元数据架构、元数据交付架构、技术架构和安全架构。
5) 制订分阶段的实施计划。确定结果的优先级,发布元数据战略,并定义分阶段的实施方法。
【活动 2】理解元数据需求
元数据综合解决方案由以下需求点组成:
1)更新频次。元数据属性和属性集更新的频率。
2)同步情况。数据源头变化后的更新时间。
3)历史信息。是否需要保留元数据的历史版本。
4)访问权限。通过特定的用户界面功能,谁可以访问元数据,如何访问。
5)存储结构。元数据如何通过建模来存储。
6)集成要求。元数据从不同数据源的整合程度,整合的规则。7)运维要求。更新元数据的处理过程和规则(记录日志和提交申请)。
8)管理要求。管理元数据的角色和职责。
9)质量要求。元数据质量需求。
10)安全要求。一些元数据不应公开,因为会泄露某些高度保密数据的信息。
【活动 3】定义元数据架构
元数据管理系统必须具有从不同数据源采集元数据的能力,必须支 持手工更新、请求、查询元数据和被不同用户组查询。
内容包括:
1.创建元模型。可以根据需求开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性, 描述了模型组成元素和处理过程。
2.应用元数据标准。数据治理活动应监督元数据的标准遵从情 况。
3.管理元数据存储。实施控制活动以管理元数据环境。
许多控制活动是数据操作和接口维护的标准,元数据控制活动包括:
1)作业调度和监控
2)加载统计分析
3)备份、恢复、归档、消除
4)配置修改
5)性能调优
6)查询统计分析
7)查询和报表生成
8)安全管理
质量控制活动:
1)质量保证,质量控制。
2)数据更新频率——与时间表匹配。
3)缺失元数据报告。
4)未更新的元数据报告。
元数据管理活动:
1)加载、探测、导入和标记数据资产。
2)记录与源的映射和迁移关系。
3) 记录版本。
4)用户界面管理。
5)连接数据集的元数据维护——为 NOSQL 提供支持。
6)数据与对内数据采集建立连接——自定义连接和作业元数据。
7)外部数据源和订阅源的许可。
8)数据增强元数据,如关联 GIS。
培训活动:
1)教育和培训用户和数据专员。
2)生成和分析管理指标。
3)对控制活动、查询、 报告进行培训。
【活动 4】创建和维护元数据
好的元数据不是偶然产生的,而是认真计划的结果。
元数据管理的几个一般原则:
1)责任(Accountability)。认识到元数据通常通过现有流程产生(数据建模, SDLC,业务流程定义),因此流程的执行者对元数据的质量负责。
2)标准(Standards)。制定、执行和审计元数据标准,简化集成过程,并且适用。
3)改进(Improvement)。建立反馈机制保障用户可以将不准确或已过时的元数据通知元数据管理团队。
【活动 4-1】创建和维护元数据-整合元数据。
对元数据存储库的扫描的方式:
1)专用接口。采用单步方式,扫描程序从来源系统中采集元数据,直接调用特定格式的装载程序,将元数据加载 到元数据存储中。
2)半专用接口。采用两步方式,扫描程序从来源系统中采集元数据,并输出 到特定格式的数据文件中。架构更加开放。
扫描程序产生和使用多种类型文件:
1)控制文件。包含数据模型的数据源结构信息。
2)重用文件。包含管理装载流程的重用规则信息。
3)日志文件。在流程的每一阶段、每次扫描或抽取操作生成的日志。
4)临时和备份文件。在流程中使用或做追溯流程所使用的文件。
【活动 4-2】创建和维护元数据-分析和传递元数据。
元数据可传递给数据消费者和需要处理数据的应用或工具。
传递机制包括:
1)元数据内部网站,提供浏览、搜索、查询、报告和分析功能。2)报告、术语表和其他文档。
3)数据仓库、数据集市和 BI(商务智能)工具。
4)建模和软件开发工具。
5)消息传送和事务。
6)Web 服务和应用程序接口(API)。
7)外部组织接口 方案(如供应链解决方案)。
【活动 5】查询、报告和分析元数据
应具有前端应用程序,支持查询和获取。提供给业务用户的应用界面和功能与提供给技术用户和开发人员的界面和功能有所不同。
为方便理解,整理本部分思维导图如下:
四、工具、方法、实施指南
1、工具
管理元数据的主要工具是元数据存储库。
元数据存储库包括整合层和手工更新的接口。
处理和使用元数据的工具集成到元数据存储库中作为元数据来源。
元数据管理工具和存储库本身也是一种元数据的数据源。
2、方法
1.数据血缘和影响分析
基于程序编码的当前版本的血缘称为“实现态血缘“。
映射规范文档中描述的血缘称为“设计态血缘”。
元数据管理系统通过可以提供数据血缘详情的工具导入“实现态血缘”,并从无法自动抽取的“设计态血缘”文件中获取实施细节加以补充。将数据血缘的各个部分连接起来的过程称为“拼接”, “拼接”结果是一个表示数据从原始位置(数据源或记录系统)转移到最终位置的全景视图。
数据血缘创建的局限性在于元数据管理系统的覆盖范围。
想要成功发现数据血缘关系要兼顾业务焦点和技术焦点。
2.应用于大数据采集的元数据
3、实施指南
使用渐进的步骤建设实施受控的元数据管理环境,可减少组织的风险,并便于用户接受。
使用开源的关系型数据库平台来实施元数据存储,可以应对实施存储库项目开始时可能无法预料的各种控制和接口问题。
存储库的内容在设计上应该是通用的,而不只是反映源系统的数据库设计。
1、就绪评估、风险评估
评估缺失高质量元数据可能带来的影响:
1)因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断。
2)暴露敏感数据,使客户或员工面临风险,影响商业信誉和导致法律纠纷。
3)如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。
2、组织和文化变革
组织准备情况的评估解决方法:对元数据相关活动现状进行正式的成熟度评估,评估内容应包括重要的业务数据元、可用的元数据术语表、数据血缘、数据剖析和数据质量管理过程、主数据管 理成熟度和其他方面。
评估的结果与业务优先级一致,将为改进元数据管理实践的战略方法提供基础。
正式的评估结果也为业务案例、赞助和筹集资金提供基础。
为方便理解,整理本部分思维导图如下:
五、元数据治理
1、过程控制
数据团队应负责定义标准和管理元数据的状态变化。
2、元数据解决方案的文档
能够满足以下需求:
1、元数据管理的实施状态
2、源和目标元数据存储
3、元数据更新的调度计划信息
4、留存和保持的版本
5、内容
6、质量声明或警告
7、记录系统和其他数据源状态
8、相关的工具、架构和人员
9、敏感信息和数据源的移除或脱敏策略。
3、元数据标准和指南
早期采用行业的元数据标准,并使用这些标准评估元数据管理技术。
元数据ISO标准为工具开发人员提供了指导。
4、度量指标
1)元数据存储库完整性。理想覆盖率与实际覆盖率比较。
2)元数据管理成熟度。能力成熟度模型(CMM-DMM)评估。3)专职人员配备。评估承诺。
4)元数据使用情况。
5)业务术语活动。使用、更新、定义解析、覆盖范围。
6)主数据服务数据遵从性。
7)元数据文档质量。手动+自动。
8)元数据存储库可用性。正常运行时间、处理时间(批处理和查询)。
为方便理解,整理本部分思维导图如下:
大数据流动:大数据、实时计算、数据治理,数据可视化实践类自媒体。定期发布数据治理,元数据管理落地技术实践文章,分享数据治理实践落地相关技术与资料。
提供大数据入门,数据治理,Superset,Atlas,Datahub等学习交流群。
大数据流动,对大数据技术学习永不止步。
我是独孤风,如果您喜欢我的文章,希望可以转发,点赞,支持我,我们下一篇再见!
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
C语言新手了解: 程序软件:DEV C++ //界面简洁,适合新手 Visual Studio //版本选择社区版的就够用了 手机软件也可以很方便的运行 注意:C语言严格区分大小写: 1.进制类型:二进制;八进制;十进…