引言:
在当今快速发展的数字化世界中,数据已成为组织最宝贵的资产之一。有效的数据管理不仅能够驱动业务决策,还能提升竞争力和市场适应性。DAMA国际一直致力于数据管理和数字化的研究、实践及相关知识体系的建设。秉承公益、志愿、共享、开放和服务的原则,作为一个非营利性、专注数据管理和数字化的专业组织,旨在交流国际、国内在数据领域中的最新进展,共享业界的实践、经验和成果,促进我国数字化水平的不断提高和创新,并为建设我国自有的数据管理和数字化体系而努力。
2024年 6月 23日 考试 重点整理。。。。。。。。。。。。。。。
【DAMA】GDPA 考试总结
- 第1章 数据管理(4分)
- 第2章 数据处理伦理(2分)
- 第3章 数据治理(8分)
- 第4章 数据架构(6分)
- 第5章 数据建模和设计(10分)
- 第6章 数据存储和操作(2分)
- 第7章 数据安全(10分)
- 第8章 数据集成和互操作(2分)
- 第9章 文件和内容管理(2分)
- 第10章 参考数据和主数据(10分)
- 第11章 数据仓库和商务智能(10分)
- 第12章 元数据管理(10分)
- 第13章 数据质量(10分)
- 第14章 大数据和数据科学(6分)
- 第15章 数据管理成熟度评估(4分)
- 第16章 数据管理组织与角色期望(2分)
- 第17章 数据管理与组织变革管理(2分)
章序 | 章节 | 分数 | 题目数量 |
---|---|---|---|
第一章 | 数据管理知识体系概述 | 4 | 4 |
第二章 | 数据伦理 | 2 | 2 |
第三章 | 数据治理 | 8 | 8 |
第四章 | 数据架构 | 6 | 6 |
第五章 | 数据建模与设计 | 10 | 10 |
第六章 | 数据存储与操作 | 2 | 2 |
第七章 | 数据安全 | 10 | 10 |
第八章 | 数据集成和互操作 | 2 | 2 |
第九章 | 文件和内容管理 | 2 | 2 |
第十章 | 主数据与参考数据 | 10 | 10 |
第十一章 | 数据仓库与商业智能 | 10 | 10 |
第十二章 | 元数据管理 | 10 | 10 |
第十三章 | 数据质量 | 10 | 10 |
第十四章 | 大数据和数据科学 | 6 | 6 |
第十五章 | 数据管理成熟度评估 | 4 | 4 |
第十六章 | 数据管理组织与职责 | 2 | 2 |
第十七章 | 数据管理与组织变革 | 2 | 2 |
该表格列出了考试的各个章节、对应的分数以及题目数量,考生可以根据表格中的信息对考试内容进行重点复习。
第1章 数据管理(4分)
【重点1】数据管理定义与目标
- 数据管理最直接的目标: 数据质量
- 数据管理最终目标:数据价值
- 数据管理的核心驱动力是: 使组织能够从其数据资产中 获取价值
【重点2】 这些术语可以互换使用
【重点3】数据管理原则总有12项
- 数据是有独特属性的资产
- 数据的价值可以用经济术语来表示
- 管理数据意味着对数据的质量管理
管理数据需要元数据
- 数据管理需要规划
- 数据管理须驱动信息技术决策
- 数据管理是跨职能的工作
数据管理需要企业级视角
- 数据管理需要多角度思考
- 数据管理需要全生命周期的管理
数据管理需要纳入与数据相关的风险
有效的数据管理需要领导层承担责任
【重点4】数据管理战略规划的可交付成果
- 数据管理章程。 包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。
- 数据管理范围声明。 包括规划目的和目标(通常为3 年)。以及负责实现这些目标的角色、组织和领导。
- 数据管理实施路线图。 确定特定计划、项目、任务分配和交付里程碑。
【重点5】战略一致性模型和阿姆斯特丹信息模型,都是强调
- 业务和IT的一致性
【重点6】语境关系图中的“活动”是指
- A。计划(P)、控制(C)、开发(D) 和运营(O)
第2章 数据处理伦理(2分)
【重点1】 数据伦理准则
- 尊重他人
- 行善原则
- 公正
- 尊重法律和公众利益
【重点2】GDPR准则
准则编号 | 描述 | 详细说明 |
---|---|---|
1 | 公平、合法、透明 | 数据主体中的个人数据应以合法、公平、透明的方式进行处理。 |
2 | 目的限制 | 必须按照指定、明确、合法的目标去采集个人数据,不得用于采集目标之外的方面。 |
3 | 数据最小化 | 采集的个人数据必须足够相关,仅限于与处理目的相关的必要信息。 |
4 | 准确性 | 个人数据必须准确,有必要保持最新的数据,及时删除或更正不准确的个人数据。 |
5 | 存储限制 | 数据必须以可以识别的数据主体(个人)的形式保存,保存时间不得超过处理个人数据所需的时间。 |
6 | 诚信和保密 | 必须确保个人数据得到安全妥善的处理,使用适当技术和组织方法防止数据被擅自或非法处理、防止意外丢失、破坏或摧毁等。 |
7 | 问责制度 | 控制数据的人员应负责并能够证明符合上述这些原则。 |
【重点3】 偏见有几种类型:
1 . 预设结论的数据采集
分析师迫于压力采集数据并产生结果。来支持一个预先定义的结论。而不是为了得出一个客观的结论。
3 . 预感和搜索
分析师有一种预感。且想要满足这种预感。故只使用能证实这种直觉的数据。并且不想考虑从数据中能得出的其他可能性(如果某些数据不能证实该方法。它可能会被丢弃)。
4 . 片面抽样方法
抽样往往是数据采集的一个常用方法。 但是。选择样本集的方法可受到偏见的影响。 对于人类来说。没有某种偏见。几乎是不可能的。 为了限制偏见。可使用统计工具选择样本并建立适当大小的样本。 意识到用于训练目的样本数据可能存在偏见尤其重要。
5 . 背景和文化
偏见通常是基于文化或背景。因此。要中立地看待事物。就必须走出这种文化或背景。
第3章 数据治理(8分)
【重点1】数据治理最常见的驱动因素是 法规遵从性
【重点2】数据治理不是一次性的行为。
【重点3】数据治理要与IT治理区分开。
【重点4】数据治理程序
- 可持续发展(Sustainable)
治理程序必须富有吸引力。它不是以一个项目作为终点,而是一个持续的过程,需要作为整个组织的责任。数据治理必须改变数据的应用和管理方式,但也不代表着组织要做巨大的更新和颠覆。数据治理是超越一次性数据治理组件实施的可持续发展的路径管理变革。可持续的数据治理依靠于业务领导、发起者和所有者的支持。 - 嵌入化(Embedded)
数据治理不是一个附加管理流程。数据治理活动需要融合到软件开发方法、数据分析的应用,主数据管理和风险管理中。 - 可度量(Measured):
数据治理做得好有积极的财务影响,但要证明这一影响,就需要了解起点并计划可度量的改进方案。
【重点5】定义数据治理运营模型 Define the DG Operating Framework
开发数据治理的基本定义很容易,但是创建一个组织采用的运营模型可能很困难。在构建组织的运营模型时需要考虑如下这些方面:
数据对组织的价值(Value of data to the organization):如果一个组织出售数据,显然数据治理具有巨大的业务影响力。将数据作为最有价值事物的组织(如Facebook、亚马逊)将需要一个反映数据角色的运营模式。对于数据是操作润滑剂的组织,数据治理形式就不那么严肃了;
业务模式(Business model:):分散式与集中式、本地化与国际化等是影响业务发生方式,以及如何定义数据治理运营模式的因素。与特定IT策略、数据架构和应用程序集成功能的链接,应反映在目标运营框架设计中(如图16所示)。
文化因素(Cultural factors):就像个人接受行为准则、适应变化的过程一样,一些组织也会抵制政策和原则的实施。治理战略需要提倡一种与组织文化相适应的运营模式,同时持续地进行变革;
监管影响(Impact of regulation):与受监管程度较低的组织相比,受监管程度较高的组织具有不同的数据治理心态和运营模式。可能还与风险管理或法律团队有联系。。
【重点6】数据治理可以有三种模式:
- 在集中式管理模式中。
数据治理组织监督所有业务领域中的活动。 - 在分布式管理模式中
每个业务单元中采用相同的数据治理运营模型和标准。 - 在联邦式管理模式中。
数据治理组织与多个业务单元协同。以维护一致的定义和标准。
【重点7】数据管理职责 Data Stewardship,不是数据的owner,
数据管理职责 Data Stewardship,不是数据的owner,
【重点8】 数据治理战略的交付物
- 章程(Charter):
确定数据管理的业务驱动愿景、使命和原则,包括成熟度评估、内部流程分析及当前问题和成功标准; - 运营框架和职责(Operating framework and accountabilities):
定义数据治理活动的结构和责任; - 实施路线图(Implementation roadmap):
制定时间计划,其涉及到最终发布的政策、指令、业务术语、架构、资产价值评估、标准和程序,以及所期望业务和技术流程发生的改变、支持审计活动和法规遵从的交付成果。 - 为成功运营制定计划(Plan for operational success):
为数据治理活动描述一个可持续发展的目标状态
【重点9】数据管理职责(Data Stewardship)
- 创建和管理核心元数据(Creating and managing core Metadata):
业务术语、有效数据值及其他关键元数据的定义和管理。通常管理专员负责整理的业务术语表,成为与数据相关的业务术语记录系统。
记录规则和标准(Documenting rules and standards):
业务规则、数据标准及数据质量规则的定义和记录。通常基于创建和使用数据的业务流程规范,来满足对高质量数据的期望。为确保在组织内部达成共识,由管理专员帮助制定规则并确保其得到连贯的应用。 - 管理数据质量问题(Managing data quality issues):
管理专员通常参与识别、解决与数据相关的问题,或者促进解决的过程中。 - 执行数据治理运营活动(Executing operational data governance activities):
管理专员有责任确保数据治理政策和计划在日常工作或每一个项目中被遵循执行。对决策发挥影响力,确保以支持组织总体目标的方式管理数据。
【重点9】数据管理目标
提升企业管理数据资产能力
定义、批准、沟通和 实施数据管理原则 、政策、程序、指标、工具和责任
监控和指导政策合规性,数据使用和管理活动
第4章 数据架构(6分)
【重点】 数据架构定义与目标
数据架构的目标是在业务战略和技术实现之间建立起一座通畅的桥梁。数据架构是企业架构中的一部分
【重点】 数据模型(概念模型、逻辑模型、物理模型)
1. 概念模型 – 数据架构师,偏向业务
2. 逻辑模型 – 数据架构师,偏向业务
3. 物理模型 — 是数据建模的输出物,DBA (技术)
【重点】企业架构(TOGAF、Zachman框架)
【重点】企业数据架构项目活动
【重点】OLAP是为分析和决策用的
【重点】企业架构包括业务架构、数据架构、应用架构和技术架构。
【重点】基于业务架构的基础上(数据架构方式通常以哪几种方式进行):
1) 面向质量。
2) 面向创新。
【重点】建立企业数据架构通常包括以下工作。这些工作可以串行或并行执行。
1) 战略。 选择框架。制定方法。开发路线图。
2) 沟通与文化。 建立沟通机制。并激励积极参与者。
3) 组织: 通过明确责任和职责来组织数据框架工作。
4) 工作方法。 与企业架构保持一致。在开发项目中定义最佳实践并执行数据架构工作。
5) 结果。 在总体路线图中产出数据架构产品。
【重点】企业数据架构项目相关的活动包括:
- 定义范围:
保证范围和接口与企业数据模型一致。理解项目对整体企业数据架构的潜在贡献,项目的建模和设计,哪些现有组件应该或能够被重用。在需要设计的部分,项目应该确定项目范围外的利益相关者的依赖性,如下游流程。项目确定共享或重要的数据构件,应该整合到企业逻辑数据模型和指定的存储库中。 - 理解业务需求:
获取数据相关的需求,如实体、资源、可用性、质量和痛点,以及评估满足这些需求的业务价值。 - 设计:
形成详细的目标规范,包括数据生命周期内的业务规则,验证结果的有效性,需要提供的时间,提升模型的扩展性,改进标准模型等。企业逻辑数据模型和企业架构知识库,为项目数据架构师提供查询,企业内可重用数据结构共享提供很好的支撑。同时,审核和使用数据技术标准。 - 实施
【重点】实施企业数据架构主要包含的工作内容为:
1) 建立企业数据架构团队和举办问题讨论会。
2) 生成数据架构构件的初始版本。 例如。企业数据模型、企业范围数据流和路线图。
3) 在开发项目中。形成和建立数据架构工作方式。
4) 提高组织对数据架构工作价值的认识。
【重点】企业架构包括多种不同类型,如包括业务架构、数据架构、应用架构和技术架构等。
第5章 数据建模和设计(10分)
【重点】如何识别模型:
概念模型 —没有属性的
逻辑模型 — 有属性的- 更多的是用业务术语描述: First Name
逻辑模型— 有 Entity (实体),属性
【重点】高质量的数据定义具备以下3 个基本特征:
①清晰(Clarity)
②准确(Accuracy)
③完整(Completeness)
【重点】维度建模,两种类型的表:
1) 事实表。
2) 维度表。可以有两种设计:
star schema (星型设计) - 没有延展
snowflake (雪花设计) - 维度表是有层级的
【重点】渐变类的维度根据变化的速率和类型来管理变化。 3 种主要的变化类型有时被称为ORC。具体如下:
①第一类。覆盖(Overwrite )。 新值覆盖旧值。
②第二类。新行(New Row)。 新值写在新行中。旧行被标记为非当前值。
③第三类。新列(New Column)。 一个值的多个实例列在同一行的不同列中。而一个新值意味着将系列中的值向下一点写入。以便在前面为新值留出空间。 最后一个值被丢弃。
【重点】物理数据模型受实现技术约束:
- 概念和逻辑 — 不需要考虑技术选型和实现的 – 架构师,更加偏向业务
- 物理 — 是需要考虑技术选型和实现的 — DBA,更加偏向技术
【重点】逆规范化 提高性能。如:
①提前组合来自多个其他表的数据。以避免代价高昂的运行时连接。
②创建更小的、预先过滤的数据副本。以减少昂贵的运行时计算和/ 或大型表的扫描。
③预先计算和存储昂贵的数据计算结果。以避免运行时系统资源竞争。
【重点】逆规范化: 不可能在OLTP里;只能在OLAP里
【重点】维度设计: OLAP用的。
【重点】在设计和构建数据库时。DBA 应牢记以下PRISM 设计原则:
1) 性能和易用性(Performance and Ease of Use)
2) 可重用性(Reusability)
3) 完整性(Integrity)
4) 安全性(Security)
5) 可维护性(Maintainability)
【重点】模型记分卡
序号 | 类别 | 总分数 | 模型分数 | % | 注释 |
---|---|---|---|---|---|
1 | 模型多大程度上反映了业务需求 | 5 | 2 | ||
2 | 模型的完整性如何 | 5 | |||
3 | 模型与模式的匹配度是多少 | 4 | |||
4 | 模型的结构如何 | 5 | 5 | ||
5 | 模型的通用性 如何 | 6 | |||
6 | 模型遵循命名标准 的情况如何 | 5 | |||
7 | 模型的可读性 如何 | 5 | |||
8 | 模型的定义如何 | 9 | |||
9 | 模型与企业数据架构的一致性如何 | 5 | 与元数据的匹配程度如何 | ||
总分 | 100 |
【重点】其中最为常见的6 种模式分别是: 关系模式、多维模式、面向对象模式、事实模式、时间序列模式和NoSQL模式。
【重点】
第6章 数据存储和操作(2分)
【重点】数据库管理员(DBA) 在数据存储和操作上述两个方面中都扮演着重要的角色。 DBA 这个角
色是数据专业中最常见。也是最被广泛接纳的角色
。
【重点】CAP 定理(也称为“布鲁尔定理”) 是集中式系统在朝着分布式的系统方向发展过程中提出的
理论。 CAP 定理指的是分布式系统不可能同时满足ACID 的所有要求。 系统规模越大。满足的要求
点越少。 分布式系统必须在各种属性(要求) 间进行权衡。
1) 一致性(Consistency)
2) 可用性(Availability)
3) 分区容错(Partition Tolerance)
CAP 定理指出。在任何共享数据的系统里。这3 项要求最多只可能同时满足其中两项。 通常用
“三选二” 来说明。
1) 生产环境
(2) 非生产环境
开发环境、测试环境、支持环境和特别用途环境
【重点】业务连续性: OLTP
【重点】管理数据库性能: OLAP
【重点】 度量指标:数据存储/性能/操作/服务四个度量指标。P127
【重点】 数据库环境:生产环境。非生产环境(开发环境。测试环境。数据沙盒或实验环境。)P137
第7章 数据安全(10分)
【重点】数据安全的业务驱动因素:
1 降低风险
2 业务增长
3 安全性作为资产
【重点】数据安全活动目标
支持适当访问并防止对企业数据资产的不当访问
支持对隐私、保护和保密政策法规的遵从
确保满足利益相关者对隐私和保密的要求
【重点】静态数据脱敏(Persistent Data Masking) 永久且不可逆转地更改数据。 这种类型的脱敏通常不会在生产环境中使用。而是在生产环境和开发(或测试) 环境之间运用。
【重点】动态数据脱敏(Dynamic Data Masking) 是在不更改基础数据的情况下。在最终用户或系统中改变数据的外观。
【重点】数据安全要求和过程分为四组,称为4A: 访问(Access)、审核(Audit)、身份验证(Authentication)和授权(Authorization)。最近,为了有效遵守数据法规,还包含了一个E,即权利(Entitlement)。
敏捷(Agail)
【重点】保密范围要求从高(例如,极少有人能够访问员工薪酬数据)到低(每个人都可以访问产品目录)。以下列出的五个机密分类级别,典型的分类架构可能包括其中两个或更多:
普通受众公开(For general audiences):可向任何人(包括公众)提供的信息。
内部使用(Internal use only):仅限于员工或成员的信息,但信息分享的风险很小。仅供内部使用,可在组织外部显示或讨论,但不得复制。
机密(Confidential): 若无恰当签署的保密协议或类似内容,不得在组织以外共享。不得与其他客户共享客户机密信息。
受限机密(Restricted confidential):信息仅限于特定"需要知道"角色的个人。受限机密可能要求个人通过许可获得资格。
绝密(Registered confidential):信息机密程度非常高,任何信息访问者都必须签署一份法律协议才能访问数据,并承担保密责任。
【重点】RACI: 职责,负责、批注、咨询、通知(RACI) 矩阵
【重点】外包世界中的数据安全:任何事情皆可外包。但责任除外。
【重点】度量指标:
1)安全实施
2)安全意识
3)数据保护
4)安全事件
5)机密数据扩散
【重点】数据的加密方法
哈希、对称加密、非对称加密
第8章 数据集成和互操作(2分)
【重点】映射(Mapping) 是转换的同义词。它既是从源结构到目标结构建立查找矩阵的过程。也是该过程的结果。
【重点】时延(Latency) 是指从源系统生成数据到目标系统可用该数据的时间差
【重点】要衡量实现数据集成解决方案的规模和收益。包括可用性、数量、速度、成本和使用方面的指标。
1)数据可用性。 请求数据的可获得性。
2)数据量和速度。 它包括: 传送和转换的数据量。分析数据量。传送速度。数据更新与可用性之间的时延。事件与触发动作之间的时延。新数据源的可用时间。
3)解决方案成本和复杂度。 它包括: 解决方案开发和管理成本。获取新数据的便利性。解决方案和运营的复杂度。使用数据集成解决方案的系统数量。
第9章 文件和内容管理(2分)
【重点】文件和内容管理的主要业务驱动因素
- 法规遵从性要求、
2)诉讼响应能力和电子取证请求能力以及
3) 业务连续性要求。
【重点】实施文件和内容管理最佳实践的目标,包括:
1) 确保能够高速有效地采集和使用非结构化的数据和信息。
2) 确保结构化和非结构化数据之间的整合能力。
3) 遵守法律义务并达到客户预期。
【重点】非结构化数据有多种电子格式: 文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML 文件、事务性消息、报告、图形、数字图像、缩微胶片、视频和音频。 纸质文件中也存在大量非结构化数据。
【重点】文件管理 的描述
一般来说,文件管理关注的是文件本身,几乎不关注文件内容。
一个文件中的信息内容可能对如何管理该文件有指导性作用,但是在文件管理中,文件被视为一个单独的实体。
市场和监管压力都将重点放在档案保管期限表、地点、传送和销毁上。例如,一些关于个人的数据不能跨越国际边界
第10章 参考数据和主数据(10分)
【重点】启动主数据管理最常见的驱动因素包括:
1) 满足组织数据需求。
2) 管理数据质量。
3) 管理数据集成的成本。
4) 降低风险。
【重点】参考数据和主数据管理规划的目标包括:
1) 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。===》黄金数据
2) 促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
3) 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
【重点】主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等) 的数据,
【重点】业务规则通常规定了主数据格式和允许的取值范围。 一般组织的主数据包括下列事物的数据:
1) 参与方。 个人和组织,以及他们扮演的角色,如客户、公民、病人、厂商、供应商、代理
商、商业伙伴、竞争者、雇员或学生等。
2) 产品和服务,包括内部和外部的产品及服务。
3) 财务体系。 如合同、总账、成本中心、利润中心。
4) 位置信息。 如地址和GPS 坐标。
【重点】在一个域内规划主数据管理包括以下几个基本步骤:
1) 识别能提供主数据实体全面视图的候选数据源。
2) 为精确匹配和合并实体、实例制定规则。
3) 建立识别和恢复未恰当匹配或合并的数据的方法。
4) 建立将可信数据分发到整个企业的系统中的方法。
【重点】解决方法:最大公约数
【重点】主数据管理的关键处理步骤
1)数据模型管理
2)数据采集
3)数据验证、标准化和数据丰富
4)实体解析和标识符管理
【重点】主数据管理工具
数据整合工具、
数据修复工具、
操作型数据存储(ODS)、
数据共享中心(DSH)或专门的主数据管理应用来实现。
第11章 数据仓库和商务智能(10分)
【重点】
【重点】数据仓库建设的主要驱动力是运营支持职能、合规需求和商务智能活动
【重点】数据仓库建设应遵循如下指导原则:
1) 聚焦业务目标。
2) 以终为始。
3) 全局性的思考和设计,局部性的行动和建设。
4) 总结并持续优化,而不是一开始就这样做。
【重点】数据仓库建设指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。
【重点】Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,
【重点】虽然Inmon 和Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:
1) 数据仓库存储的数据来自其他系统。
2) 存储行为包括以提升数据价值的方式整合数据。
3) 数据仓库便于数据被访问和分析使用。
4) 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。
5) 数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。
【重点】数据仓库有两个重要组成部分: 一个集成的决策支持数据库和与之相关的用于收集、清理、转
换和存储来自各种操作和外部源数据的软件程序。
【重点】多维模型通常称为星型模型,由事实表和维度表组成。
【重点】数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据。
支持业务分析所必需的数据。这条轨迹涉及识别数据的最佳来源,设计如何修正、转换、集成、存储以及提供给应用程序使用数据的规则。此步骤还包括决定如何处理不符合预期的数据。
2)技术。
支持数据存储和迁移的后端系统及流程。与现有企业系统的集成是必需的,因为数据仓库本身并不是一个孤岛。企业架构,特别是技术架构和应用架构,通常管理着这条轨迹。
3)商务智能工具。
数据消费者从已部署的数据产品中获得有意义的数据洞察所必需的应用套件。
【重点】确定数据加载方法时,要考虑的关键因素是数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性。
【重点】维护数据产品
1.发布管理
2.管理数据产品开发生命周期
3.监控和调优加载过程
4.监控和调优商务智能活动和性能
【重点】透明度和可见性是推动数据仓库/商务智能监控的关键原则。
【重点】记录的数据血缘关系有很多用途:
1)调查数据问题的根本原因。
2)对系统变更或数据问题进行影响分析。
3)根据数据来源确定数据的可靠性
【重点】常见的OLAP操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视。
【重点】数据仓库应该能够实现以下几点:
1)明确数据敏感性和安全性约束。
2)选择工具。
3)保障资源安全。
4)创建抽取过程以评估和接收源数据
第12章 元数据管理(10分)
【重点】元数据对于数据管理和数据使用来说都是必不可少的。元数据管理提供了获取和管理组织数据的主要方法。
【重点】如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据
【重点】数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:
1)通过提供上下文语境和执行数据质量检查提高数据的可信度。
2)通过扩展用途增加战略信息(如主数据)的价值。
3)通过识别冗余数据和流程提高运营效率。
4)防止使用过时或不正确的数据。
5)减少数据的研究时间。
6)改善数据使用者和IT专业人员之间的沟通。
7)创建准确的影响分析,从而降低项目失败的风险。
8)通过缩短系统开发生命周期时间缩短产品上市时间。
9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响。
10)满足监管合规
【重点】元数据管理不善容易导致以下问题:
1)冗余的数据和数据管理流程。
2)重复和冗余的字典、存储库和其他元数据存储。
3)不一致的数据元素定义和与数据滥用的相关风险。
4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。
5)怀疑元数据和数据的可靠性
【重点】元数据通常分为三种类型: 业务元数据、技术元数据和操作(运营)元数据。12.1.3
【重点】在信息技术之外的领域,如在图书馆或信息科学中,元数据被描述为不同的类别:
1)描述元数据(Descriptive Metadata)
2)结构元数据(Structural Metadata)
3)管理元数据(Administrative Metadata)
【重点】ISO/IEC 11179元数据注册标准
【重点】元数据综合解决方案由以下功能需求点组成: 12.2.2
更新频次
。元数据属性和属性集更新的频率。
2)同步情况
。数据源头变化后的更新时间。
3)历史信息
。是否需要保留元数据的历史版本。
4)访问权限
。通过特定的用户界面功能,谁可以访问元数据,如何访问。
5)存储结构。元数据如何通过建模来存储。
6)集成要求。元数据从不同数据源的整合程度,整合的规则。7)运维要求。更新元数据的处理过程和规则(记录日志和提交申请)
8)管理要求。管理元数据的角色和职责。
9)质量要求。元数据质量需求。
10)安全要求。一些元数据不应公开,因为会泄露某些高度保密数据的信息。
【重点】元数据治理 度量指标:
1) 元数据存储库完整性。
将企业元数据(范围内的所有产品和实例) 的理想覆盖率与实际覆盖率进行比较。 参照元数据管理范围定义的策略。
2) 元数据管理成熟度。
根据能力成熟度模型的 (CMM-DMM)成熟度评估方法
3) 专职人员配备。
通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
4) 元数据使用情况。
【重点】
【重点】
第13章 数据质量(10分)
- 数据质量管理原则
- 数据质量评估与改进方法
- 数据质量影响因素
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
第14章 大数据和数据科学(6分)
- 数据科学依赖要素
- 数据建模与机器学习
- 大数据特征与架构
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
【重点】
第15章 数据管理成熟度评估(4分)
- 成熟度级别定义
- 进行成熟度评估的原因
【重点】
【重点】
【重点】
【重点】
【重点】
第16章 数据管理组织与角色期望(2分)
- CDO的常见任务
- 数据管理角色与期望
【重点】
【重点】
【重点】
【重点】
第17章 数据管理与组织变革管理(2分)
【重点】
【重点】
【重点】
内容 | 地址 链接 |
---|---|
【软考-中级】 | 系统集成项目管理工程师(第二版) |
【产品经理】 | 商业模式 |
版本记录:
- 2024年6月19第一版