干货分享:CDGA重要考点总结
- 一、证书&备考简介
- 二、特别说明
- 三、11个核心知识领域
- 第3章 数据治理(10分)-->管理的管理,监督职能
- 考点1:业务驱动因素
- 考点2:数据治理的目标
- 考点3:数据治理的概念
- 考点4:数据治理的组织
- 考点5:数据治理的运营模式
- 考点6:度量指标
- 第4章 数据架构(10分)
- 考点1:数据架构的主要职责
- 考点2:企业架构的类型
- 考点3:数据架构
- 考点4:度量指标
- 第5章 数据建模和设计(10分)
- 考点1:六种模式
- 考点2:三层模型
- 考点3:业务驱动因素(数据模型作用)
- 考点4:数据模型的组件(实体、关系、属性、域)
- 考点5:非关系型数据库
- 一、实体
- 二、关系
- 三、属性
- 四、域
- 考点:度量指标
- 第6章 数据存储和操作(2分)
- 第7章 数据安全(8分)
- 第8章 数据集成和互操作(2分)
- 第9章 文件和内容管理(2分)
- 第10章 参考数据和主数据(4分)
- 第11章 数据仓库和商务智能(10分)
- 基本概念
- 目标
- 指导原则
- Inmon 和 Kimball 遵循的核心理念相似(数仓建设方法不同)
- 数据仓库架构组件
- CDC 技术对比(批量变更数据捕获)
- 智能商务工具的类型
- OLAP实现方法
- 实施商务智能商品组合
- 度量指标
- 第12章 元数据管理(10分)
- 元数据注册标准
- 元数据类型
- 元数据来源(14+N)
- 元数据需求和综合解决方案
- 创建一个元数据存储库的数据模型,也叫元模型
- 查询元数据方法
- 度量指标
- 第13章 数据质量(10分)
- 数据质量重点集中在对组织及其客户最重要的数据上,关键数据
- 数据质量维度
- DAMA UK 数据质量的核心维度
- 数据质量戴明环 PDCA
- 数据质量问题的常见原因
- 数据质量问题的根本原因(根因)
- 数据剖析
- 识别改进方向并确定优先排序
- 制定管理数据问题的操作过程
- 度量指标
- 四、6个附加知识领域
- 第1章 数据管理(4分)
- 考点1:数据是什么?
- 考点2:数据和信息的关系
- 考点3:数据管理的原则(12项)-->数字化转型必须遵循的方法论
- 考点4:数据和其他资产的区别
- 考点5:数据价值如何评估?
- 考点6:数据管理的战略 -->数字化转型的指导纲领
- 一、组成部分
- 二、可交付成果
- 考点7:数据管理的框架
- 一、模型*2(说明业务和IT的关系)
- 二、框架*3
- DAMA车轮图
- 六边形图
- 语境关系图 (PCDO:计划 控制 开发 运营)
- 三、进阶*2(工作角度重要,考试角度不重要)
- DMBOK金字塔
- DAMA数据管理框架的进化
- 第2章 数据处理伦理(2分)-->工作角度重要,考试角度不重要
- 考点1:定义
- 考点2:度量指标
- 考点3:数据伦理的准则
- 考点4:GDPR准则(欧盟)
- 考点5:违背伦理进行数据处理的风险(还没到法律高度)
- 第14章 大数据和数据科学(4分)
- 第15章 数据管理成熟度评估(6分)
- 评价等级(0-5)
- 现有 DMMA 框架
- 规划评估活动
- 第16章 数据管理组织与角色期望(4分)
- 第17章 数据管理和组织变革管理(2分)
- 五、纸质证书展示
一、证书&备考简介
适用人群:从事数据治理领域工作的职场人、希望从事大数据领域工作的学生党
考试费:1000元(推广期)
教材:DAMA数据管理知识体系指南(第2版)
题库&视频:25.9元,百度网盘分享(请私信留言)
二、特别说明
- 若时间紧张,建议直接放弃每一章的活动部分,大概损失5分
- CDGA考题不会脱离教材,建议多看书
- 若个人实战经验与书不同,建议以书为准,书本更偏向于国外现状。
三、11个核心知识领域
第3章 数据治理(10分)–>管理的管理,监督职能
1、数据治理不是一次性的行为,是一个持续性的项目集/过程。
2、数据治理要与IT治理区分开。由于数字化转型的重要性,需要单独剥离出数据治理,由不同团队做。(CDO团队-数据治理;CIO团队-IT治理)
3、实施数据治理需要有变革的承诺(下定决心愿意变革),因为过程中会涉及到许多要求,如组织架构的调整、新规章制度的建立等。
4、数据管理专员:属于业务角色,而非IT角色
5、业务术语表:通常由数据管理专员整理。术语表是在组织内部共享词汇的方法,不然容易造成语言gap,你讲你的我讲我的,互相难以听懂,导致产生很多非必要的沟通成本以及沟通风险。
考点1:业务驱动因素
最常见的是法规遵从性/合规性(确保数据管理工作有序进行),但大多聚焦于:减少风险或改进流程。
考点2:数据治理的目标
1)提升企业管理数据资产能力
2)定义、批准、沟通和实施数据管理的原则、政策、程序、指标、工具和责任
3)监控和指导政策合规性、数据使用和管理活动
考点3:数据治理的概念
数据治理确保数据被恰当地管理而不是直接管理数据,相当于将监督和执行的职责分离。
数据治理 | 数据管理 |
---|---|
占比1/11 | 占比1 |
保证数据是被管理的 | 管理数据以达到既定目标 |
总体视角 | 执行层面 |
考点4:数据治理的组织
数据治理机构 | 说明 |
---|---|
数据治理指导委员会 | NULL |
数据治理委员会 | 立项;弄好后审核、发布 |
数据治理办公室 | 具体编制、起草工作 |
数据管理团队 | NULL |
本地数据治理委员会 | NULL |
考点5:数据治理的运营模式
1)集中式管理模式
2)分布式管理模式
3)联邦式管理模式
考点6:度量指标
1、价值:对业务目标的贡献,风险的降低,运营效率的提高
2、有效性:目标的实现,扩展数据管理专员正在使用的相关工具,沟通的有效性,培训的有效性,采纳变革的速度
3、可持续性:制度和流程的执行情况,标准和规程的遵从情况
第4章 数据架构(10分)
考点1:数据架构的主要职责
1、利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据。
2、将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据。
3、管理复杂数据和信息,并传递至整个企业
4、确保业务和 IT 技术保持一致
5、为企业改革、转型和提高适应性提供支撑
考点2:企业架构的类型
业务架构、数据架构、应用架构、技术架构(除数据架构外,都不是本书的范围)
考点3:数据架构
1)企业数据模型(如数据结构和数据规范)(指概念模型和逻辑模型;物理模型不是数据架构的产物,是数据建模和设计的产物)
2)数据流设计(数据分布图、数据的价值链)
考点4:度量指标
1)架构标准接受率
2)实施趋势
3)业务价值度量指标
(1)业务敏捷性改进
(2)业务质量
(3)业务操作质量
(4)业务环境改进
第5章 数据建模和设计(10分)
考点1:六种模式
关系模式、多维模式、面向对象模式、事实模式、时间序列模式、NoSQL模式
考点2:三层模型
概念模型、逻辑模型、物理模型
其中,每种模型都包含一系列组件,如:实体、关系、事实、键、属性
考点3:业务驱动因素(数据模型作用)
1、提供有关数据的通用词汇表
2、获取、记录组织内数据和系统的详细信息
3、在项目中作为主要的沟通交流工具
4、提供了应用定制、整合、甚至替换的起点
考点4:数据模型的组件(实体、关系、属性、域)
要求看到一张图,能识别出属于哪种模型。
考点5:非关系型数据库
非关系型(NoSQL):文档(Document)、列(Column)、图(Graph)、键值(Key-Value)
NoSQL数据库:文档数据库、列数据库、图数据库、键值数据库
一、实体
二、关系
三、属性
四、域
考点:度量指标
第6章 数据存储和操作(2分)
第7章 数据安全(8分)
第8章 数据集成和互操作(2分)
第9章 文件和内容管理(2分)
第10章 参考数据和主数据(4分)
第11章 数据仓库和商务智能(10分)
基本概念
1)数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代
组成部分:数据库+用于收集清理转存(ETL)的软件程序
建立过程:结构化-ETL-BI-报告-业务场景确定-对已发生事情的总结或呈现
2)数据湖:随技术发展出现的新概念
建立过程:结构化+非结构化-ELT-AI-预测-业务场景不一定明确
3)商务智能(Business Inteligence, BI):随着数仓的建设,应运而生
第一层含义,数据分析活动;第二层含义,技术集合。
4)数据仓库建设的方法
两位思想领袖,比尔·因蒙(Bill Inmon) 和拉尔夫·金鲍尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模。
a. Inmon在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、整合(集成)的、随时间变化(与时间相关)的、相对稳定(不可修改)的数据集合。-> 范式建模(用规范化的关系模型来存储和管理数据)
b. Kimball在《数据仓库工具箱》(The DataWarehouse Toolkit)中定义:为查询和分析定制的交易数据的副本。他主张自下而上(DMDW)的方式,力推数据集市建设。->多维建模,多维数仓也称星型模型,由事实表和维度表组成。
目标
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。
指导原则
1)聚焦业务目标。用于最优级的业务并解决它。
2)以终为始(从目标开始)。以业务优先级和最终成果驱动仓库创建。
3)全局性的思考和设计,局部性的行动和建设。让最终愿景指导体系架构,通过集中项目快速迭代构建增量交付,从而实现更直接的投资回报。
4)总结并持续优化,而不是一开始就这样做。以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据。
5)提升透明度和自助服务。上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向利益相关方公开集成的数据及其流程信息。
6)与数据仓库一起建立元数据。DW 的成功关键是能准确解释数据。如“这个数字为什么是X?”“这个数字怎么计算出来的?”“这个数据哪里来的?”
7)协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律(一种尺寸并不适合所有用户)。为每种数据消费者提供正确的工具和产品。
Inmon 和 Kimball 遵循的核心理念相似(数仓建设方法不同)
1)数据仓库存储的数据来源于其他系统
2)存储行为包括以提升数据价值的方式整合数据
3)数据仓库便于数据被访问和分析使用
4)组织建设数据仓库,因为他们要让授权的利益相关方访问到可靠的集成的数据
5)数据仓库建设有很多目的,涵盖工作流支持、运营管理和预测分析
数据仓库架构组件
方式一:源系统、数据集成、数据存储区域(其中,中央数仓为必须的)
方式二:数据源、ETL(抽取转换加工)、数据仓库
数据存储区域:
暂存区、参考数据和主数据一致性维度、中央数据仓库(必须的)、操作性数据存储 ODS、数据集市、数据立方体Cubes
CDC 技术对比(批量变更数据捕获)
数仓建设的数据集成处理类型:历史数据加载、持续不断的数据更新。
方法 | 对源系统的要求 | 复杂度 | 事实表加载 | 维度表加载 | 重叠 | 删除 |
---|---|---|---|---|---|---|
时间戳增量加载 | 源系统中的变化由系统日期和时间戳标识 | 低 | 快 | 快 | 是 | 否 |
日志表增量加载 | 捕获源系统中的变化并记录在日志表 | 中 | 普通 | 普通 | 是 | 是 |
数据库交易日志 | 在交易日志记录数据库变化 | 高 | 普通 | 普通 | 否 | 是 |
消息增量 | 源系统中的变化发布在实时消息(队列) | 极高 | 慢 | 慢 | 否 | 是 |
全量加载 | 没有更改标识符,抽取全表数据并比较判断改动 | 极低 | 慢 | 普通 | 是 | 是 |
注:全量的话,带宽是个问题,不太智能
智能商务工具的类型
1)运营报表
2)业务绩效管理
3)描述性的自助分析
OLAP实现方法
1)关系型联机分析处理(ROLAP)
2)多维矩阵型联机分析处理(MOLAP)
3)混合型联机分析处理(HOLAP)。它是ROLAP和MOLAP的结合。普遍认可,是为发展方向。
实施商务智能商品组合
1)根据需要给用户分组
2)将工具与用户要求相匹配
度量指标
1)使用指标。包括注册用户数、连接用户数或并发用户数。
2)主题域覆盖率。衡量每个部门访问仓库的程度。
3)响应时间和性能指标。指标的后续跟进工作是验证和服务级别调整。
第12章 元数据管理(10分)
元数据注册标准
ISO/IEC 11179
元数据类型
业务元数据(涉及定义描述)、技术元数据(涉及物理)、操作元数据(涉及日志)
元数据来源(14+N)
应用程序中的元数据存储库、业务术语表、商务智能工具、配置管理工具、数据字典、数据集成工具、数据库管理和系统目录、数据映射管理工具、数据质量工具、字典和目录、事件消息工具、建模工具和存储库、参考数据库、服务注册、其他元数据存储。
元数据需求和综合解决方案
1、更新频次:元数据属性和属性集更新的频率
2、同步信息:数据源头变化后的更新时间
3、历史信息:是否需要保留历史版本
4、访问权限:通过特点用户界面,谁可以访问元数据,如何访问
创建一个元数据存储库的数据模型,也叫元模型
查询元数据方法
1、数据血缘
2、影响分析
度量指标
1、元数据存储库的完整性
2、元数据管理成熟度
第13章 数据质量(10分)
数据质量重点集中在对组织及其客户最重要的数据上,关键数据
数据质量维度
Strong.Wang 框架、Thomas Redman、Larry English、DAMA UK
DAMA UK 数据质量的核心维度
完备性、唯一性、及时性、有效性、准确性、一致性。
数据质量戴明环 PDCA
数据质量问题的常见原因
数据输入、数据处理、系统设计、自动化流程中的手工干预
数据质量问题的根本原因(根因)
缺乏领导力导致的问题、数据输入引起的问题、数据处理功能
引起的问题、系统设计引起的问题、解决问题时引起的问题
数据剖析
定义:是一种用于检查数据 和 评估质量的数据分析形式
空值、最大/最小值、最大/最小长度、单个列值的频率分布、数据类型和格式。
识别改进方向并确定优先排序
制定管理数据问题的操作过程
诊断问题、制定补救方案、解决问题
度量指标
投资回报、质量水平、数据质量趋势、数据问题管理指标、服务水平的一致性。
四、6个附加知识领域
第1章 数据管理(4分)
数据管理的核心:数据质量。确保高质量的数据。
数据管理的起点:元数据管理。
数据管理的基础:数据架构。
数据管理的直接/首要/核心目标:数据质量。
数据管理的最终目标:数据价值。
考点1:数据是什么?
数据是以数字形式存储的信息,也适用于纸面上数据。(数据是以数字形式存储的,同时也是以纸面形式存储的。)
数据既是对其所代表对象的解释,也是必须被解释的对象。
考点2:数据和信息的关系
共同点:两个术语可以互换使用。都是需要被管理的。
区别:数据被称为“信息的原材料”,而信息则被称为“在上下文语境中的数据”。
示例:这是上季度的销售报告(信息),它基于数据仓库中的数据(数据)。下一季度,这些结果(数据)将用于生成季度绩效指标(信息)。
考点3:数据管理的原则(12项)–>数字化转型必须遵循的方法论
1、数据是有独特属性的资产
如:数据有哪些独特属性?
2、数据的价值是可以用经济术语来表示
3、管理数据意味着对数据的质量管理
4、管理数据需要元数据
5、数据管理需要规划
6、数据管理需驱动信息技术决策
7、数据管理是跨职能的工作
8、数据管理需要企业级视角
9、数据管理需要多角度思考
10、数据管理需要全生命周期的管理,不同类型数据有不同生命周期特征
11、数据管理需要纳入与数据相关的风险
12、有效的数据管理需要领导层承担责任
考点4:数据和其他资产的区别
实物是可移动的,在同一时刻只能放置在一个地方。
数据不是有形的,数据的价值经常随着事件的推移而变化,但它是持久的不会磨损的;
数据很容易被复制和传送,但它一旦被丢失或销毁,就不容易重新产生了,在使用时不会被消耗。
考点5:数据价值如何评估?
主要基于成本法来核算,除了成本法之外,还有盈利法和市场法。
获取、存储数据的成本;数据丢失后更换需要的成本;数据丢失对组织的影响。
考点6:数据管理的战略 -->数字化转型的指导纲领
由CDO撰写和修订,由数据治理委员会支持的数据管理团队实施。
一、组成部分
1、令人信服的数据管理愿景
2、数据管理的商业案例总结
3、指导原则、价值观和管理观点
4、数据管理的使命和长期目标
5、数据管理成功的建议措施
6、符合 SMART 原则(具体Specific、可衡量Measurable、可操作Actionable、现实Realistic、有时间限制Time-limited)的短期(12-24个月-国外)数据管理计划目标
7、对数据管理角色和组织的描述,以及对其职责和决策权的总结。
8、数据管理程序组件和初始化任务
9、具体明确范围的优先工作计划
10、一份包含项目和行动任务的实施路线图草案
二、可交付成果
1、数据管理章程。包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。
2、数据管理范围声明。包括对象和时间,如部门 or 公司 or 集团?3年 or 5年?
3、数据管理实施路线图。包括特定计划、项目、任务分配和交付里程碑。
考点7:数据管理的框架
一、模型*2(说明业务和IT的关系)
战略一致性模型:业务战略、IT 战略、组织和流程、信息系统(4个基本领域)
阿姆斯特丹信息模型:与战略一致性模型一样,从战略角度看待业务和 IT 的一致性
二、框架*3
DAMA车轮图
数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文件和内容管理、参考数据和主数据、数据仓库和商务智能、元数据、数据质量
六边形图
目标和原则–>角色和职责、活动、工具、组织和文化、方法、交付成果。
角色和职责、组织和文化对应人员,活动和方法对应过程、技术对应工具和交付成果。
语境关系图 (PCDO:计划 控制 开发 运营)
定义、目标(业务驱动因素);
输入、活动、交付成果;供给者、参与者、消费者;
方法、工具、度量指标(标准)(技术驱动因素)。
三、进阶*2(工作角度重要,考试角度不重要)
DMBOK金字塔
DAMA数据管理框架的进化
第2章 数据处理伦理(2分)–>工作角度重要,考试角度不重要
伦理是建立在是非观念上的行为准则;伦理准则不仅要保护数据,而且要管理数据的质量。
考点1:定义
数据处理伦理是指如何以符合道德准则及社会责任的方式去获取、存储、管理、解释、分析、应用和销毁数据
考点2:度量指标
1、培训员工人数
2、合规/不合规事件
3、企业高管参与
考点3:数据伦理的准则
1、尊重他人:尊重个人尊严和自主权,不伦理地使用个人数据会直接影响人们之间的相互交往、就业机会和社会地位。
2、行善原则:两个要素:第一,不伤害;第二,将利益最大化、伤害最小化。
3、公正:待人公平和公正
4、尊重法律和公众利益
考点4:GDPR准则(欧盟)
1、公平、合法、透明
2、目的限制
3、数据最小化
4、准确性
5、存储限制
6、诚信和保密
7、问责制度
考点5:违背伦理进行数据处理的风险(还没到法律高度)
1、时机选择
2、可视化误导
3、定义不清晰或无效的比较
4、偏见
(1) 预设结论的数据采集
(2) 预感和搜索
(3) 片面抽样方法
(4) 背景和文化
第14章 大数据和数据科学(4分)
第15章 数据管理成熟度评估(6分)
执行成熟度评估的终点是重新评估,而不是报告。重新评估可以重振或重新集中精力。
评价等级(0-5)
0 级:无能力级
1 级:初始级或临时级:成功取决于个人能力
2 级:可重复级:制定了最初级的流程规则
3 级:已定义级:已建立了标准并使用
4 级:已管理级:能力可以被量化和控制
5 级:优化级:能力提升的目标是可量化的
特殊记忆3级:1)数据被视为组织的推动者; 2)具有扩展能力的流程和工具,减少手工处理过程; 3)流程结果(包括数据质量)更具可预测性
现有 DMMA 框架
CMMI 数据管理成熟度模型、EDM 委员会 DCAM、IBM 数据治理委员会成熟度模型、斯坦福数据治理成熟度模型、Gartner 企业信息管理成熟度模型
规划评估活动
定义目标、选择框架、定义组织范围、定义交互方法、计划沟通
报告三部分:评分、差距分析、建议