1. 数据资产管理框架
数据已经成为当今企业的关键资产之一。有效管理数据资产对于挖掘数据价值、支持业务决策和保障合规性至关重要。本文提出了一个完整的数据资产管理框架,包括数据资产定义和分类、数据生命周期管理以及数据权限和访问控制。
1.1 数据资产定义和分类
首先需要明确数据资产的定义和范围。我们将数据资产定义为对企业有价值且需要被捕获、存储和管理的数据。数据资产包括:
结构化数据:如关系数据库中的数据
非结构化数据:如文档、电子邮件、多媒体文件等
半结构化数据:如XML、JSON等
其次,需要对数据资产进行合理分类,以便于后续的管理和治理。可以根据数据的用途、敏感级别、生命周期阶段等维度进行分类。例如:
根据用途:交易数据、主数据、参考数据等
根据敏感级别:公开数据、内部数据、敏感数据、高度敏感数据
根据生命周期:新建数据、活跃数据、归档数据、过期数据
1.2 数据生命周期管理
数据资产在其整个生命周期中会经历多个阶段,每个阶段都需要相应的管理和控制措施。一个完整的数据生命周期通常包括:计划、采集、存储、使用、归档、销毁等阶段。
以客户数据为例,在计划阶段需要明确采集哪些客户信息;在采集阶段需要遵循数据标准和隐私法规;在存储阶段需要确保数据安全;在使用阶段需要控制数据访问权限;在归档阶段需要备份和保留审计线索;最终在数据过期后需要安全销毁。
1.3 数据权限和访问控制
对数据资产实施严格的权限和访问控制对于保护数据安全、确保合规性至关重要。需要制定细化的数据访问策略,包括:
确定数据的敏感级别和相应的访问权限级别
基于角色的访问控制(RBAC),不同角色被授予不同数据集的访问权限
审计数据访问记录,追踪和分析可疑活动
例如,对于高度敏感的客户数据,可以要求只有业务流程所需的特定岗位才能访问,并记录每一次的访问行为。而公开的企业新闻可以对所有员工开放访问权限。
2. 数据治理
高效的数据治理是实现数据资产管理的关键。本方案涵盖了数据标准制定、元数据管理、主数据管理和数据质量管理等核心内容,并对每个领域提出了具体的实施方式和最佳实践。
2.1 数据标准制定
制定统一的数据标准是数据治理的基石,可确保数据在企业内外部流通和使用时保持一致性和准确性。数据标准应涵盖以下几个层面:
数据模型标准
建立企业级统一的数据模型,定义核心数据实体、属性和关系
使用标准建模符号和命名规范,如采用IDEF1X、UML建模语言
开发数据模型管理工作流,规范模型设计、审核和变更流程
数据定义标准
确立企业内统一的数据术语和定义,避免歧义
对常用实体和核心数据元素制定标准定义,作为其他系统遵循的基准
构建数据词典,集中管理各类数据定义及其来源
数据编码标准
对重要的代码集进行统一规范,包括编码结构、命名规则等
建立编码集注册库,集中管控所有代码集,防止重复和冲突
制定编码集生命周期管理流程,规范新增、变更和停用
数据交换标准
制定统一的数据交换格式,如XML、JSON等
规范交换数据包格式、元素顺序和校验规则
统一接口规范,包括接口命名、版本管理等
例如,对于客户姓名、地址等通用数据项,需要在企业层面达成统一定义,作为各系统客户主数据的参考。同时,针对客户编号、订单状态等代码集,也需要遵守规范的编码结构和命名,以支持跨系统交换和集成。
2.2 元数据管理
元数据管理是核心数据治理能力,通过全面的元数据可以提升数据资产的透明度、可信度和利用率。企业需要建立一站式的元数据管理平台,统一管理以下几类元数据:
商业元数据
从业务角度描述数据的语义,包括数据定义、用途、所有者等
将元数据划分为不同领域,每个领域配备专职元数据管理员
通过自动扫描和人工注释两种方式来收集和维护商业元数据
技术元数据
从技术视角描述数据的物理属性,如数据类型、长度、存储位置等
通过代理或连接器自动采集关系型数据库、NoSQL、文件系统等数据源的*
对于手工开发的数据集,可通过上传Excel等方式补充元数据
操作元数据
记录数据资产的使用情况,如数据流、加工规则、访问日志等
元数据工具与数据集成、数据湖等相集成,自动收集数据处理的操作元数据
通过操作分析,发现热门数据集及其使用模式和依赖关系
数据资产目录
基于上述三类元数据,自动生成企业数据资产目录
通过友好的检索界面,支持业务人员轻松发现和查阅数据资产
数据资产目录也可充当数据产品的展示窗口,推广数据服务
例如,元数据平台中心存储了"客户地址"这一数据项,其商业元数据显示了"地址"的业务定义和用途;技术元数据显示了该字段在不同系统中的物理定义;操作元数据则展现了应用该数据的ETL流程和报表。基于这些360度视图的元数据,业务人员可以充分理解该数据资产,做到可信可用。
人工智能元数据自动化
利用人工智能技术,通过元数据描述文件、数据样本等自动学习数据语义
自动标注待识别数据资产的业务元数据
智能发现数据资产间的语义关联,自动建立知识图谱
通过自然语言处理等技术,提升元数据的可发现性
2.3 主数据管理
主数据作为企业运营的核心数据资产,需要通过主数据管理(MDM)来确保其唯一性、完整性、准确性和一致性。企业需要建立以下MDM能力:
主数据模型设计
制定统一的主数据模型,作为企业内各系统主数据的参考蓝本
对核心主数据实体进行标准化,规范其属性定义、关系等
结合业务需求和现有系统,持续优化并发布主数据模型新版本
集中主数据管理
基于统一主数据模型,构建统一的主数据存储系统或MDM平台
通过数据集成将各系统的主数据实体集中到MDM系统
MDM系统作为整个企业主数据的参考数据源和"金版"
跨系统主数据同步
主数据存储系统与各源系统建立数据同步机制,支持双向同步
根据全局策略规则,解决不同系统间主数据的冲突
确保各业务系统使用的核心主数据始终是一致的
主数据质量管理
针对主数据的完整性、唯一性、一致性等维度制定质量规则
持续监控主数据质量分数,并对低质量数据生成报警
根源分析主数据质量问题,持续优化前置的数据采集和维护流程
企业可优先围绕最核心的主数据实体如客户、产品等构建MDM能力。例如,客户MDM系统集中存储和管理所有客户数据,作为企业内一体化客户视图的参考源。其他系统只从MDM获取和更新客户数据,确保数据的统一。
2.4 数据质量管理
数据质量直接决定着数据资产的价值。企业需要从战略、流程、组织和技术等层面构建数据质量管理(DQM)能力:
数据质量战略
将数据质量纳入企业整体战略,由最高领导层直接发起和支持
明确数据质量对业务的价值,量化质量问题带来的损失
设立数据质量目标,并将其分解到各业务单元和指标
数据质量组织
成立数据质量管理委员会,定期审视质量状况和改进措施
指定数据质量经理负责质量管理的全面执行
每个业务系统/数据域均配备数据steward,负责本领域数据质量
数据质量流程
制定端到端的数据质量管理流程,包括战略制定、评估、根因分析、纠正、监控等环节
建立数据质量问题的发现、记录、分类和跟踪机制
对关键质量问题实施严格的变更控制和审批流程
数据质量技术
选择合适的DQM工具,支持图形化质量规则配置和自动化检测
对数据采集、ETL、存储等关键环节实施嵌入式质量控制
建立集中的数据质量监控仪表板,跟踪质量指标趋势
数据质量维度
根据业务需求和参考框架,制定企业统一的数据质量维度
常见质量维度包括:完整性、唯一性、时效性、准确性、一致性等
对每个维度给出明确的定义和计算公式,确保解读一致
数据质量规则
在质量维度的基础上,进一步制定可测量和可执行的质量规则
覆盖数据采集、存储、处理、输出等全生命周期的质量规则
通过DQM工具将质量规则落到执行层,自动扫描并报警违规数据
数据质量报告和改进
通过DQM工具生成定期的数据质量评分报告,追踪改进进展
对重大质量问题开展质量门诊,分析根源并实施纠正措施
对上游的数据创建和维护流程持续优化,从源头预防质量缺陷
例如,企业可以将"准确性"作为关键的数据质量维度,对客户数据制定"客户地址不能为空"、"电话格式有效"等规则。通过DQM工具扫描发现规则违例,并对违规数据根源分析,找到如采集表单设计存在缺陷等根本原因,持续优化上游环节。
3. 数据运营
为充分挖掘数据资产价值,需要构建高效的数据运营能力,包括数据集成、数据服务和数据分析等。
3.1 数据集成和ETL
企业数据通常分散在多个异构系统和数据源中,需要将其集成到数据集市、数据湖等统一平台,为分析师和数据消费者提供服务。这就需要建立标准化的ETL(提取、转换、加载)流程:
从源系统提取所需数据,处理各种接口和数据格式
对数据执行清洗、转换、扩充等处理,满足下游应用的需求
将处理后的数据加载到目标系统,如数据仓库、数据湖等
以客户营销场景为例,我们可以从CRM、ERP、电商网站等系统提取相关客户数据,执行地址标准化、营销状态计算等转换逻辑,最终加载到营销数据集市中,为营销人员提供高质量的客户360视图。
3.2 数据服务和API管理
提供数据作为服务是实现数据资产价值的重要手段。需要对数据服务实施统一管理,包括:
服务目录:统一管理企业内外部数据服务的元数据信息
服务生命周期管理:从服务设计到发布、测试、上架均有流程控制
API管理:对服务接口实施安全性、性能、访问控制等管理
服务执行监控:跟踪服务调用和执行情况,保证服务质量
例如,企业可以对外开放统一的客户数据API,供合作伙伴调用获取核心客户资料,同时对API实施访问控制和流量限制,确保数据资产的安全。
3.3 数据可视化和报告
通过数据可视化和分析报告,帮助企业从海量数据中发现洞见和价值。需要打造自服务式的分析平台,提供:
可视化仪表板设计:支持拖拽式的看板布局和图表绑定
报告设计和调度:设计分析报告并按计划触发执行和发布
数据集管理:对接元数据系统,探索和选择所需的数据源
用户权限和协作:控制对仪表板和报告的访问权限,支持分享和讨论
例如,营销团队可基于营销数据集市,自助设计客户细分分析看板,并订阅每周自动生成的营销报告,支持数据驱动的营销策略制定。
4. 技术架构选型
根据上述数据资产管理和数据治理需求,需要选择满足功能、性能、开放性等条件的软件产品或工具。以下是一些建议的关键组件:
4.1 元数据管理工具
用于集中存储和管理企业数据资产的元数据信息,建议具备图形化的元数据建模、扫描和挖掘等功能。可选产品包括:
开源工具:Apache Atlas、Amundsen等
商业工具:Collibra、IBM InfoSphere等
4.2 主数据管理工具
用于集中管控主数据实体,提供主数据建模、集中存储、质量监控等能力。可选产品包括:
开源工具:Apache Kafka、Redis等
商业工具:IBM InfoSphere MDM、Informatica MDM等
4.3 数据质量工具
用于制定和执行数据质量规则,监测各项质量指标并生成报告。可选产品包括:
开源工具:Great Expectations、Deequ等
商业工具:SAS DataQuality、Informatica Data Quality等
4.4 数据集成和ETL工具
用于从各种数据源提取、转换和加载数据到目标系统。建议支持可视化开发、云原生、流式处理等现代特性。可选产品包括:
开源工具:Apache NiFi、Airflow等
商业工具:Informatica PowerCenter、IBM DataStage等
上述仅为部分推荐,具体产品的选型需要结合企业的技术现状、团队能力、预算等因素综合考虑。
5. 组织和流程
数据资产管理不仅需要技术支持,更需要完善的组织结构和明确的流程,以确保各项举措的顺利执行和持续改进。
5.1 数据治理委员会/协调小组
需要成立一个职能横跨各部门的数据治理委员会或协调小组。该小组需要由高层管理者支持和赋能,并包含IT、业务、法务、安全等代表,负责制定数据治理战略和政策,评审标准规范,监督整体执行情况。
5.2 角色和职责
另外需要明确数据资产管理相关的角色及其职责,例如:
数据督导:协调全公司数据战略执行,主导数据治理活动
数据产品经理:负责数据产品与服务的设计、开发和交付
数据架构师:设计企业数据架构,制定数据模型和标准
数据质量经理:评估数据质量,优化质量管理流程
数据资产管理员:作为业务部门的数据代表,负责审视本部门数据的质量和使用情况。
这些角色需要配备合格的人员,给予充分的支持和赋权。
5.3 沟通和变更管理
由于数据治理和资产管理涉及面广、影响大,需要建立有效的沟通机制,包括:
定期举行委员会会议,下达战略方针,审视进展
针对标准变更组织评审会,并及时通知相关方
构建数据资产社区,鼓励员工交流和反馈
开设培训课程,提升员工数据资产管理意识
同时对重大变更需要实施科学的变更管理,包括评估影响、制定过渡计划、沟通宣讲、验证上线等环节,以降低变更风险。
参考阅读
数据资产类
城市全域数字化转型框架(附评估模型)
数据生命周期管理(万字长文)
数据资产价值评分模型
数据产品开发方法
数据资产评估指标和模型
数据资产管理解决方案
金融数据资产管理指南
数字化人才体系建设指南
如何构建现代数据治理体系
2024最权威数字化战略制定与实施指南
数据城投跑步入场
23家上市公司数据资产入表首批名单
解锁数据资产价值的金钥匙 —— 收益法评估指南
5个银行数据资产抵押贷款案例
数据资产合规评估指南
数据资产开发实施指南
全球数据资产交易模式
公共数据资产目录建设指南
公共数据管理运营方案(专业版)
数据资产评估成本法详解
数据资产类型详述
银行数据资产目录盘点
数据资产买方市场解读
数据科学才能释放数据资产价值
数据质量管理
数据资产目录建设指南
数据资产价值评价体系建设
2024数据平台建设指南
数据资产入表指南
数据要素深度解析
数据资产运营
数据要素全流程
数据资产总路线图
数据资产开发全流程
数据科学类
数据科学在精准营销领域的应用
数据科学在银行行业的应用
银行数据资产目录盘点
2024如何成为一名优秀的数据科学家
数据科学才能释放数据资产价值
18种数据挖掘算法及应用场景
数据科学应用:狂奔的Netflix(奈飞)
数据建模的方法和步骤
数据挖掘和分析理论
10大常见算法模型与场景应用
商业创新类
AI大模型(LLM)教育产品设计方案
什么叫数据驱动型企业
创业者如何实现爆发式增长
最新英伟达CEO黄仁勋心路历程
AI入门必读两本书
Buffer:透明度极高的新型公司
10大AI工具,助你成为超级个体
更多详情,搜公众号:Data200
本文原创,转载请扫上方二维码联系作者。