数据资产盘点：实践指南

2024-06-28 00:00#1 标记1

在当今数字化时代，数据已然成为企业最宝贵的资产之一。然而，许多企业面临着"数据富有，信息贫乏"的窘境。究其原因，往往是因为企业对自身拥有的数据资产缺乏全面、清晰的认识。就像一个杂乱无章的仓库，即使里面堆满了珍贵的物品，如果找不到所需的东西，这些物品也难以发挥价值。因此，数据资产的识别与分类成为了企业数字化转型的关键一步。
1. 数据源梳理:寻找数据的源头
数据源梳理是数据资产识别的第一步，也是最关键的步骤之一。它就像是绘制一张企业数据地图，帮助我们找到所有数据的来源和存放位置。这个过程可能会让人感到繁琐，但却是不可或缺的。想象一下，如果我们要整理一个大型图书馆，第一步难道不是要知道所有的书都在哪里吗?
1.1 常见数据源类型
在开始梳理之前，我们需要了解企业中常见的数据源类型。这些类型包括但不限于:
a) 业务系统:这是企业数据的主要来源。例如，ERP系统存储了大量的交易数据、财务数据和库存数据;CRM系统包含了客户信息、销售线索和商机数据;人力系统则涵盖了员工信息、薪酬数据等人力资源相关数据。
b) 数据仓库和数据湖:这些是企业为了更好地管理和分析数据而建立的集中存储和处理平台。比如，一家大型零售企业可能使用Amazon Redshift作为其数据仓库，存储来自各个销售渠道的汇总数据;而一家制造企业可能使用Hadoop数据湖来存储和分析来自物联网设备的海量传感器数据。
c) 文件服务器和共享文件夹:不要小看这些看似普通的存储位置。很多重要的数据可能以Excel表格、Word文档或PDF文件的形式存储在这里。例如，市场部门的调研报告、财务部门的月度报表，甚至是高管的战略规划文档，都可能存在于公司的SharePoint或Google Drive中。
d) 云存储服务:随着云计算的普及，越来越多的企业数据存储在云端。常见的服务如AWS S3、Google Cloud Storage、Microsoft Azure Blob Storage等，可能存储了从日志文件到备份数据等各种类型的信息。
e) 个人电脑和移动设备:虽然从数据治理的角度来看并不推荐，但现实是很多重要数据可能存储在员工的个人设备上。例如，销售人员的客户联系表，研发人员的创意草图，这些都可能存在于个人电脑或平板设备中。
f) 外部数据源:在数据驱动决策的时代，企业越来越多地利用外部数据来补充自身的数据资产。这可能包括从数据供应商购买的行业报告、通过API接入的社交媒体数据，或者是合作伙伴共享的数据集。
1.2 数据源梳理的实施步骤
了解了常见的数据源类型后，我们来看看如何进行全面的数据源梳理。这个过程需要IT部门、业务部门和数据管理团队的紧密合作。以下是一个详细的实施计划:
步骤1:组建跨部门梳理小组
首先，我们需要组建一个跨部门的梳理小组。这个小组应该包括:
IT部门代表:了解公司的技术架构和系统布局
业务部门代表:了解各自部门的数据使用情况
数据管理团队:负责协调整个梳理过程
信息安全团队:确保梳理过程符合安全规范
步骤2:制定数据源调查表
接下来，我们需要设计一份详细的数据源调查表。这份调查表应该包含以下关键信息:
数据源名称和类型
所属部门/业务线
数据描述(存储了什么类型的数据)
数据量估算
更新频率
访问方式和权限
负责人/联系人
举个例子，一份针对ERP系统的调查表可能如下:
数据源名称: SAP ERP系统类型: 业务系统所属部门: 财务部、供应链部数据描述: 包含财务交易、采购订单、库存、生产计划等数据数据量估算: 约500GB，增长速度约50GB/年更新频率: 实时更新访问方式: SAP GUI客户端，部分数据通过BI工具访问负责人: 张三(IT部SAP管理员)
步骤3:展开全面调查
有了调查表，下一步是在全公司范围内展开调查。这个过程可以分为几个阶段:
a) IT系统清单确认:IT部门首先提供一份公司所有IT系统的清单，包括内部部署的系统和云服务。
b) 部门问卷调查:向各个部门发放调查问卷，了解他们使用的系统和数据。这里要特别注意那些"影子IT"，即未经IT部门批准私自使用的系统或工具。
c) 关键人员访谈:对于一些复杂的系统或数据密集型部门，可以安排面对面的访谈，深入了解情况。
d) 技术扫描:使用网络扫描工具，发现网络中的数据存储位置，这可以帮助发现一些被遗漏的数据源。
例如，在调查过程中，我们可能会发现市场部门一直在使用未经IT部门批准的Tableau服务来制作销售报表，里面包含了大量客户和销售数据。这种发现对于全面了解公司的数据资产至关重要。
步骤4:验证和补充
收集到初步信息后，我们需要进行验证和补充:
a) 技术验证:IT团队需要验证每个报告的数据源的技术细节，如实际的数据量、数据结构等。
b) 采样检查:对于重要的数据源，可以进行数据采样，了解实际的数据内容和质量。
c) 补充调查:针对调查过程中发现的问题或疑点，进行补充调查。
在验证过程中，我们可能会发现之前报告的ERP系统实际数据量达到了1TB，远超初始估计。这可能意味着我们需要重新评估数据存储和备份策略。
步骤5:汇总形成数据源清单
最后，我们将所有收集到的信息汇总，形成一份全面的企业数据源清单。这份清单应该是动态的，需要定期更新。清单可以采用电子表格形式，也可以录入专门的数据目录工具中。
一个简化版的数据源清单可能如下所示:

数据源名称	类型	所属部门	数据描述	数据量	更新频率	负责人
SAP ERP	业务系统	财务、供应链	财务、采购、库存数据	1TB	实时	张三
Salesforce	CRM系统	销售、客服	客户、销售、服务数据	500GB	实时	李四
共享文件服务器	文件存储	全公司	文档、报表、图片等	5TB	每日	王五
AWS S3存储桶	云存储	IT部门	日志文件、备份数据	10TB	每小时	赵六

2. 数据分类标准制定
完成数据源梳理后，我们已经对企业拥有的数据资产有了一个全局的认识。下一步是建立一个科学、合理的数据分类标准。这就像是为图书馆里的书籍制定分类系统，目的是让每一份数据都能被正确识别、轻松找到，并得到恰当的管理。
2.1 数据分类的重要性
在深入讨论如何制定分类标准之前，我们先来看看为什么数据分类如此重要:
1) 提高数据查找和使用效率:清晰的分类让用户能够快速定位所需的数据，大大提高工作效率。
2) 支持数据治理:不同类别的数据可能需要不同的管理策略，如安全级别、保留期限等。
3) 优化存储和处理:通过分类，我们可以为不同类型的数据选择最合适的存储和处理方案。
4) 合规要求:很多行业规范和法律(如GDPR)要求对某些类型的数据进行特殊管理。
5) 价值评估:分类有助于识别高价值数据，为数据价值评估提供基础。
2.2 数据分类维度的选择
在制定数据分类标准时，我们需要从多个维度来考虑。每个维度都像是观察数据的一个视角，综合这些视角，我们才能对数据有全面的认识。以下是一些常用的分类维度，我们会详细讨论每个维度，并给出具体的例子:
a) 业务领域维度
这个维度根据数据所属的业务功能或部门来分类。它帮助我们了解数据在业务中的用途和重要性。
示例分类:
销售数据
客户数据
财务数据
人力资源数据
生产数据
供应链数据
一家大型零售企业可能会这样细分其客户数据:
会员信息
购物历史
客户反馈
忠诚度计划数据
这样的分类有助于不同部门快速定位他们需要的客户相关信息。
b) 数据类型维度
这个维度基于数据的结构和形式来分类，有助于选择合适的存储和处理方法。
分类:
结构化数据:如数据库表格中的数据
半结构化数据:如JSON、XML文件
非结构化数据:如文本文档、图片、视频
一家医疗器械公司的数据可能包括:
结构化数据:患者基本信息、设备参数记录
半结构化数据:设备生成的诊断报告(JSON格式)
非结构化数据:医生手写笔记的扫描件、X光图像
了解这些数据类型有助于公司选择合适的数据存储和分析工具。
c) 敏感度维度
这个维度关注数据的机密性和重要性，直接影响数据的访问控制和保护措施。
分类:
公开数据:可以自由传播的信息
内部数据:仅供公司内部使用
机密数据:只有经过授权的人员才能访问
高度机密数据:对公司至关重要，需要最高级别保护的数据
一家科技公司可能这样分类其数据:
公开数据:产品说明书、公司新闻稿
内部数据:员工通讯录、内部培训材料
机密数据:在研产品规格、客户合同
高度机密数据:核心算法、未公布的财务报告
这种分类有助于公司实施分层的数据保护策略，确保敏感信息的安全。
d) 时间维度
这个维度考虑数据的时效性和历史价值，影响数据的存储策略和使用方式。
分类:
实时数据:需要立即处理的当前数据
近期数据:最近一段时间(如3个月内)的数据
历史数据:较旧但仍有分析价值的数据
归档数据:很少使用但需要长期保存的数据
一家电子商务公司可能这样管理其销售数据:
实时数据:当前库存水平、实时订单状态
近期数据:过去30天的销售趋势
历史数据:过去几年的季节性销售模式
归档数据:5年前的交易记录(出于法规遵从需要保存)
这种分类有助于公司优化数据存储策略，如将实时数据存储在快速访问的系统中，而将归档数据转移到成本较低的存储介质。
e) 数据质量维度
这个维度评估数据的可靠性和完整性，影响数据在决策中的使用。
分类:
L3数据:经过严格验证的高质量数据
L2数据:质量良好但可能存在小问题的数据
L1数据:质量一般，使用时需谨慎的数据
待确认数据:质量未知，需要进一步验证的数据
一家市场研究公司可能这样评估其调研数据:
L3数据:大样本、多轮验证的消费者调查结果
L2数据:单一来源的行业报告数据
L3数据:社交媒体抓取的用户评论
待确认数据:新开发的数据采集渠道收集的信息
这种分类有助于分析师了解数据的可靠性，在制作报告时合理使用不同质量等级的数据。
f) 使用频率维度
这个维度反映数据被访问和使用的频繁程度，有助于优化存储和缓存策略。
分类:
高频数据:每天多次访问
中频数据:每周或每月访问几次
低频数据:每季度或每年访问几次
冷数据:极少被访问，但仍需保留的数据
一家保险公司可能这样分类其数据:
高频数据:客户基本信息、当前保单状态
中频数据:月度理赔统计、代理人业绩数据
低频数据:年度精算报告、客户满意度调查结果
冷数据:已结束的保单历史记录
这种分类可以帮助公司设计分层存储架构，将高频数据存储在快速但昂贵的存储系统中，而将罕用数据转移到更经济的存储介质。
2.3 制定数据分类标准的步骤
了解了常见的分类维度后，我们来看看如何制定一个全面而实用的数据分类标准。这个过程需要多方参与，反复讨论和优化。以下是一个详细的步骤指南:
步骤1: 成立数据分类工作组
首先，我们需要组建一个跨部门的工作组，包括:
业务代表:了解各部门的数据需求和使用场景
IT代表:了解技术实现的可能性和限制
数据治理专家:提供数据管理的最佳实践
法务代表:确保分类标准符合法律和合规要求
信息安全专家:提供数据安全相关的建议
步骤2: 调研现有分类实践
在制定新标准之前，我们需要了解企业现有的分类方法:
收集各部门现有的数据分类方法
调研行业最佳实践和标准
考虑相关法规要求
财务部门可能已经有一套成熟的数据分类方法，可以作为整体分类标准的一部分。
步骤3: 确定分类维度
基于前期调研和企业需求，选择适合的分类维度:
选择对企业最重要的3-5个维度
确保选择的维度能覆盖主要的管理需求
考虑维度之间的关系，避免重复或冲突
一家金融机构可能选择以下维度:
业务领域(如零售银行、公司银行、投资银行)
数据敏感度(公开、内部、机密、高度机密)
数据类型(结构化、半结构化、非结构化)
数据质量(L3、L2、L1、待确认)
步骤4: 定义分类类别
为每个选定的维度定义具体的分类类别:
确保类别定义清晰，易于理解
类别之间应该相互排斥，不重叠
类别应该能够覆盖所有可能的情况
控制类别数量，通常每个维度不超过5-7个类别
对于"数据敏感度"维度，我们可以定义如下类别:
公开数据:可以自由传播的信息，如产品目录
内部数据:仅供公司内部使用，如内部通讯录
机密数据:只有经过授权的人员才能访问，如客户财务信息
高度机密数据:最敏感的信息，如并购计划
步骤5: 制定分类规则
为每个类别制定明确的分类规则:
描述如何判断数据属于哪个类别
提供具体的示例和反例
考虑特殊情况和边界条件
对于"机密数据"类别，规则可能包括:
包含客户个人识别信息的数据
未公开的财务报表和预测
正在申请的专利信息
重要的商业合同
步骤6: 制定分类操作指南
创建一个详细的操作指南，帮助数据所有者和使用者正确分类数据:
分类流程图:展示如何逐步判断数据类别
决策树:帮助快速确定数据的分类
常见问题解答(FAQ):解答分类过程中可能遇到的疑问
3. 数据资产清单全景图
完成数据源梳理和分类标准制定后，我们就具备了建立全面数据资产清单的基础。数据资产清单就像是企业数据资产的"资产负债表"，它全面展示了企业拥有哪些数据、这些数据的特征是什么、价值如何等信息。一个高质量的数据资产清单，是实现有效数据治理和价值挖掘的关键工具。
3.1 数据资产清单的重要性
在深入讨论如何建立数据资产清单之前，我们先来看看为什么它如此重要:
1) 全局视图:提供企业数据资产的全景图，帮助管理层了解数据资产的全貌。
2) 决策支持:为数据相关的战略决策提供依据，如数据治理投资、数据集成项目等。
3) 合规管理:帮助识别和管理敏感数据，支持隐私保护和监管合规。
4) 效率提升:使数据使用者能够快速找到所需的数据，避免重复工作。
5) 价值发现:通过系统化整理数据资产，有助于发现潜在的数据价值。
6) 风险管理:帮助识别数据相关的风险，如数据质量问题、安全隐患等。
一家大型零售企业通过建立详细的数据资产清单，发现了多个部门重复收集客户数据的情况。通过整合这些数据源，不仅提高了数据质量，还节省了大量成本。
3.2 数据资产清单的关键要素
一个完善的数据资产清单应该包含以下关键信息:
a) 基本信息
数据集名称:准确描述数据集内容的名称
唯一标识符:每个数据集的唯一ID
描述:对数据集内容和用途的简要说明
数据所有者:负责该数据集管理的部门或个人
数据管理员:日常维护数据的负责人
b) 技术信息
数据源:数据的来源系统或平台
存储位置:数据的物理或逻辑存储位置
数据量:数据集的大小和记录数
更新频率:数据的更新周期
数据格式:如CSV、数据库表、JSON等
c) 分类信息
业务分类:所属的业务领域或功能
敏感度分类:数据的机密级别
其他分类:根据企业定义的分类标准添加
d) 质量信息
质量评级:数据的整体质量评分
完整性:数据的完整程度
准确性:数据的准确程度
一致性:跨系统数据的一致程度
e) 使用信息
主要用户:数据的主要使用部门或系统
使用目的:数据的主要用途
访问方式:如何获取和访问数据
使用限制:使用数据时需要注意的限制条件
f) 合规信息
数据主体:涉及的个人或实体类型
保留期限:数据需要保留的时间
合规要求:适用的法律法规要求
同意管理:是否需要数据主体的同意
g) 关联信息
上游数据:该数据集的数据来源
下游数据:使用该数据集的其他数据集或系统
相关文档:与该数据集相关的文档链接
以一家银行的"客户主数据"为例，其数据资产清单条目可能如下:
基本信息:- 名称: 零售客户主数据- ID: CUS001- 描述: 包含所有零售银行客户的核心信息- 所有者: 客户关系管理部- 管理员: 张三(数据治理团队)技术信息:- 数据源: CRM系统- 存储位置: Oracle数据库 CUST_MASTER表- 数据量: 约1000万条记录，50GB- 更新频率: 实时更新- 数据格式: 关系型数据库表分类信息:- 业务分类: 客户管理- 敏感度分类: 机密- 数据类型: 结构化数据质量信息:- 质量评级: 4.5/5- 完整性: 98%- 准确性: 95%- 一致性: 与信用卡系统存在2%的不一致使用信息:- 主要用户: 营销部，风控部，客服中心- 使用目的: 客户画像，风险评估，服务个性化- 访问方式: 通过数据服务层API访问- 使用限制: 禁止导出完整客户列表合规信息:- 数据主体: 个人客户- 保留期限: 客户关系终止后7年- 合规要求: 遵守GDPR和本地银行业监管要求- 同意管理: 需要客户明确同意才能用于营销目的关联信息:- 上游数据: 客户开户系统，网上银行注册系统- 下游数据: 客户细分系统，营销活动管理系统- 相关文档: 《客户数据管理规范》，《数据质量报告-202306》
这个例子展示了一个全面的数据资产清单条目，涵盖了数据的各个重要方面。
3.3 建立数据资产清单的步骤
现在，让我们详细探讨如何系统地建立数据资产清单。这个过程需要多方协作，并且可能需要持续的努力才能完成。以下是一个分步骤的指南:
步骤1: 准备工作
a) 组建团队:
数据治理专家:负责整体协调
IT代表:提供技术支持
业务代表:提供业务视角
法务代表:确保合规性
b) 确定范围:
决定优先处理哪些数据域或系统
设定清晰的完成目标和时间表
c) 选择工具:
可以使用电子表格(如Excel)开始
考虑专业的数据目录工具(如Collibra， Alation)
一家中型制造企业可能决定先从生产数据和客户数据开始，计划在3个月内完成这两个领域的数据资产清单。
步骤2: 信息收集
a) 利用前期工作:
参考数据源梳理的结果
应用已制定的数据分类标准
b) 技术扫描:
使用数据发现工具扫描数据库和文件系统
收集技术元数据(如表结构，数据量等)
c) 业务调查:
设计调查问卷，收集业务相关信息
与关键人员进行访谈，了解数据的使用情况
d) 文档审查:
审查现有的系统文档，数据字典等
收集相关的业务和技术文档
例如，对于客户数据，可能需要与CRM系统管理员进行技术对接，同时与销售和客服部门进行访谈，了解数据的业务用途和重要性。
步骤3: 信息整理和验证
a) 数据整合:
将从不同渠道收集的信息整合到一起
确保信息的一致性和完整性
b) 初步填写:
根据收集到的信息，初步填写数据资产清单
c) 信息验证:
与数据所有者和主要使用者确认信息的准确性
解决信息不一致或缺失的问题
d) 质量评估:
进行初步的数据质量评估
记录已知的数据质量问题
在整理客户数据信息时，可能发现销售部门和客服部门对数据使用目的的描述有所不同，需要进一步沟通协调，达成一致的描述。
步骤4: 丰富和完善
a) 补充高级信息:
添加数据血缘关系信息
评估数据的业务价值
明确数据的法律和合规要求
b) 标准化描述:
使用统一的术语和格式
确保不同数据集的描述风格一致
c) 链接相关资源:
关联相关的业务术语表
链接数据质量报告，使用指南等文档
d) 审核和批准:
由数据治理委员会或相关负责人审核
正式确认数据资产清单的有效性
对于客户主数据，可能需要明确其与交易数据，营销数据的关系，评估其在客户服务和风险管理中的价值，并确保其处理符合GDPR等隐私法规的要求。
步骤5: 持续维护和更新
a) 建立更新机制:
设定定期审查的时间表(如每季度)
建立变更通知机制，及时捕捉数据变化
b) 指定负责人:
为每个数据域或系统指定维护负责人
明确职责和工作流程
c) 自动化支持:
利用数据目录工具的自动更新功能
建立与源系统的元数据同步机制
d) 用户反馈:
建立用户反馈渠道，收集使用中发现的问题
定期调查用户满意度，持续改进
可以设立一个数据资产管理小组，负责每月审查数据资产清单的更新情况，处理用户反馈，并协调必要的更新工作。
总结
建立和维护数据资产清单是一项复杂的任务，需要组织在技术、流程和人员方面做出综合努力。通过认识到这些挑战并采取相应的策略，企业可以更好地管理其数据资产，从而提高数据的价值和使用效率。关键在于建立一个灵活、可持续的管理框架，能够随着组织的发展而不断调整和优化。
附：数据资产清单示例
1. 客户数据
1.1 客户主数据

属性	值
数据集名称	客户主数据
数据所有者	销售部门
数据管理员	张三（CRM系统管理员）
存储位置	CRM系统数据库
数据量	约500,000条记录
更新频率	实时更新
数据敏感度	高
保留期限	客户关系终止后7年
主要用途	客户关系管理、销售分析、客户服务
数据质量评分	85/100
关键字段	客户ID、姓名、联系方式、地址、客户类型
合规要求	符合《数据安全法》、《个人信息保护法》
访问控制级别	严格（仅授权人员可访问）
数据价值评估	极高（对业务运营至关重要）

1.2 客户交易数据

属性	值
数据集名称	客户交易数据
数据所有者	财务部门
数据管理员	李四（财务系统管理员）
存储位置	ERP系统数据库
数据量	约1,000万条记录/年
更新频率	每日批量更新
数据敏感度	高
保留期限	10年（法律要求）
主要用途	财务分析、客户价值评估、销售预测
数据质量评分	92/100
关键字段	交易ID、客户ID、交易日期、产品ID、金额
合规要求	符合会计准则、税务法规
访问控制级别	中等（财务和高级管理层可访问）
数据价值评估	高（对财务报告和决策分析至关重要）

2. 生产数据
2.1 生产计划数据

属性	值
数据集名称	生产计划数据
数据所有者	生产部门
数据管理员	王五（MES系统管理员）
存储位置	MES系统数据库
数据量	约10,000条记录/月
更新频率	每周更新
数据敏感度	中
保留期限	3年
主要用途	生产排程、资源分配、产能分析
数据质量评分	88/100
关键字段	计划ID、产品ID、计划数量、开始日期、结束日期
合规要求	符合ISO 9001质量管理体系要求
访问控制级别	中等（生产管理人员可访问）
数据价值评估	高（对生产效率和成本控制至关重要）

2.2 设备运行数据

属性	值
数据集名称	设备运行数据
数据所有者	工程部门
数据管理员	赵六（IoT平台管理员）
存储位置	IoT数据湖
数据量	约100GB/天
更新频率	实时采集，每5分钟批量存储
数据敏感度	低
保留期限	原始数据保留6个月，汇总数据保留5年
主要用途	设备维护、效率分析、预测性维护
数据质量评分	95/100
关键字段	设备ID、时间戳、运行状态、温度、振动、能耗
合规要求	符合工业安全标准
访问控制级别	低（工程部门内部公开）
数据价值评估	中（对设备管理和维护重要，但不直接影响核心业务）

3. 数据血缘关系
客户主数据 → 客户交易数据：通过客户ID关联；
客户交易数据 → 生产计划数据：通过产品ID关联；
生产计划数据 → 设备运行数据：通过时间维度和产品ID间接关联；
4. 数据质量问题记录
客户主数据：约5%的记录存在地址信息不完整问题；
客户交易数据：约0.1%的记录存在金额异常，需要人工核查；
生产计划数据：约2%的记录存在计划变更未及时更新的问题；
设备运行数据：约0.5%的数据点由于传感器故障导致数据缺失。

DataHub数据社区会员申请详情
DataHub数据社区成立【会员限时招募】
或直接扫描下方二维码填写表单，提交会员申请

更多详情，可以扫描上方二维码联系号主咨询。