
企业数据质量管理核心要素和技术原则
在这个环境和趋势中,数据是得以实现整个规划布局的前提。
在将数据作为资产的前提下,企业的运营需要准确的、完整的、及时的、高价值、高质量的数据。
一、数据质量管理的三个要素
数据是企业数字化转型的核心要素,企业的决策者根据数据背后所反映出来的现象或趋势。分析并洞察出其背后有价值的信息,进而在决策和行动中,赢得先机,做出正确的判断。
企业产品生产过程中数字化能力已经逐步取代传统的产品制作模式,以生产男式西装为主红领集团为例,用户在手机APP上下单之后,测量师会到你家里做定式测量,然后在版型库里做自动设计,自动排产之后就能生产使用了。整个过程都是基于高质量的数据驱动的,数据质量成为业务的生命线。
在企业数字化转型的进程中,数据的质量成为了一个制约因素。
数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业业务能力的基础。
但劣质的数据还不如没有数据依据经验的进行决策,通过错误的数据分析出的结果会带来灾难。
数据质量问题产生的原因有很多方面,比如在技术、管理、流程方面都会碰到。企业要在把这些方面的数据质量问题都管控到,监控好,才能从整体上提高质量水平。
今天我们先谈一下在技术领域中该注意哪些。
在技术问题域中要提高数据质量水平,数据的梳理、数据规范以及数据生命周期是三个关键的要素。
我们先来看数据梳理,数据梳理有两个目的:
摸清楚企业当前有哪些数据,分别在什么地方,表现形态是什么样子的,是哪些业务部门使用,哪些技术部门支撑,它能为数据质量提升提供一个全面的数据现状参考。
理清楚企业当下数据的分类以及分类之间的关系,进而知道哪些数据是基础数据,哪些是由基础数据组装成的衍生数据,明确了这些也就找到了提升数据质量水平的突破点。
在项目实践中,对数据梳理核心的一环是对企业内的元数据梳理,对元数据的梳理能解决理清企业数据现状和明晰核心基础数据,是数据梳理的核心工作内容,被一些企业形象的比喻成摸家底工程。
如上图所示,我们对企业交易数据进行剖析发现,交易数据的组成其核心是由主数据、参考数据和元数据组成。如果每一类数据的元数据在名称和格式上存在差异的话,那么数据的质量必然不高。
例如:在交易数据里面有产品名称和描述这两个元数据,而在主数据中表述这两个对象的名称是产品名称和产品描述,若两边的字段类型长度也存在不一致,那数据有质量问题那是必然的。
下面我们介绍数据规范,这里的规范主要指数据标准和数据模型,我们分开介绍。
数据模型是获取和定义企业信息需求和数据需求的一种方法,它表述了全企业范围内的数据整合的主蓝图,是系统开发项目的关键输入,也是项目数据需求分析和数据建模工作的基线。
如电力行业的CIM模型,电信行业的ETOM模型,指导这电力和电信信息系统的建设,以确保数据质量从开始就能得到保证,还可以为现有应用软件的数据质量水平提供衡量标准。
数据标准是对企业数据模型的一种补充,是对企业数据模型中重要数据制定的规范性文件,是数据质量管理和监控的手段。
它促进企业数据模型落地,也担负着对企业存量系统中关键数据进行标准化的任务。
企业数据模型在落地的过程中,各部门看待问题的角度不一样,加之有些外购产品的限制,不能很好的按企业数据模型的规范进行落实,导致数据在集成,互联互通的时候碰到数据不一致的问题,数据质量问题随处可见。
如果系统(项目)模型设计的时候,有一套能遵循的规范,那么就能解决这一问题。数据标准就扮演了这么一个角色,它从企业数据模型中剥离出重要的业务实体,在系统(项目)模型设计的时候,实现了对模型设计是否符合企业数据模型规范的监控和评审,并从管理和认责的角度切入进去,很好的解决了上述问题。
数据和货币一样,流通起来的价值远远大于它静态的价值。因此我们要对数据生命周期的每个环节进行监控把关,知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。
比如在规划阶段,我们要参考企业数据模型进行系统模型的设计,并且要遵循数据标准的规范要求。在获取阶段要重点关注数据的及时性问题,数据传输的问题;
在存储和共享过程中要重点关注数据的整合问题,数据一致性,完整性问题。
数据生命周期我们在实践中总结了几个技术原则,在第二部分的分享中给大家做介绍。
这里,我们针对数据生命周期再介绍一种分析数据质量问题的应用场景,它对我们实施数据质量项目,是一个不错的参考。
上图是客户信息产生,维护和使用的一个样例场景。
在图中每个节点是企业中的一个部门,客户信息从左至右流动,在这个场景中我们发现销售部、市场部、客户信息管理部都有维护客户信息的权利,且所使用的系统不统一。
在系统建设时,元数据,数据格式,信息校验方式都不一致,这导致商务职能部,市场策划部通过数据进行分析是产生了很大的困惑,他们必须经过大量的调查明晰数据的含义,进过清洗,转换,标准化数据的格式后才能使用。
利用数据生命周期的分析思路,若能在管理和流程上明确数据维护的责任主体,在源头处切入质量监控节点,对关键元数据进行统一,将能有效的解决这些问题,数据质量也能大幅度的提升。
二、 数据质量管理的技术关键点
在技术实践上,如何利用技术能力,帮助企业更容易的实现数据质量的提升,我们在项目中提炼了四项技术原则。
原则1::从需求开始控制数据质量
数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易出现的问题是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
原则2:在集成点检查数据质量
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。
但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。
原则3:持续积累检核规则
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
原则4:自动化质量评分
企业的数据管理需要对整个企业大数据的质量有评判机制,需要能够自动化的对企业数据评分,促进整改。通过控制防止问题数据进入大数据平台。特别对于第三方数据,第三方数据的质量需要建立一定的评估模型,对于第三方数据的质量做一定的控制,从而能够保护企业的投资,使企业购买的数据真正有价值和意义。
三、数据质量管理实战
上面介绍了数据质量管理的核心三要素,以及基于三要素在实战中抽取出来的四项技术原则。下面我们看一个完整案例。
这是一个新建系统从需求到投产的场景案例,数据质量管控和切入共包含五个步骤。
基于系统建设的业务需求,分析数据标准规范,建立需求和标准的映射。从企业角度通过映射标准了解到需求是解决那个数据主题域的业务问题。数据标准的映射也统一了业务术语,实现了源头出控制质量的目的。
参考企业数据模型,依据本次业务需求设计出系统(项目)模型,系统模型的核心数据模型来源于企业数据模型。企业数据模型的参考从模型层面避免了,字段类型,字段长度,字段命名不统一,不一致的问题。
上述两步骤完成了数据生命周期的规划阶段,也按数据管理要素二思路落实企业数据模型。步骤三实现了本次系统建设的元数据管理,附加实现了核查系统元数据是否符合企业数据模型规范,是否符合数据标准规范的工作。
对涉及数据集成整合的场景,要对数据生命周期中数据传输的几个环节进行数据质量监控和检核,也就是在集成点处进行监控。在此阶段设计到数据质量规则制定的工作内容。实现传输过程中数据质量的把关。
若本次系统建设导致其他系统发生变更时,需要协同变更,是否发生变更时基于数据梳理实现元数据自动化管理所带来的直接保证。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26