京公网安备 11010802034615号
经营许可证编号:京B2-20210330
企业数据质量管理核心要素和技术原则
在这个环境和趋势中,数据是得以实现整个规划布局的前提。
在将数据作为资产的前提下,企业的运营需要准确的、完整的、及时的、高价值、高质量的数据。
一、数据质量管理的三个要素
数据是企业数字化转型的核心要素,企业的决策者根据数据背后所反映出来的现象或趋势。分析并洞察出其背后有价值的信息,进而在决策和行动中,赢得先机,做出正确的判断。
企业产品生产过程中数字化能力已经逐步取代传统的产品制作模式,以生产男式西装为主红领集团为例,用户在手机APP上下单之后,测量师会到你家里做定式测量,然后在版型库里做自动设计,自动排产之后就能生产使用了。整个过程都是基于高质量的数据驱动的,数据质量成为业务的生命线。
在企业数字化转型的进程中,数据的质量成为了一个制约因素。
数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业业务能力的基础。
但劣质的数据还不如没有数据依据经验的进行决策,通过错误的数据分析出的结果会带来灾难。
数据质量问题产生的原因有很多方面,比如在技术、管理、流程方面都会碰到。企业要在把这些方面的数据质量问题都管控到,监控好,才能从整体上提高质量水平。
今天我们先谈一下在技术领域中该注意哪些。
在技术问题域中要提高数据质量水平,数据的梳理、数据规范以及数据生命周期是三个关键的要素。
我们先来看数据梳理,数据梳理有两个目的:
摸清楚企业当前有哪些数据,分别在什么地方,表现形态是什么样子的,是哪些业务部门使用,哪些技术部门支撑,它能为数据质量提升提供一个全面的数据现状参考。
理清楚企业当下数据的分类以及分类之间的关系,进而知道哪些数据是基础数据,哪些是由基础数据组装成的衍生数据,明确了这些也就找到了提升数据质量水平的突破点。
在项目实践中,对数据梳理核心的一环是对企业内的元数据梳理,对元数据的梳理能解决理清企业数据现状和明晰核心基础数据,是数据梳理的核心工作内容,被一些企业形象的比喻成摸家底工程。
如上图所示,我们对企业交易数据进行剖析发现,交易数据的组成其核心是由主数据、参考数据和元数据组成。如果每一类数据的元数据在名称和格式上存在差异的话,那么数据的质量必然不高。
例如:在交易数据里面有产品名称和描述这两个元数据,而在主数据中表述这两个对象的名称是产品名称和产品描述,若两边的字段类型长度也存在不一致,那数据有质量问题那是必然的。
下面我们介绍数据规范,这里的规范主要指数据标准和数据模型,我们分开介绍。
数据模型是获取和定义企业信息需求和数据需求的一种方法,它表述了全企业范围内的数据整合的主蓝图,是系统开发项目的关键输入,也是项目数据需求分析和数据建模工作的基线。
如电力行业的CIM模型,电信行业的ETOM模型,指导这电力和电信信息系统的建设,以确保数据质量从开始就能得到保证,还可以为现有应用软件的数据质量水平提供衡量标准。
数据标准是对企业数据模型的一种补充,是对企业数据模型中重要数据制定的规范性文件,是数据质量管理和监控的手段。
它促进企业数据模型落地,也担负着对企业存量系统中关键数据进行标准化的任务。
企业数据模型在落地的过程中,各部门看待问题的角度不一样,加之有些外购产品的限制,不能很好的按企业数据模型的规范进行落实,导致数据在集成,互联互通的时候碰到数据不一致的问题,数据质量问题随处可见。
如果系统(项目)模型设计的时候,有一套能遵循的规范,那么就能解决这一问题。数据标准就扮演了这么一个角色,它从企业数据模型中剥离出重要的业务实体,在系统(项目)模型设计的时候,实现了对模型设计是否符合企业数据模型规范的监控和评审,并从管理和认责的角度切入进去,很好的解决了上述问题。
数据和货币一样,流通起来的价值远远大于它静态的价值。因此我们要对数据生命周期的每个环节进行监控把关,知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。
比如在规划阶段,我们要参考企业数据模型进行系统模型的设计,并且要遵循数据标准的规范要求。在获取阶段要重点关注数据的及时性问题,数据传输的问题;
在存储和共享过程中要重点关注数据的整合问题,数据一致性,完整性问题。
数据生命周期我们在实践中总结了几个技术原则,在第二部分的分享中给大家做介绍。
这里,我们针对数据生命周期再介绍一种分析数据质量问题的应用场景,它对我们实施数据质量项目,是一个不错的参考。
上图是客户信息产生,维护和使用的一个样例场景。
在图中每个节点是企业中的一个部门,客户信息从左至右流动,在这个场景中我们发现销售部、市场部、客户信息管理部都有维护客户信息的权利,且所使用的系统不统一。
在系统建设时,元数据,数据格式,信息校验方式都不一致,这导致商务职能部,市场策划部通过数据进行分析是产生了很大的困惑,他们必须经过大量的调查明晰数据的含义,进过清洗,转换,标准化数据的格式后才能使用。
利用数据生命周期的分析思路,若能在管理和流程上明确数据维护的责任主体,在源头处切入质量监控节点,对关键元数据进行统一,将能有效的解决这些问题,数据质量也能大幅度的提升。
二、 数据质量管理的技术关键点
在技术实践上,如何利用技术能力,帮助企业更容易的实现数据质量的提升,我们在项目中提炼了四项技术原则。
原则1::从需求开始控制数据质量
数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易出现的问题是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
原则2:在集成点检查数据质量
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。
但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。
原则3:持续积累检核规则
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
原则4:自动化质量评分
企业的数据管理需要对整个企业大数据的质量有评判机制,需要能够自动化的对企业数据评分,促进整改。通过控制防止问题数据进入大数据平台。特别对于第三方数据,第三方数据的质量需要建立一定的评估模型,对于第三方数据的质量做一定的控制,从而能够保护企业的投资,使企业购买的数据真正有价值和意义。
三、数据质量管理实战
上面介绍了数据质量管理的核心三要素,以及基于三要素在实战中抽取出来的四项技术原则。下面我们看一个完整案例。
这是一个新建系统从需求到投产的场景案例,数据质量管控和切入共包含五个步骤。
基于系统建设的业务需求,分析数据标准规范,建立需求和标准的映射。从企业角度通过映射标准了解到需求是解决那个数据主题域的业务问题。数据标准的映射也统一了业务术语,实现了源头出控制质量的目的。
参考企业数据模型,依据本次业务需求设计出系统(项目)模型,系统模型的核心数据模型来源于企业数据模型。企业数据模型的参考从模型层面避免了,字段类型,字段长度,字段命名不统一,不一致的问题。
上述两步骤完成了数据生命周期的规划阶段,也按数据管理要素二思路落实企业数据模型。步骤三实现了本次系统建设的元数据管理,附加实现了核查系统元数据是否符合企业数据模型规范,是否符合数据标准规范的工作。
对涉及数据集成整合的场景,要对数据生命周期中数据传输的几个环节进行数据质量监控和检核,也就是在集成点处进行监控。在此阶段设计到数据质量规则制定的工作内容。实现传输过程中数据质量的把关。
若本次系统建设导致其他系统发生变更时,需要协同变更,是否发生变更时基于数据梳理实现元数据自动化管理所带来的直接保证。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01