
企业数据质量管理核心要素和技术原则
在这个环境和趋势中,数据是得以实现整个规划布局的前提。
在将数据作为资产的前提下,企业的运营需要准确的、完整的、及时的、高价值、高质量的数据。
一、数据质量管理的三个要素
数据是企业数字化转型的核心要素,企业的决策者根据数据背后所反映出来的现象或趋势。分析并洞察出其背后有价值的信息,进而在决策和行动中,赢得先机,做出正确的判断。
企业产品生产过程中数字化能力已经逐步取代传统的产品制作模式,以生产男式西装为主红领集团为例,用户在手机APP上下单之后,测量师会到你家里做定式测量,然后在版型库里做自动设计,自动排产之后就能生产使用了。整个过程都是基于高质量的数据驱动的,数据质量成为业务的生命线。
在企业数字化转型的进程中,数据的质量成为了一个制约因素。
数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业业务能力的基础。
但劣质的数据还不如没有数据依据经验的进行决策,通过错误的数据分析出的结果会带来灾难。
数据质量问题产生的原因有很多方面,比如在技术、管理、流程方面都会碰到。企业要在把这些方面的数据质量问题都管控到,监控好,才能从整体上提高质量水平。
今天我们先谈一下在技术领域中该注意哪些。
在技术问题域中要提高数据质量水平,数据的梳理、数据规范以及数据生命周期是三个关键的要素。
我们先来看数据梳理,数据梳理有两个目的:
摸清楚企业当前有哪些数据,分别在什么地方,表现形态是什么样子的,是哪些业务部门使用,哪些技术部门支撑,它能为数据质量提升提供一个全面的数据现状参考。
理清楚企业当下数据的分类以及分类之间的关系,进而知道哪些数据是基础数据,哪些是由基础数据组装成的衍生数据,明确了这些也就找到了提升数据质量水平的突破点。
在项目实践中,对数据梳理核心的一环是对企业内的元数据梳理,对元数据的梳理能解决理清企业数据现状和明晰核心基础数据,是数据梳理的核心工作内容,被一些企业形象的比喻成摸家底工程。
如上图所示,我们对企业交易数据进行剖析发现,交易数据的组成其核心是由主数据、参考数据和元数据组成。如果每一类数据的元数据在名称和格式上存在差异的话,那么数据的质量必然不高。
例如:在交易数据里面有产品名称和描述这两个元数据,而在主数据中表述这两个对象的名称是产品名称和产品描述,若两边的字段类型长度也存在不一致,那数据有质量问题那是必然的。
下面我们介绍数据规范,这里的规范主要指数据标准和数据模型,我们分开介绍。
数据模型是获取和定义企业信息需求和数据需求的一种方法,它表述了全企业范围内的数据整合的主蓝图,是系统开发项目的关键输入,也是项目数据需求分析和数据建模工作的基线。
如电力行业的CIM模型,电信行业的ETOM模型,指导这电力和电信信息系统的建设,以确保数据质量从开始就能得到保证,还可以为现有应用软件的数据质量水平提供衡量标准。
数据标准是对企业数据模型的一种补充,是对企业数据模型中重要数据制定的规范性文件,是数据质量管理和监控的手段。
它促进企业数据模型落地,也担负着对企业存量系统中关键数据进行标准化的任务。
企业数据模型在落地的过程中,各部门看待问题的角度不一样,加之有些外购产品的限制,不能很好的按企业数据模型的规范进行落实,导致数据在集成,互联互通的时候碰到数据不一致的问题,数据质量问题随处可见。
如果系统(项目)模型设计的时候,有一套能遵循的规范,那么就能解决这一问题。数据标准就扮演了这么一个角色,它从企业数据模型中剥离出重要的业务实体,在系统(项目)模型设计的时候,实现了对模型设计是否符合企业数据模型规范的监控和评审,并从管理和认责的角度切入进去,很好的解决了上述问题。
数据和货币一样,流通起来的价值远远大于它静态的价值。因此我们要对数据生命周期的每个环节进行监控把关,知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。
比如在规划阶段,我们要参考企业数据模型进行系统模型的设计,并且要遵循数据标准的规范要求。在获取阶段要重点关注数据的及时性问题,数据传输的问题;
在存储和共享过程中要重点关注数据的整合问题,数据一致性,完整性问题。
数据生命周期我们在实践中总结了几个技术原则,在第二部分的分享中给大家做介绍。
这里,我们针对数据生命周期再介绍一种分析数据质量问题的应用场景,它对我们实施数据质量项目,是一个不错的参考。
上图是客户信息产生,维护和使用的一个样例场景。
在图中每个节点是企业中的一个部门,客户信息从左至右流动,在这个场景中我们发现销售部、市场部、客户信息管理部都有维护客户信息的权利,且所使用的系统不统一。
在系统建设时,元数据,数据格式,信息校验方式都不一致,这导致商务职能部,市场策划部通过数据进行分析是产生了很大的困惑,他们必须经过大量的调查明晰数据的含义,进过清洗,转换,标准化数据的格式后才能使用。
利用数据生命周期的分析思路,若能在管理和流程上明确数据维护的责任主体,在源头处切入质量监控节点,对关键元数据进行统一,将能有效的解决这些问题,数据质量也能大幅度的提升。
二、 数据质量管理的技术关键点
在技术实践上,如何利用技术能力,帮助企业更容易的实现数据质量的提升,我们在项目中提炼了四项技术原则。
原则1::从需求开始控制数据质量
数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易出现的问题是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
原则2:在集成点检查数据质量
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。
但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。
原则3:持续积累检核规则
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
原则4:自动化质量评分
企业的数据管理需要对整个企业大数据的质量有评判机制,需要能够自动化的对企业数据评分,促进整改。通过控制防止问题数据进入大数据平台。特别对于第三方数据,第三方数据的质量需要建立一定的评估模型,对于第三方数据的质量做一定的控制,从而能够保护企业的投资,使企业购买的数据真正有价值和意义。
三、数据质量管理实战
上面介绍了数据质量管理的核心三要素,以及基于三要素在实战中抽取出来的四项技术原则。下面我们看一个完整案例。
这是一个新建系统从需求到投产的场景案例,数据质量管控和切入共包含五个步骤。
基于系统建设的业务需求,分析数据标准规范,建立需求和标准的映射。从企业角度通过映射标准了解到需求是解决那个数据主题域的业务问题。数据标准的映射也统一了业务术语,实现了源头出控制质量的目的。
参考企业数据模型,依据本次业务需求设计出系统(项目)模型,系统模型的核心数据模型来源于企业数据模型。企业数据模型的参考从模型层面避免了,字段类型,字段长度,字段命名不统一,不一致的问题。
上述两步骤完成了数据生命周期的规划阶段,也按数据管理要素二思路落实企业数据模型。步骤三实现了本次系统建设的元数据管理,附加实现了核查系统元数据是否符合企业数据模型规范,是否符合数据标准规范的工作。
对涉及数据集成整合的场景,要对数据生命周期中数据传输的几个环节进行数据质量监控和检核,也就是在集成点处进行监控。在此阶段设计到数据质量规则制定的工作内容。实现传输过程中数据质量的把关。
若本次系统建设导致其他系统发生变更时,需要协同变更,是否发生变更时基于数据梳理实现元数据自动化管理所带来的直接保证。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18