京公网安备 11010802034615号
经营许可证编号:京B2-20210330
BI数据集成的作用不可小觑
数据集成是商业智能(BI)流程的关键组成部分,可将来自多个源系统的数据进行整合,并将它们合并到数据仓库以作分析。不过,对于BI数据集成策略,数据管理分析师提醒从业者不可掉以轻心;一旦设计执行不得当,策略很容易就会出现漏洞。
美国Intelligent Solutions咨询公司的总裁Claudia Imhoff说,数据必须及时上传到数据仓库为BI计划所使用,若时机不当,所有的工作就会毁于一旦。由于有些用户需要对数据进行实时处理,这就要求BI和数据集成团队充分理解企业的BI需求。
Imhoff提到,数据质量非常重要,对不良数据进行校对与清理不应该只是BI数据集成流程的专有功能。“错误无处不在,我们需要找出它们的来源。”只有这样,我们才能从一开始就预防源系统的数据错误。实际上,合并错误数据本来就是数据集成和BI专家们工作的一部分,所以出了纰漏他们是要负责任的。她说:“我们需要让员工明白,他们的任务不仅仅是做一个传输者。”
Gartner分析师Ted Friedman认为,BI数据集成存在的最大问题就是人们对数据质量的关注度不够。“我已经从事数据集成工作超过十年之久了,但还是要花很多精力去说服企业,让他们了解BI的作用和价值,使他们接受并信任自己的BI决策,这主要是由于他们还没找到正确的方法保证数据的质量。”
Friedman说,对于“倔强”的企业,数据质量问题的负面影响不仅仅在于BI方面,但糟糕的数据质量绝对是BI项目获得成功实施的主要障碍之一。企业在将信息载入到数据仓库的过程中,从头到尾都忽视数据的质量、发现问题后也不采取任何减缓措施就会造成这样的局面。
James KoBIelus曾在Forrester公司担任分析师,今年初跳槽到了一家技术供应商。他指出,数据质量方面的失误已经成了BI数据集成工作中普遍存在的问题。[page]
KoBIelus曾说过:“企业总以为把后台应用程序中的数据导入数据仓库以后,不需要做任何清理、匹配、融合或者转换工作就可以直接使用。”这样一来,公司总会碰到各种各样出其不意的问题。例如,“同一个名下出现六条记录,没人知道哪条才是正确的。”
BI数据集成的影响力不可小觑
Baseline Consulting公司的创始人之一Jill
Dyche称,还有一个造成数据不一致而产生负面影响的原因,就是企业内部对记录系统结构存在分歧。打个比方,工作人员无法确定哪一个交易系统应该用作客户地址信息源。这样的争论通常涉及“地址”的定义--在各不相同的情况下,到底以客户的账单地址为准?还是送货地址?抑或是公司地址?
Dyche说:“就这样,论战相继而发,于是业务人员开始怀疑BI团队对于正确数据的理解及传输能力。然后,有人就会建议干脆把全部信息丢进一个数据库里,可业务人员又不愿意这么做。”
9sight Consulting公司的创始人Barry Devlin认为,在制定BI数据集成的策略与方案过程中,员工不会造成什么太大的失误。“他们是业务团队中一个特殊的群体,拥有多年的数据处理经验,对数据理解颇深;他们是十足的专家和达人。”因此,对于数据如何进行集成、怎样生成高效的BI应用程序,他们拥有最佳决定权。
Devlin说,尽管如此,IT部门员工在大多数时候不仅负责实施工作,还需要改进数据集成方案。在Devlin看来,虽然IT专业人士可能对企业数据有着很好的理解,但他们还不能称其为真正的专家。他说,使这两个团队联合起来共同完成BI数据集成困难重重,却别无选择。
Imhoff称,目前一些企业对BI毫无经验可言,也不具备满足BI项目数据集成需求的能力,却急于达成目标,制定出不切实际的计划。然而,对数据进行集成并上传到数据仓库这一流程占据了整个BI项目60%到80%的工作量。如果一个项目团队想要一次完成所有的工作,那么他们不久后就会以失败告终。她认为这样的趋势正在愈演愈烈,于是告诫道:“不要指望一口吃成一个胖子。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21