
数据仓库成熟度模型
我们中的许多人都曾经多年从事数据仓库管理工作。有些人做出了战略性的系统,让用户和企业高管十分满意。有些人则在为维持企业持续投入支持数据仓库项目挣扎,同时他的用户却在拼命要求更好更准确的信息。
怎样才能有个成功的解决方案?你的数据仓库方案跟同行业中的公司相比如何?怎样才能将你的解决方案提升一个层次?
今天又很多数据仓库项目经理都在问以上的问题。不幸的是,没有一个容易的解答。TDWI开发了一个数据仓库成熟度模型,以供参照。这个模型提供了一个便捷的方式来衡量你的数据仓库解决方案,现在在哪,下一步该怎么做。
数据仓库成熟度模型
图1:商业价值随着各个阶段上升。大多数的组织如今处于儿童和少年阶段。
六个阶段
该模型由六个阶段组成:孕育期,婴儿期,儿童期,少年期,成人期,长者期。商业价值随着模型中的各个阶段而增长(图1)。
这些阶段的划分是依据一系列的特性,包括系统范畴,分析结构,管理层观念,分析类型,领导力,投入,技术平台,变革管理,日常维护。本文将围绕其中一些特性展开。组织在成长过程中会同时呈现出不同阶段的特性,并不是清晰的从一个阶段迈向下一个阶段。
在数据仓库/商业智能的发展过程中,有两个关键点,在本模型中称为“海湾”和“鸿沟”。许多企业的项目就卡在这两个点上。他们一脚踩在过去,一脚踏入未来,无法完成飞跃。正因如此,这些企业从未完全进入下一个阶段并从中受益。
要克服这些障碍,最重要的是要改变管理层的观念。要跨越“海湾”,管理层必须认识到 DW/BI 不仅仅是报表系统,并且企业的效率正在被那些他们原来赖以生存的表格和桌面数据所拖累。更为困难的是跨越“鸿沟”,这要求管理层必须意识到 DW/BI 是一个对于整个企业都至关重要的资源,而不仅仅是IT部门。
接下来简要的介绍每个阶段和其特性。
1. 孕育期
管理层报表工具
大多数的组织都有报表系统,制作,打印一堆标准报表,并定期分发给员工,常常是每周、每月、每季度。这些报表的数据来自散乱的数据源(或者是事务性的数据源),IT部门无法快速响应特殊的报表需求。这样,IT部门常常落得骂名,而着急要数据信息的用户常常感到无助。这样的问题在专门为高管分析数据的人员和高级用户身上显得尤为无法忍受。他们只好绕过IT而自己动手,把数据放入Excel中或桌面数据库中,来解决自己的问题。这样就到了下一个阶段。
2. 婴儿期
Spreadmarts
Spreadmarts 是指用Excel表格或桌面数据库来完成 data marts 的功能。每个Spreadmarts包含一系列单独的数据,标准,规则。Spreadmarts之间相互不统一,和报表、分析系统之间也不统一。但是,由于Spreadmarts方便,简单,它无处不在,几乎所有的组织都有大量的Spreadmarts。
Spreadmarts 让组织(或者CEO)无法得到一个清晰、统一的数据全貌。但是,要完全消除Spreadmarts也十分困难,因为它确实很方便,有效。这样,企业面临着一个难以跨越的“海湾”。事实上,Spreadmarts的用户在企业达到最后的两个阶段之前,在数据分析上会牺牲掉很大的自由度,直到新的开发流程和分析服务把本地和企业数据整合在一起。(见图2)。
数据仓库成熟度模型
图2. Spreadmarts 很难消除,因为使用方便,自由。只有在企业到达了最后两个阶段时,本地控制和整个组织的数据才能有效的整合在一起。
3. 儿童期
Data Marts
在儿童期,各部门意识到必须让所有的人员得到及时有效的信息,而不仅仅是高管和分析人员。
Data mart 是指一个共享的分析结构,支持一个单独的应用程序,业务流程或者部门。各部门的人员搜集本部门的需求并以此对data mart进行裁剪,用来满足本部门的需求。接下来,本部门的人员可以使用交互的报表工具(比如,OLAP,交互查询工具,参数化报表等)。这些工具让一般员工更加深入的了解他们的工作流程和相关信息。
但是data marts也有和spreadmarts相似的问题。每个data mart只负责支持本部门的数据,它能很好的满足本部门的需求,但是如果有跨部门的分析需求时,它就显得力不从心了。这里需要的是一种既能够把data marts整合在一起,同时又不会降低本地自由度的机制。这就到了下一个阶段。
4. 少年期
在创建了几个data marts之后,大多数的部门会意识到,他们需要把一些数据定义、规则、维度标准化,以防止将来的数据整合噩梦。在data marts标准化方面,大体上有两种可供选择的方向:中心化或者非中心化,并有8种策略可供选择。其中最常见的策略是创建一个中心数据仓库和一些相互依赖的运行在和数据仓库同一个数据库之上的data marts。这种类型被称为星型结构数据仓库。
交互式的报表和分析。有别于单一目的的data marts,数据仓库支持更深层次的分析。这是因为用户可以运行跨部门的查询,比如财务和运营部门,并从中得到更为有用的信息。
为了更好的监控企业中跨部门的流程和企业的价值链,企业部署了仪表盘程序。仪表盘程序支持的功能包括:报警,向下钻取到更为细节的报表,从非数据仓库的系统中提取数据进行查询,更为及时的数据获取。这样的仪表盘程序的价值在于,它让企业中更多的人从商务智能中受益,而不仅仅是少数的高级用户。这样,在决策层的眼里,DW/BI可以提高企业的效率,让更多的用户获得信息,并在这些信息基础上做出决定,而不是拍脑袋做决定。
5. 成人期
企业级数据仓库(EDW)
尽管数据仓库带来许多好处,但是仍无法完全解决数据一致性的问题。或者是因为内部开发,或者是因为企业并购,当今许多企业有不止一个数据仓库。就像Spreadmarts和独立的data marts一样,这些数据仓库中的数据可能有重合甚至冲突。这给企业内部信息和流程管理带来麻烦。
整合数据。在成人期,企业强调唯一的可靠的数据来源,用以反映事实。决策层把数据看得和员工、设备、现金一样重要,都是企业的宝贵财富。企业选择一个数据仓库或者从头创建一个新的企业级数据仓库。然后数据被从不同的数据源整合进入这个企业级数据仓库中。但是,如果有一个足够灵活的商务智能层,那么这个“把数据整合进企业级数据仓库”的过程可以省略,而是让商务智能工具直接从企业级数据仓库和外部数据中提取数据。这样的好处是,有些外部数据是无法放入数据仓库的(比如实时数据或者Web数据)。对于一些把收购作为企业发展策略之一的企业来说,企业级数据仓库和商务智能工具被作为整合被收购企业数据的主要手段。
管理者和记分员。在成人期,企业级数据仓库作为企业内战略性的资源,用于整合数据来支持一些驱动业务的关键应用程序。为了管理这个重要资源,决策层要建立完善的管理机制,分配业务人员负责重要的数据,并在企业内的各个层次分配人员监督指导数据仓库的开发和扩展。在数据分析方面,企业安排“记分员”监控业务流程,确保这些流程和整个企业战略是吻合的。为了达到企业的战略目标,“记分员”需要常常调整仪表盘程序、现有的标准和优先级、预算等。
投资回报率。在成人期,数据仓库带来的价值开始超过对其的投资了,尤其是在规模经济和快速开发上(见图3)。而且,这时候用户开始发现数据仓库的新的用途,这些用途甚至当时的开发人员都没有预料到,这又进一步提高了投资回报率。
数据仓库成熟度模型
图3. 在第4、5个阶段,数据仓库的回报开始超过对其的投资
6. 长者期
商务智能服务
一旦数据仓库变成战略性的企业资源并且和关键应用程序一起驱动整个业务,你的工作就基本做完了。当然,在此基础上,还可以向外和向下扩展来提高数据仓库的战略价值。
交互式外联网。当今有许多公司已经向其客户和供应商开放了自己的数据仓库—把价值链扩张到企业外部并寻求新的商机。下一代的外联网应用程序不仅仅提供静态的账户报表,而是会给它们的客户和供应商提供简单易用而又功能强大的交互报表工具,以便做出一些业绩横向、纵向比较。有些公司,比如Owens & Minor,已经设立了新的部门,专门出售数据仓库和信息分析服务,这改变了这个产业。
Web服务。同时,企业级数据仓库开发团队正在把分析数据和商务智能功能包装成web服务,这样内部和外部的开发人员在获得授权的前提下可以使用这些web服务。BI服务的出现,让数据仓库和其相应的应用程序可以被嵌入任何应用程序,这样用户再也不用为了分析数据和去切换当前应用程序。用户需要的数据,信息将被嵌入他们日常使用的应用程序中。
决策引擎。BI服务同时也让企业充分利用在统计分析和建模上的投资。企业将统计模型转化为“决策引擎”并嵌入应用程序。用户可将信息输入引擎然后得到引擎的建议,完全不需要统计学背景。当今,决策引擎已经是一些功能强大应用程序的基础,包括欺诈检测,网页个性化,自动贷款批准程序等。
一旦你的数据仓库进入了长者期,它的价值将指数级增长,而用户将渐渐感觉不到它的存在。作为BI服务,数据仓库和分析服务器退居幕后,变为基础设施的一部分。如果它不出问题,你甚至察觉不到它的存在。在社会发展过程中,我们接受了无数的服务,例如电力,污水处理,交通,等等。BI服务也将成为下一个这样的服务。
结论
不论你是否已经达到了“长者期”的特性,或者你还在努力从婴儿期向少年期跨越,这个成熟度模型都能给你一些参考。它让你了解你现在处于哪个阶段,下一个阶段在哪,并且在嘈杂的环境中保持冷静理智。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30