京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的生命周期的九个阶段
企业建立大数据的生命周期应该包括这些部分:大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进。

一、大数据的组织
没有人,一切都是妄谈。大数据生命周期的第一步应该是建立一个专门预算和独立KPI的“大数据规划、建设和运营组织”。包括高层的首席数据官,作为sponsor,然后是公司数据管理委员会或大数据执行筹划指导委员会,再往下就是大数据的项目组或大数据项目组的前身:大数据项目预研究团队或大数据项目筹备组。这个团队是今后大数据战略的制定和实施者的中坚力量。由于人数众多,建议引入RACI模型来明确所有人的角色和职责。
二、大数据的现状评估和差距分析
定战略之前,先要做现状评估,评估前的调研包括三个方面:一是对外调研:了解业界大数据有哪些最新的发展,行业顶尖企业的大数据应用水平如何?行业的平均尤其是主要竞争对手的大数据应用水准如何?二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户,对我们的大数据业务有何期望?三是自身状况摸底,了解自己的技术、人员储备情况。最后对标,作差距分析,找出gap。
找出gap后,要给出成熟度现状评估。一般而言,一个公司的大数据应用成熟度可以划分为四个阶段:初始期(仅有概念,没有实践);探索期(已经了解基本概念,也有专人进行了探索和探讨,有了基本的大数据技术储备);发展期(已经拥有或正在建设明确的战略、团队、工具、流程,交付了初步的成果);成熟期(有了稳定且不断成熟的战略、团队、工具、流程,不断交付高质量成果)。
三、大数据的战略
有了大数据组织、知道了本公司大数据现状、差距和需求,我们就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心,它将成为整个组织大数据发展的指引。
大数据战略的内容,没有统一的模板,但有一些基本的要求:
1. 要简洁,又要能涵盖公司内外干系人的需求。
2. 要明确,以便清晰地告诉所有人我们的目标和愿景是什么。
3. 要现实,这个目标经过努力是能达成的。
四、大数据的定义
我认为:“数据不去定义它,你就无法采集它;无法采集它,你就无法分析它;无法分析它,你就无法衡量它;无法衡量它,你就无法控制它;无法控制它,你就无法管理它;无法管理它,你就无法利用它”。所以“在需求和战略明确之后,数据定义就是一切数据管理的前提”。
五、 数据采集
1. 大数据时代的数据源很广泛,它们可能来自于三个主要方面:现有公司内部网各应用系统产生的数据(比如办公、经营生产数据),也有来自公司外互联网的数据(比如社交网络数据)和物联网等。
2.大数据种类很多,总的来讲可以分为:传统的结构化数据,大量的非结构化数据(比如音视频等)。
3. 数据采集、挖掘工具很多。可以基于或集成hadoop的ETL平台、以交互式探索及数据挖掘为代表的数据价值发掘类工具渐成趋势。
4. 数据采集的原则:在数据源广泛、数据量巨大、采集挖掘工具众多的背景下,大数据决策者必须清楚地确定数据采集的原则:“能够采集到的数据,并不意味着值得或需要去采集它。需要采集的数据和能够采集到的数据的"交集",才是我们确定要去采集的数据。”
六、数据处理和分析
业界有很多工具能帮助企业构建一个集成的“数据处理和分析平台”。对企业大数据管理者、规划者来讲,关键是“工具要满足平台要求,平台要满足业务需求,而不是业务要去适应平台要求,平台要去适应厂商的工具要求”。那么这个集成的平台应该有怎样的能力构成呢?它应该能检索、分类、关联、推送和方便地实施元数据管理等。见下图:
七、 数据呈现
大数据管理的价值,最终要通过多种形式的数据呈现,来帮助管理层和业务部门进行商业决策。大数据的决策者需要将大数据的系统与BI(商业智能)系统和KM(知识管理)系统集成。下图就是大数据的各种呈现形式。
八、 审计、治理与控制
1.大数据的审计、治理和控制指的是大数据管理层,组建专门的治理控制团队,制定一系列策略、流程、制度和考核指标体系,来监督、检查、协调多个相关职能部门的目标,从而优化、保护和利用大数据,保障其作为一项企业战略资产真正发挥价值。
2.大数据的治理是IT治理的组成部分,大数据的审计是IT审计的组成部分,这个体系要统筹规划和实施,而不是割裂的规划和实施。
3.大数据的审计、治理与控制的核心是数据安全、数据质量和数据效率。
九、 持续改进
基于不断变化的业务需求和审计与治理中发现的大数据整个生命周期中暴露的问题,引入PDCA等方法论,去不断优化策略、方法、流程、工具,不断提升相关人员的技能,从而确保大数据战略的持续成功!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28