
大数据分析:描述型、预测型和规定型
有什么可以区别这三种主要类型的分析呢?一位数据科学家解释了其中的差异。大部分原始数据,特别是大数据,不能在其未加工状态为我们提供很大的价值。当然,通过应用合适的工具,我们可以从这个存储的碎片中提炼出有力的见解。
任何大数据的设置,第一步是捕获大量的数字信息,“使其不存在短缺的问题”迈克尔·吴博士说。
有了第一手资料,就可以开始做分析了。但是,你该从哪里开始?哪一种分析类型更适合你的大数据环境呢?
吴在接受采访时解释了描述型的,预测型和规范型分析的不同,以及它们如何为组织提供价值。
他说。“一旦你有足够的数据,你就开始看到模式了,你就可以建立一个这些数据如何起作用的模型了。一旦你建立了一个模型,你就可以进行预测了。”
第一步:描述型分析
将描述型分析称为“最简单的一类分析,”利用这种分析你可以将大数据压缩成更小,更有益的信息。“记住,最原始的数据,尤其是大数据,不适合供人分析,但我们从数据中得出的信息是可以供我们分析的,
描述型分析的目的是总结发生了什么事。吴估计,超过80%的商务分析——最明显的是社会分析——是描述型的。
预测型分析是数据缩减的下一步
它利用各种统计,建模,数据挖掘技术和机器学习技术来研究近期的和历史的数据,从而使分析家对未来做出预测。
“预测型分析的目的不是为了告诉你将来会发生什么,”吴博客中写到。 “它不能做到这一点。事实上,任何分析都不能做到这一点。预测型分析只能预测在将来可能发生的事情,因为所有的预测型分析都是概率性的。”
吴告诉信息周刊说,在预测型分析的最一般的情况下,“基本上你需要得到你预测中没有的数据”
例如,情感分析是预测型分析的一种常见类型:
吴说:“纯文本的输入模型,以及这一模型的输出是一个情感指数,无论是积极的,消极的,或介于+1或-1之间的东西。”
在这种情况下,该模型计算出分数,但是它不一定能预测未来。相反,“它能预测我们没有的数据,即情绪标签数据,无论是正面或负面,”吴说。
规范型分析这一新兴技术通过建议一个或多个课程行动,以及显示每一决策的可能成果,超越了描述型和预测型模型
“规定型分析是预测型分析的一种,”吴说。“基本上是当我们需要规定一个动作,因此交易的决策者可以利用这一信息并采取行动。”
他补充说,预测型分析不能预测一个可能的未来,而是基于决策者行动的“多个未来”。
此外,规定型分析需要一个预测模型有两个额外的组件:可操作的数据和一个可以追踪所采取的行动所产生结果的反馈系统,。
“由于规定型模型能够预测基于不同行为选择可能带来的各种后果,它也可以为您推荐基于任何预先指定结果的最好的行动过程,”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29