京公网安备 11010802034615号
经营许可证编号:京B2-20210330
忘记“大数据”,从“中数据”开始
业界对“大数据”这一概念的质疑声从来就没有停止过,很多人认为它只是一个过度炒作的营销泡沫。确实,单就数据的体量而言,大多数企业并没有Google, Facebook那样的PB级数据。 那么, 大数据究竟有没有意义呢? 数据分析专家Tom Anderson最近给出了一个概念叫“中数据”,根据他的划分, 数据集数据量在10万以下的称为“小数据”, 数据集在1000万以上的称为“大数据”,而在二者之间的称为“中”数据。 Tom Anderson认为, 企业进行数据分析的投资收益率在“中”数据范围内是最高的。 以下是IT经理网编译Tom Anderson的博文:
在我参加了这个星期的美国营销协会的第一届大数据的研讨会后,我更加坚信了我这几年与许多财富1000强企业的营销人员沟通后的一个看法。 那就是:
很少有公司能够分析到所谓“大”数据的量级,而事实上它们也并不需要。 其实, 大部分公司应该开始考虑如何从“中”数据开始。
大数据,大数据, 大数据, 人们到处在谈它, 其实我发现, 真正处理“大”数据的研究者其实很少。 我认为我们应该把“大数据”的概念范围缩小。 引入一个新的更有意义的名词:“中”数据来描述我们目前的大数据热潮。
要了解什么是“中”数据,进而理解大数据, 我们得先知道什么是“小”数据。
“小数据”
上面的图简单地按照数据记录的规模或者说样本的规模对数据的“大”“中”“小”进行了划分
小数据可以包括从定性研究的某个访谈到几千个调查问卷的结果。在这个规模上, 定性分析和定量分析可以从技术上结合起来。 而这两者都不能称之为现在定义的“大数据”。 目前对大数据的定义随着企业对数据的处理水平的不同而不同。通常的的大数据定义指的是用现有普通软件很难分析的数据量。
而这个定义是从IT或者软件提供商的角度来说的。 它描述了企业无法利用现有能力, 必须进行大量硬件软件升级进行有价值的数据分析的情况。
中数据
那么,什么是中数据呢? 进入大数据时代, 有些我们认为是小数据的数据集可能会迅速成长为大数据。 比如 3万到5万条用户满意度调查记录可以用类似IBM的SPSS软件分析。 可是, 如果把这些数据集中加入了用户的评论这样的文本数据, 同样的分析可能就会变得缓慢了。 这同样的数据集现在需要更长的时间来分析,甚至可能导致分析软件崩溃。
如果我们把同样的文本数据用文本挖掘的方式处理的话,新加入数据集的数据将会极大地增加数据量。 这常常就会被认为是大数据, 需要更加强大的软件来处理它。 不过, 我认为, 一个更准确的描述应该是“中”数据, 它其实只是真正大数据的起步阶段(这与IT经理网之前的文章“大数据需大处着眼,小处着手”中的观点不谋而合)。而且对于这个规模的数据量, 其实还是有很多简单的处理手段的。
大数据
好了,我们把大数据的一部分切出来叫做“中”数据。 现在, 我们可以重新定义“大”数据了。
为了理解“大”数据与“中”数据的区别, 我们需要考虑一些不同的维度。 Gartner的分析师Doug Laney曾经对大数据有一个著名的描述, 把大数据分为3个维度:规模(Volume), 种类(Variety)和 速度(Velocity), 通常叫做3V模型。
在理解“中”数据与“大”数据的区别时, 我们只需要考虑两个因素, 成本与价值。
成本(以时间计量或者按照金钱计量)与期望价值构成了所谓的投资收益率(ROI)。 这也可以应用于大数据项目的可行性研究。
我们知道, 有些数据天然的比其他数据具有更高的价值。 (100个客户投诉邮件可能比1000个微博上提到你的产品比起来, 对你的运营分析更有价值。) 当然, 有一点是肯定的: 没有经过分析的数据是没有价值的。
相对于“中”数据来说, “大”数据或者说“真正的大”数据量的分界点在于, 对于分析进行的投入, 相对成本(包括可能从中发现不了什么的风险)来说,并不具有吸引力。 比“中”数据更大的数据量来说, 大数据分析要么并不现实, 要么对企业来说ROI太低。
而“中”数据则是正好在数据分析的最佳范围内, 可以在相对可控的预算前提下进行有价值的分析。
对于很多市场研究人员来说, “中”数据才是一个真正能够提供有价值, 有足够ROI的分析目标。 而真正“大”数据分析, 则会呈现递减的ROI。
在最近我去德国的一次出差中, 我有幸遇到了一位在欧洲核子研究中心从事大型对撞机项目的科学家。 相对于大型核子对撞机来说, 普通的商业企业不需要像那样的软件和硬件来进行那个规模的大数据分析。 对撞机的1亿5千万个传感器每秒钟产生4000万条数据。 而实际上, 即使是欧洲核子研究中心的科学家们, 也不会去分析如此打规模的数据量。 他们在分析前过滤掉来99.999%的粒子对撞数据!
对我们普通企业来说, 对消费者的分析相对简单得多。 对于数据或者文本挖掘, 我们不需要EB或者PB级别的处理能力或者在数以千计的服务器上跑大型并发软件, 目前其实有一些很好的软件能够处理我们一般企业的“中”数据需求。 一提到大数据, 媒体常常提到的是亚马逊, 谷歌或者Facebook。 就算是这些案例中(很多 听上去更像是IT销售鼓吹的科幻小说), 也并没有提到这些公司在数据分析中实际使用的样本的量。
就像欧洲核子研究中心的科学家发现的那样, 相对一股脑处理全部数据的做法, 更重要的是能够正确的分析对研究相关的那部分重要数据。
那么, 读者可能会问“既然‘中’数据比‘大’数据更加具有吸引力, 为什么我们分析‘小’数据不是更好吗?”
这里的关键是, 随着数据量的增加, 我们不但可以对分析结果更加具有信心, 而且可能会发现一些传统的“小”数据所不能发现的现象。 对市场分析来说, 这可能意味着发现了一个新的细分产品市场或者竞争对手的新动向, 对药物研究来说, 可能意味着发现一些小的人群细分与某些癌症的高风险关联 从而拯救生命。
“中”数据应该被更加明确的定义, 而且也需要更多的最佳实践。 不幸的是, 经常有一些企业的CEO或者CIO会要求IT人员“采集所有的数据, 全面分析数据”。 这样的过程, 他们其实在制造真正的“大”数据, 这种数据量常常是超过需要的。 这就产生了我一直在提的ROI的问题。 追求真正的“大”数据常常不能给你带来任何优势。 经验丰富的“小”数据或者“中”数据的分析人员知道, 对于“大”数据的分析常常是没有满意结果的。 而相对投入的成本来说, 从ROI的角度是不值得的。
因此, 对于“大”数据分析而言, “中”数据才应该是我们真正需要瞄准的目标。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06在 CDA(Certified Data Analyst)数据分析师的工作中,“可解释性建模” 与 “业务规则提取” 是核心需求 —— 例如 “预测用户 ...
2025-11-06在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05