京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代的小数据营销过时了吗_数据分析师考试
在大数据大行其道之时,我们积累了几十年、上百年的小数据处理方法是否就意味着过时了呢?
要回答这个问题,我们还是要先从小数据的定义入手。
目前网络和行业都缺乏对小数据的标准定义,在美国、乃至台湾有一种关于小数据的定义,认为相对于服务趋势和战略的大数据而言,那些服务于个体而形成的数据指标,应该称之为小数据。举例来说,谷歌根据人们在搜索引擎使用的关键词的相关性,判断H1N1流感趋势,为卫生防疫部门提供预防决策属于大数据的典型应用;而耐克和苹果合作开发的“Nike+”软件,为个人的健康和锻炼提供的数据指标和参考,就属于小数据的典型范畴。
我想说的是,如果从维克托的大数据使用的三个原则和标准,我们可以清楚的看到,他所意指的小数据更多的是我们沿用传统方法收集和整理的数据。而这本书的序作者之一的谢文也明确表示,在互联网技术席卷的今天,整个世界会明显地划分为大数据时代、小数据时代、无数据时代,小数据的时代指向更加明显。
所以,我们定义的小数据,应该是在信息和数据不完整的情况下,通过科学抽样和技术调整,为个体或某类具体问题提供数据参考的数据包。
弄清楚了小数据的定义,我们来看看小数据相对于大数据,是不是真的已经out了?
一、整体数据是不是一定优于抽样数据?
互联网技术的发展,为收集整体数据而产生的成本下降直至忽略不计提供了可能,而传统数据的收集方法是在平衡成本和精确之下,选择规范的抽样方法,两者在数量级的比较上就不在一个体量级。从统计的精确度上来说,数据越大,精确度越高,结果也会更加逼近于真相。当年传统的数据处理,正是受制于数据越多成本越大,或者某些现实条件,无法穷尽数据,才不得已采取了抽样分析的折中办法。从数量的角度讲,大数据确实要优于小数据。
但是,小数据分析方法,比如样本方差,尽可能用各类参数将样本与整体之间的差异缩小,让结果无限逼近真实,在趋势和策略判断上,抽样判断和整体判断,其实很多时候都是五十步和一百步的区别;另一方面,小数据时代积累的各类数据处理方法,也仍然是大数据时代数据处理的基础和原则,抛弃小数据来谈大数据,大数据也将是无源之水、无本之木。
二、小数据处理数据的原则是效率优先、精确为辅。
大数据使用的第二个原则追求效率而不是绝对精确,需要重点提到的是,小数据处理体系的存在,正是建立在追求效率而不是绝对精确之上。小数据营销FromEMKT.com.cn一般是针对某类具体问题,在特定的时间段里,需要开展数据的收集、整理和分析,并得出结论以做行动参考。小数据营销更符合实战营销中,不可能在信息完整情况下再进行判断的现实。今天乃至以后很长一段时间的营销现实是:我们必须在竞争对手信息不完整、消费者信息不完整、市场信息不完整等诸多现实情况下,在指定的时间前,做出判断和决策,并付诸于行动。时机就是战机,等到所有信息都完整了,黄花菜也凉了。所以,小数据才会有用抽样代替整体的选择。
另一个现实情况是,在现阶段甚至很长的一段时间里,靠互联网自动采集所有数据还不现实,技术的发展和普及需要时间,很多数据还无法实现网络化,比如因为现实的财务、税务问题,采集经销商的数据就一直是个难点,ERP喊了多少年,进销存喊了多少年,在上了系统的企业里面,经销商的相关数据有多少水分,每个企业都心知肚明。
三、小数据具体问题的个性化处理,更偏重于因果关系而不是相关关系。
维克托提到大数据的第三个原则,就是大数据更注重相关关系而不是因果关系,即两组数据的相关性是数据处理的第一要务,至于为什么相关,这个问题交给计算机自己处理。相关性和因果性,孰轻孰重,《大数据时代》的译者周涛也曾表达了不同观点。我们常说某人读书不求甚解,通常是指其知其然,而不知其所以然。今天大数据将“所以然”的东西交给计算机,使用者只对“然”负责,我和朋友调侃说,这也许是机器统治人类的第一步。
在高度繁荣的信息社会,你要确保计算机“所以然”是可控的,得有两个前提:一个是计算编程的逻辑在开始设定时就是正确的;一个是机器进行海量数据处理时,自身不会因为“疲劳”等因素造成计算错误,而这正是大数据面临的问题。
小数据由于是针对特定问题开展的数据收集、处理和分析,人的因素比较大,大数据的短处正好成为了TA的长处,在数据的处理过程当中,目的的指向性和人与数据的互动会更加有效。
关于大数据相关性的问题,我曾看到一个网上的段子,问影响人寿命长短的因素有哪些,有人通过相关分析得出,一个人庆祝生日的次数与寿命的长短成正比,换句话说,一个人要长寿就要多庆祝生日。稍有常识的人,都知道这是一个逗比的笑话,但是当计算机给出其他的错误相关结果时,我们有多少人能够用常识判断出,这是否是又一个逗比的结果?
用小数据抵制甚至漠视大数据时代的到来,是逆潮流而动的掩耳盗铃;但用大数据时代来否认小数据的价值,是将大数据的历史和未来进行割裂,依然停留在伪数据时代。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23