京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从传统研究模式穿越到大数据“星际”
大数据,不再只是通过传统的研究方式影响世界,它所擅长的预测和探索未来趋势的能力,成为其当下最受热议的话题。
大数据(Big Data)本世纪初最早作为技术术语出现于海量信息检索领域,后续在IT领域逐步传播,并在2009年后随着云计算应用逐步受到更多关注。IBM首先对其进行商业化定义,并于2011年率先推出业务解决方案。此后,大数据更多作为业务概念迅速应用到社会各领域,并在近两年引发无限的价值遐想和业务热潮。
相对层出不穷的各种商业化包装和定义,4V(Volume-规模体量大,Variety-格式多样,Velocity-高速处理,Value-巨大价值) 理论通过4个核心特征朴素而准确地来描述了大数据。由于相关的介绍颇多,这里不再赘述,我们主要从价值开始对大数据的讨论。
1 大数据下,价值法则并没有变化
如果根据大数据的4V特性进行畅想,当我们以Velocity能力达到了Volume和Variety的处理需求,Value 是否就水到渠成了呢,答案并不是这样。因为数据的价值法则并没有变:数据只有分析后才有价值,而价值的多少取决于分析的深度和能力。
市场研究行业作为一个通过深入分析数据产生价值的行业,更有希望在大数据环境下获得广阔的发挥空间。但实际上,相对于技术性驱动的新兴的跨界竞争对手(互联网平台性企业/技术性数据服务企业等)的活跃,传统市场研究公司反应相对迟缓而被动。
针对这个问题,技术决定论认为是研究公司技术能力短板问题;而代替论则认为传统研究方式不适用于大数据,大数据下的研究方式(如个性化/预测)将彻底代替传统研究方法。
笔者在大数据相关技术领域有深入的背景,近几年又在市场研究行业工作,对研究业务特性相对比较熟悉。因此更适合从一种综合的角度看待这些问题。下文中,笔者将做相关的讨论。
2 传统市场研究与大数据研究的方法论
针对前面技术决定论的观点,笔者作为资深IT人员,实际也不敢苟同。大数据业态下,技术对市场研究的推动力是大了很多,但不是包打天下:它更多提升了分析的能力,并不是深度和专业性。而研究方法替代论的观点,则是把传统研究和大数据的研究方法论置于一种对立的角度来看问题。
正如天体物理学是我们离开地球遨游新星际的理论基础,研究方法论也是研究公司遨游数据空间的基本依据。如何从传统数据空间快速进入大数据空间,首先我们要从研究方法论角度进行辩证的分析
传统研究方法论和大数据下的新方法论,是不是真的对立或者替代的呢?我们不妨从更高的角度(以数据为统一点,把传统数据与大数据纳入一个数据时空)来看两者的特点与关系(如下图)
从上图可以看到:
(1) 市场研究公司的传统方法论,其关注是全局/群体的特性,力求发掘现象原因(Why),从而去做改进或者变化。而大数据的新方法论则更关注个体性/局部,更擅长对未来的预测(Future)。也就是说,两者适合各自适合解决不同研究目的的问题。
(2) 传统方法论与大数据方法论在数据空间可并行应用,并不割裂。尤其是前者的分析思路仍然可以适用于大数据环境,而后者是在更大数据空间下对分析方式的扩展。
所以,两种研究方法论,类似于物理学中牛顿经典力学(适合宏观低速)与狭义相对论(适合微观高速)的辩证关系,各自更适合不同的业务场景,在大数据空间下是可以互相借鉴和补充,并不是对立或者替代。
理解了这种关系后,我们进一步从大数据产品的角度,来深入讨论市场研究与大数据的关系。
大数据产品的模式
近两年来,各种企业(尤以技术驱动企业为代表)推出的大数据产品/服务层出不穷。但如果从研究产品核心的三个要素(数据特性、分析方法论和产品类型)来看,无非以下几种模式。
模式1:大数据+传统研究方法。这类大数据产品,是当前众多大数据研究产品的重要形态。比如各种基于大数据的市场份额、移动app分析、电商交易分析和用户分组等。实际上,这是一种“旧瓶加新酒”的模式,本质只是把数据从小规模替换为更大规模的数据源,分析方法论(甚至包括思路/指标)仍是传统研究所采用的那一套体系。这个也证明了之前的观点:传统研究方法论同样适用于大数据分析(只要选择合适的应用场景)。在这种模式中,研究公司的劣势是在数据源,并不在分析方法论上。
模式2:行为类大数据+行为大数据方法论。这种模式关注的是人/消费者(这也是市场研究的重要目标),数据源是人的行为性(如浏览、交易、评论和位置等)历史。这是纯大数据的产品模式,相关的产品服务将会是近几年大数据应用的重点。其研究方法论与传统模式不同,主要聚焦在如何进行个体特征(如标签分析)+精准定位+预测/推荐的思路。就当前相关产品的深入分析来看,各家(无论传统研究还是技术驱动企业,甚至包括学术机构)相关的方法论和分析建模思路都还处于比较浅的阶段,并未出现成熟而优秀的方法体系。而消费者行为研究原本就是市场研究企业的传统业务,相对纯技术驱动性企业,研究公司在新方法论相关的深度研究建模上应该具有更大的先发优势。
模式3:状态类大数据+行业性大数据方法论。这也是当前大数据业务的一种重要模式,实际业务距离市场研究当前业务较远,这里只是作为介绍,供大家开阔思路。数据来自分析目标的状态信息,分析方法更加多样并与行业特性紧密相关,分析目的集中于监控、智能管理和优化。所有的物联网类(包括车联网)、智能家居服务以及可穿戴设备(记录人的状态)行业的大数据应用,大多是此类。其他更多应用模式(如生物大数据的寻找分析),这里不再一一介绍了
大数据业务的问题
虽然大数据业务有着无限的未来空间,但从研究领域的角度看,有几个基础性问题仍然需要注意。
(1)数据分布的缺陷仍然存在
大数据仍然存在着传统的数据分布缺陷,只是表现形式不同。虽然其极大了扩展了数据的空间,但大数据仍然不是全数据。传统数据存在的抽样性的缺陷是降低了,但并没有完全解决。更重要的是,数据覆盖的提升更多是在垂直维度,而水平化的缺陷仍然存在,并且难以弥补。当前的大数据都只是数据在某个应用场景的深度上不断增加。以消费者的互联网行为为例,特定场景的行为数据(百度的搜索数据、阿里的电商数据、腾讯的社交数据)被极大化,但所有行为场景的横向数据的融合,实际更有价值,由于商业利益等原因,却更难以做到了。阿里系通过投资各类互联网服务(高德、新浪微博、优酷、陌陌、神马…),在为打通消费者全场景行为大数据做布局,也实际无法解决这个问题。从这点讲,未来垂直类场景的大数据的交换服务会成为一个新的巨大的空间。
(2)大数据的基础方法论模型仍然存在不足
相比传统研究的方法论,大数据主要优势是在个性化和预测方面,但相关的理论模型,还在迅速发展和变化,并未达到成熟期。而且大数据环境下,数据规模和数据有效期的不同,使得传统研究中相对容易的模型验证也变得困难许多。这导致了很多大数据预测出现问题。远的不说美国大选的两周预测结果,就是近期百度电影《黄金时代》票房预测的失败就是最好的例子。这说明相关分析模型还有很多的改进空间,也意味着市场研究企业未来能够在相关领域有更多的专业发挥空间。
(3)特定群体的研究仍然存在困难
研究业务中,大量任务是需要对特定群体的行为进行研究。传统研究中,当目标群体比较小或者特殊时,研究困难会比较大。在大数据下这些是否迎刃而解呢?根据HCR实际经验发现并不是这样。首先,由于大数据分布的缺陷问题仍然存在,在大数据中寻找这个群体往往也很不容易。其次,对这个群体的行为记录数据,也未必更有效的能够表征其特征。最后,如何基于这些数据量化描述群体,也缺乏令客户信服的解释理论。此时,传统的方式(比如定性座谈会),往往比大数据方法更快,效果也更好。
市场研究行业如何拥抱大数据
进入大数据时代,市场研究企业面临更多跨界型对手的竞争,表面上看好像毫无优势。实际上,就大数据应用的核心竞争力—分析能力方面,从前面的分析可以知道,研究公司无论是传统研究方法,还是大数据分析方法,都具有相应能力或者潜在优势。关键是如何扬长避短,构建自己的大数据竞争优势。以下是几个建议:
(1)传统企业的大数据研究是最重要的目标战场。
当前的大数据产品更多基于线上/互联网用户产生的数据引发相关分析。实际上,研究公司所服务的大量传统/线下企业,其自身业务大数据(尤其业务环节积累产生的内部大数据)的分析和价值挖掘,对企业价值更大,是企业更为关注和迫切需要解决的。而大部分的企业受条件所限,不可能构建大数据分析的专业资源和团队,需要专业的第三方服务型企业来完成。所以,面向企业内外业务大数据的相关研究分析,将是研究公司未来大数据服务的重要领域。
(2)坚持研究的深度。
针对市面上各种纯技术驱动竞争对手的大数据研究产品,如果仔细分析后会发现,这些产品往往受企业基因的影响,其研究的深度和角度都不能令人满意,传统企业研究的客户常会反馈其业务价值并不大。而研究洞察的深度和专业性,是企业客户对研究服务首要关注的能力,这是当前技术驱动类企业的不足,却正是市场研究公司所擅长的重要竞争优势。
(3)聚焦消费者研究
大数据应用领域众多,基于消费者行为类大数据的研究,是市场研究公司具有背景优势且能够在未来产生巨大价值的主要领域(不限于快消行业)。市场研究公司应该积极学习掌握现有的大数据研究的思想,并从消费者研究角度提出更好的分析方法论模型,树立相对于竞争对手的分析优势。同时,由于人性的复杂和大数据的分布覆盖仍存在缺陷,研究公司擅长的一些传统研究方法(如调研和定性座谈会),仍是一种快速、有效的方式。
(4)注意数据源的构建
数据是研究分析的基础和首要环节。在大数据环境下,数据源的重要性迅速提升成为业务链条中基础一环。从产品模式1可以发现,当前市场研究公司由于数据源相关资源的缺乏,导致产品方面受到很大限制。如何构建数据源资源,是研究公司需要考虑的重要问题。
(5)建立适合大数据业务的业务流程和支持体系
大数据环境下,在实际业务处理流程和操作过程中,具体实现方法和模式与传统方式有了较大的变化。如果不能够积极改变和适应这些变化,将无法有效完成大数据的相关产品业务。有关市场研究在大数据下业务流程变化的相关分析,后续将另外撰文进行说明。
(6)重视和加强大数据相关的技术能力
如今,研究公司普遍认识到大数据处理技术体系(技术人员与平台)的缺乏,是其与跨界竞争对手的最大短板,需要后续亟待加强。但同时要注意到另一个问题:很多研究公司中IT人员(如DP)常被定位为研究业务的辅助支持。但在大数据时代,技术人员将与研究人员具有同样的重要性(甚至有些环节要超过),如果还是之前的定位和配合方式,那难以有效发挥他们在大数据研究业务中的作用。
面对新的大数据星际,市场研究公司并非只能踯躅不前,数据价值法则说明大数据价值所需的分析深度正是其最大的优势。只要在传统的研究模式上,积极学习和拓展新的大数据方法论,以专业研究优势结合技术能力作为自身的动力,一样能自如穿越广阔的大数据星际,发现更多的迷人宝藏。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27