
为什么大数据技术并不一定总能解决问题
在如今这个“酒香也怕巷子深”的时代,企业技术领域总是充斥着无数宣传及炒作。具体到当下,可能很多朋友都会把“大数据”技术看作是蕴藏着自身企业所需答案的宝库。然而 ,其并不总能践行如此美好的承诺——至少可能与传统所差别。
首先,让我们谈谈到底什么叫作大数据。事实上根据IDC的调查报告显示,那些通常被称为大数据的信息——包括由企业资源规划(简称ERP)、客户关系管理(简称CRM)以及其它商务系统(包括目前企业常用的分析工具)等量化并捕捉到的海量数据——事实上只占企业平均数据总量的10%左右。
而其余部分则可以称作“非结构化”或者说“质化”数据,而这部分数据在内容上相当混乱。这类信息可能来自客户调查、响应记录、在线论坛、社交媒体、文件、视频、新闻报道、指向服务中心的通话以及由销售团队收集到的趋势性论据等等。这类内容通常以文本而非数字的形式存在,这就意味着其很难被“量化”,或者说转化成数值形式。
这就产生了新的问题。虽然大部分分析工具都能够实现信息量化——换言之,也就是数字处理——但非结构化数据当中通常包含大量背景信息,这意味着企业需要找到适合的理解角度才能让这些信息产生价值。
“数据带来的问题往往要比结论更多,而我们总是需要就定性数据趋势背后的‘为什么’作出一番证明。”Forrester调查公司分析师Anjali Lai指出。“如果在架空背景之下进行数据分析,那我们往往无法把握事情的全貌。而定性数据则能够提供这一必要的背景视角。”
想象一下,大家所在的公司希望理解为什么在线销售额度一直无法达到预期。要解决这个问题,大家可以斥资购置昂贵的营销分析工具,从而获得用户在各页面上的平均浏览时间或者用户取消购物车内容的比例等基于行为的重要数据。不过即使拥有大量此类数据,我们仍然未必能够在“为什么”这道方程题中得出正确的答案。
“大家可能很清楚,自己的网站每天拥有一万名访问者——这就是定性数据,”YouEye公司首席产品官Collin Sebastian指出,这是一家专门针对定性数据设计软件与服务产品的企业。“定性数据能够告诉我们,其中有四千名访客对于特定产品类型很感兴趣,他们希望了解什么、哪些内容属于意外情况,他们又会选择哪些产品作为替代选项等。”
定性数据的重要意义绝不仅限于确定数据点之间的关联性,例如告诉我们哪些访客在网站上停留的时间更长、购物的意愿更强烈。除此之外,定性数据还可以识别出因果关系,从而回答那些难以捉摸的“为什么”问题。访客为什么会在我们的网站上耗费更长时间——这到底是因为网站内容足够精彩,还是单纯因为我们设计的购物过程太过繁琐?
“当前,每位CMO需要管理的信息仪表板平均达14套之多,”Sebastian表示。“这就是最为典型的分析瘫痪案例:我拥有1000万个数据点,从17种不同的角度对我的问题作出审视——但我还是不具备能够真正理解其涵义的必要背景信息。”
从历史角度讲,对定性数据的分析往往需要以手动方式进行——也就是属于人力密集型工作。“我们根本不可能单纯在收集到数据之后向文件数据库提交查询,并指望着其返回一项可视化结果,”Booz Allen Hamilton公司首席数据科学家Kirk Borne解释道。
定性数据分析的结果一般会被限制在特定范围当中,但这种状况目前已经开始扭转。除了市面上开始出现更多专门针对定性工具设计的工具及软件包之外,我们还拥有了“越来越多理想的定性数据向量化数据转换的途径,并能够借此让定性分析在定性数据当中充分发挥潜能,”Borne指出。
YouEye是一款利用视频与音频记录用户同客户网站内容、广告或其它素材交互流程的在线工具。一般来讲,每次调查所选取的用户数量会在50位到300位之间,具体取决于客户要求。视频利用人工编码、自然语言处理及机器学习等机制进行转录与编码。在处理接近尾声时,客户能够得到一份包含强调部分的调查结果。
举例来说,如果客户是一家咖啡供应商,“我们会通过产品互动情况汇总出一套包含强调部分的调查报告,其中突出体现了每一次客户提到其它竞争对手的情况,”Sebastian表示。“这样大家就能立即对客户流失状况作出因果分析——而这显然并不是定性数据能够实现的效果。”
QSR International是另一家利用定制化软件专门处理定性数据的企业,其NVivo产品已经为Gallup所采用。除了广为人知的全国民调服务之外,Gallup也以咨询方的身份帮助企业了解客户关系当中的情感状况,而这自然会涉及到大量定性数据。
“一部分关键性研究问题需要单独通过定性方式处理,其中包括客户为什么会主动疏离或者对供应商的服务表现出冷漠态度,乃至其在体验客户服务过程当中表现出的动机与思维过程,”Gallup研究与策略顾问Ilana Ron-Levey指出。“当我们与企业建立合作关系之后,定性数据能够帮助我们了解到特定观点的广泛性,同时也是我们了解其背后特定规律及分布含义的关键所在,”她解释道。
Gallup方面还利用一系列技术手段评估客户心态。举例来说,在最近一个B2B项目当中,Gallup方面就面对面采访了100多位高级客户,并以客户参与度为核心 收集到了大量定性与量化数据,Ron-Levey表示。该团队还利用NVivo以及微软Excel手动编码的方式对定性数据进行分析。
有了这些分析结果,Gallup利用定性响应以统计方式解释了影响客户参与度的诸多因素。其利用定性数据描述了这些因素如果驱动客户的所见内容及感受。以此为基础,“我们收集到了多种能够切实提高不同类型客户参与度的执行策略,”她表示。
在软件当中处理定性数据通常需要为其赋予数值形式,例如为特定定性响应或者评论分配一个数值等级或者分值。比如在情绪分析当中,研究人员通常会利用一个正值或者负值来表示定性数据,而后再分配另一个数值来描述这种情绪的具体强度,Born指出。
文本分析包括以定性方式——例如议题模型及热图——对文本信息的内容进行总结,而自然语言与语义处理技术则能够从语音当中提取出真实含义——包括书面与口头两类。
将定性数据转化成量化形式可能会涉及到一些主观决策。“这是一大挑战,但其中同时也充满了机遇,”Borne指出。“语言当中包含着大量微妙且复杂的内容,我们可以将其提取出来进行深度理解,从而更加准确地把握其含义。”
QSR的NVivo产品中已经采用了一系列算法,能够通过常用词汇或者句型对数据进行分析。有了大量可视化工具,我们能够更加轻松地解读数据内容——包括关键字云与树状图。
“这让我们能够以强大且可靠的可视化角度获取观点及其深层原因,”QSR公司CEO John Owen表示。
定性数据收集工作往往相当费时,需要研究人员拥有高超的技巧并建立起和谐的关系,从而降低对受访者意见的理解偏差,效力于Gallup的Ron-Levey指出。
“作为一项长期被低估甚至忽视的重要技能,定性数据研究人员需要拥有移情能力,”Forrester公司的Lai表示赞同。“而目前的状况是,定性研究人员往往单纯依靠编程而非深入考量背景信息或者潜台词的方式进行数据分析。”
处理数据并确保研究模型切实生效同样不是件简单的事。大家可能需要从无到有对一整套量化数据集进行规范化处理,但这项任务在面对定性数据时会变得非常艰难,Borne指出。
“标准统计测试往往会对假设甲与假设乙进行比对,但对于同时包含多种理解方式的定性数据来说,这样的直接假设根本无法生效,”他进一步解释称。
而从分析的角度出发,理解方式在推广过程中往往会超出样本数据集的涵盖范围,Ron-Levey提醒道。
不过值得肯定的是,妥善打理定性数据确实能够带来令人欣慰的回报。
“在大数据时代之下,我们开始不断探索数字背后所隐藏的真正意义,”Ron-Levey表示。“通过这种方式了解人们的感受、动机以及观点将帮助企业建立起创新成果与新的运营战略,从而吸引到更多客户的关注。”
Forrester公司的Lai亦表示,“定性与量化观点可以说是客户情绪认知工作中的‘阴与阳’两面,只有将二者结合起来,才能真正得到与消费者行为相关的完整结论。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11数据时代的黄金入场券:CDA 认证解锁职业新蓝海 一、万亿级市场需求下的数据分析人才缺口 在数字化转型浪潮中,数据已成为企业核 ...
2025-08-11DBeaver 实战:实现两个库表结构同步的高效路径 在数据库管理与开发工作中,保持不同环境(如开发库与生产库、主库与从库)的表 ...
2025-08-08t 检验与卡方检验:数据分析中的两大统计利器 在数据分析领域,统计检验是验证假设、挖掘数据规律的重要手段。其中,t 检验和卡 ...
2025-08-08