
数据分析中,文本分析远比数值型分析重要
本文从业务的角度来谈谈基于大数据的文本分析及其在商业场景中的应用,后面会附上一些实例及开放的工具,力求让理论落地,服务于实践。本文是《数据分析中,文本分析远比数值型分析重要!》的上篇,聊的是文本分析的一些基本知识,下篇将以一个实际案例来聊聊基于大数据的文本分析是如何应用在商业场景中的。
在我们日常的产品和运营工作中,经常接触的数据分析方法、形式绝大部分是基于对数字(值)的描述性分析,如销量情况、用户增长情况、留存情况和转化情况等,高级一些的数据分析方法有因子分析、聚类分析和回归分析等方法(见下图)。
常用的数据分析方法/形式
这些分析方法/形式有一个共同点:都是跟数字在打交道,说的专业一点,就是基于对结构性数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)的分析,比如姓名、性别、年龄这些信息,以Word、Excel等形式呈现的数据。这种类别的数据比较好处理,只要简单的建立一个对应的表就可以了。
典型的结构性数据表格
然而,数据分析仅仅只有这一种类型吗?答案当然是:
NO~
一个完整而清晰的数据分析过程,除了在范围上,要进行宏观和微观的分析外,还需要在分析的层次上有所递进和深入,以下是我们进行数据分析时常会考虑到7个维度。(见下图)。
数据分析的7个维度
在上图中,对数值型数据的分析能覆盖绝大部分的维度,但它更多的是描述事物的表层现象,主要是在事物的“量”上进行描述。也就是说,对数值型数据的分析并不能回答其中最为重要的一个维度---“Why”,但在产品和运营的实际工作中,发掘出用户的喜好、购买/使用及流失的内在原因(也就是洞察用户的行为动机),对我们的工作至关重要,它会直接影响产品的功能设定和运营策略。
这时,对非结构性数据进行分析的需求呼之欲出。
据国际数据公司(IDC)的在2011年的调查显示,在今后十年里,非结构化数据将占所有产生的互联网数据的90%。而作为一个尚未得到充分开发的“信息金矿”,非结构化数据分析可以揭示出,我们之前所认为的异常复杂、且难以捉摸的诸多商业驱动因素间的重要相关关系。
所以,我们有必要对非结构性数据引起高度重视!!!
先等等,什么是非结构性数据呢?
非结构性数据是与结构性数据相对的一个概念,它包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非结构性数据组成部分
本文所提及的非结构性数据特指文本数据,这里包括且不限于社交网络(微博、微信、QQ和脉脉等)、客户反馈(客户抱怨邮件、社交媒体网站的帖子、开放式问卷调查、消费者点评)新闻媒体、销售人员的拜访记录等。
文本分析的目的在于从根本上把所有的非结构化数据整合从而化为结构化数据,从之前被认为难以量化的海量文本中抽取出大量有价值的、有意义的数据或信息。
So,对文本数据进行分析,我们能得到哪些有价值的商业线索或洞察呢?
文本数据来源异常广泛且多样,很多时候需要搜索海量的网页。当然,只有基于恒河沙数般体量的大数据文本分析,才有可能得出比较可靠、有说服力的商业insight。
所以,“文本分析”常常被冠以“大数据文本分析”的全名。
“文本分析”,或者“语义分析”通过分析海量的非结构性的文本(信息)数据,得出的不仅是关于“是什么”的描述性分析,更多的回答了“为什么”,即目标用户购买和使用产品的潜在动机/真实需求。
在商业实践中,基于大数据的文本分析被广泛应用于各行各业,利用认知技术获得全新的商业洞察,解决关键的知识性问题,这被IBM称为“认知商业”。例如企业可以从客户关系数据、 社交网络、 新闻网站和购物网站评论等渠道获取文本数据,进而通过计算机进行自然语言处理,从而揭示出在任何非结构化文本信息中的“4W”要素,即人物(Who)、事件(What)、时间(When)、地点(Where)等,结合其中隐藏的“Why”进行关联分析,最终得到贯穿所有业务的全新层面的商业洞见。
大数据文本分析提取出的主要维度
举例来说,某个APP的用户满意度一段时间内上升不少,可以从评论量中好评数量的增加以及服务评价几颗星来看出,但这只是描述性的分析,并不能知道为什么用户会给好评或差评,产品或服务的哪些方面会得到好评。
然而,借助大数据文本分析,我们通过提取出的“4W”要素获得对用户“Why”的理解:
什么时候用户的评论较正面,什么时候较负面(When)
用户所给的好评和差评分别集中在该APP的哪些方面(What)
哪些人评论给差评,哪些人给好评,他们在用户中的言论影响力如何(Who)
哪些地区的用户给好评/差评,这些地区的用户分别注重该APP的哪些方面(Where、What)
简而言之,基于大数据的文本分析能够揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。
那接下来的问题是:我们要去哪里找这些非结构性的文本数据呢?
社会化媒体时代,用户在购买产品/服务前,使用中,或是使用之后,一般会在互联网上表达自己的对产品的疑虑或看法,通过互联网这个平台表达社情民意,体现自身的真实意愿和产品/服务的体验感受等。
一般来说,用户产生的有价值的“发声”主要集中在如下6个 “场所”:
大数据文本信息的来源
同时,在互联网的产品和运营工作中,我们需要重点瞄向社交媒体、电商平台及APP应用市场这3个用户“言论集结地”,从上面获取用户对于产品/服务的“发声”。
社交媒体发展日益瞩目,论坛、博客、微博、微信等社交网络接踵而至,它们在悄无声息中改变着我们的生活方式。
在交互性强、容易沉淀价值信息的网络论坛上,网民们可以获得各种信息服务,同时可以发布信息、进行讨论、聊天,用发帖回帖来表达对事件、产品、品牌和企业的看法。
在容易爆发热点话题的微博上,用户除了会主动发布的微博外,还会主动追踪热点事件、喜爱的兴趣频道和明星的微博,转发和评论这些微博。
在具有强关系属性的微信上,用户会对自己关注的公众号发布的内容进行评论和转发,以此来表达自己的观点和情绪…
在这个社会化的媒体时代,用户成为企业最好的品牌推广大使。如何从这些可观的社交媒体数据中分析出用户的潜在且准确的购物意愿及用户需求,将成为提高品牌价值和声誉,改善用户体验的新兴途径。
例如,新浪微博上粉丝过万的零售商,可以根据对某条转发量极大的微博进行传播分析,从中挖掘出粉丝的性别、地域、关注的微话题、星座及兴趣标签,为粉丝个性化的去推送优惠及新品信息。
由此可见,这些看似庞大且无规则的社交数据,往往包含着大量的用户基本信息和兴趣标签,它们是绘制用户画像的绝好素材。
电子商务网站上的海量的用户言论数据隐含着巨大的信息,这些网站包括且不限于淘宝网、京东商城、亚马逊和大众点评网等主流购物、服务平台。
例如,亚马逊上的用户对某商品的评论,商家可以根据用户的评论和反馈,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的。
移动互联网时代诞生了的APP,这些APP除了“挂”在自家的官方网站以外,更多的是分布于第三方应用市场(如苹果商店、91助手、豌豆荚、小米应用市场、百度手机助手等),这时收集用户的大量吐槽对于改善APP的用户体验至关重要。通过对用户大量评论的文本分析,我们可以第一时间了解到产品的哪些方面是用户喜欢的,哪些方面是用户比较嫌弃的,哪些是无关痛痒的“伪需求”,力求在短时间内改善产品的功能与设计。
综上所述,相关文本数据的来源多样,而且覆盖了非常广泛的话题。任何和产品/服务相关的陈述和评论本质上都是有用的信息,因为这些陈述可以让产品/品牌所有者了解用户的最真实的想法。
以上说的是大数据文本分析的一些原理、数据来源及其商业价值,现在笔者就从以下5点来谈谈它的实际应用场景。
大量问卷调研中的开放式问题的处理,这些开放式的问题以电子文档的形式进行存储,使计算机进行文本分析成为可能,可以在短时间内从数以万计的作答中提取出有价值的分析维度,获得对(潜在)用户的需求的洞察。
从近万份某3.15开放式问答题中提炼出的焦点话题
捕捉优秀作者的写作风格
对于一些初入新媒体运营岗位的小伙伴来说,研究和模仿某些知名自媒体作者的写作风格很有必要,学习他们的写作手法和套路可以使我们的文案写作进步神速。
要想对这些优秀作者的行文风格进行深入研究,除了熟悉他们的行文脉络和篇章结构,更要熟稔其遣词造句上的套路(包括措辞特点、常用关键词和情感倾向等),在模仿中逐步形成自己的写作风格。
如下图,对咪蒙10几篇具有代表性的文章进行文本分析,从如下各种属性的关键词,再结合对咪蒙作品的一定了解,可以得出这样的结论:咪蒙的文章里经常进行宣泄负面情绪,把粉丝心中想说却不敢说的话酣畅淋漓的表达了出来,使万千粉丝感同身受,被其感染;另一方面,她身边的人常是被吐槽和分析的对象。。。
对咪蒙10几篇具有代表性文章进行文本分析
新媒体热点采集、追踪及预测
基于大数据的文本分析能快速获取全网具有趋势传播的关键词,可以实时监测传播趋势(包括全面研究阅读数、评论数、分享量、传播趋势),并且通过分析内容属性和成功原因,预测内容在未来的传播潜力。
能够娴熟使用大数据的媒体人在未来的媒体行业才有立足之地,就如热巢网CEO穆青所强调的:
在未来的媒体竞争中,媒体人需要转型为“内容+技术”的复合型人才,一方面发挥自己在内容创作中基于人性的独立判断和分析,另一方面需要借助大数据分析技术提升文章的传播效果,进行科学的人工传播干预。
基于大数据的文本分析能快速准确的识别出企业/品牌/产品自身及竞争对手在互联网上的口碑变化,深度挖掘文本数据价值,在消费者洞察、产品研发、运营管理、市场营销、品牌战略方面,为管理决策提供科学依据。
某餐饮品牌的口碑管理
利用基于大数据的文本分析,我们可以清晰的知晓事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情的传播路径、传播节点、发展态势和受众反馈等情报。
对沪文化广播影视管理局的舆情监测
通过基于大数据的文本分析,企业可以用正确的方式阅读用户散落在网络上的“声音”,企业可以直接读懂自己用户的想法,挖掘出用户对于产品/服务的情绪和态度。比如,大数据文本分析可以回答如下问题:
用户喜欢的是它产品的哪一方面?
比起其他公司的产品来,客户是否更倾向他的产品?
这些偏好会随着时间发展和变化吗?
本文偏向于科普大数据文本分析的基本知识,下一篇将用一个生动的案例来说明,大数据文本分析是如何在互联网商业实践中体现其巨大商业价值的。
大数据离我们越来越近,从事数据运营的小伙伴们,你准备好了吗?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14