
重视非结构化数据分析 走出两大“经典”误区
虽然基本上国内大部分公司,言必提“大数据”,但是对于大部分CIO、CTO们来说,对数据的分析仍然停留在过去的阶段:对于非结构化数据分析的成熟度还远远落后于结构化数据。
但是现在移动端所带来的爆发式增长给大数据从业者带来了非常大的挑战,这些数据有很多是非结构化数据,充斥了人们交流的空间,相应的,对非结构化数据的分析也变得越来越重要——对非结构化数据进行分析、提取出有价值的东西,成为CIO、CTO们最关注的问题。
但是目前,很多人仍有非结构化数据分析等同于舆情分析的粗暴认知。
非结构化数据分析就是舆情分析?错!
“非结构化数据分析就是舆情分析,这个技术中国现在已经发展的很快了。”类似这样的言论在CIO、CTO们的交流中屡见不鲜。
但是美国数据分析科学家、美国非结构化数据分析鼻祖企业Taste Analytics创始人及全美五大可视化研究中心的Derek Wang(汪晓宇)博士告诉记者,事实上这是完全不对的,舆情分析其实仅是非结构化数据分析的一部分。
舆情分析,是人们通过先前经验制定监控的KPI以及监控模型,而后通过模型预知和监控未来风险的过程。
但是真正的非结构化数据分析,是一个由数据驱动(Data-driven)的语义分析加舆情分析的整体过程,这比单纯的舆情分析更具科学性,内涵更丰富。
首先,舆情分析具有滞后性,而非结构化数据分析具有前瞻性。
舆情分析是一个先建词库、后验证的过程。举例来说,比如公司要监控某次危机,舆情分析就需要先将与这个危机有关的词汇建立到学习范本里,一旦随后的搜索监控结果与范本里的词汇有所匹配,那么就说明已经出现了这个趋势。
可以看到,这是一个后验的过程,但是,非结构化数据分析则是机器从未知的数据里实时提取出重要的关键信息,作为未来舆情建模的基础性标准,具有明显的前瞻性。
“语义分析其实是舆情分析的对立面。舆情是你知道这件事再去监测,而非结构化数据分析则是不知道的时候去挖掘、建立监测的模型。一旦数据容量呈爆炸式增长或流行词汇更新换代,非结构化数据分析可以实时更新学习范本,重新定义监控模型。”Derek Wang博士说。
第二,舆情分析会依赖于人们的经验来建立模型,而非结构化数据则是数据驱动,更为客观科学。
“虽然舆情监控也有机器学习的技术在里面,但是最大不同在于,它是一个后验的过程。”Derek Wang博士说,“这要求人们先要有这个经验去建模和监测。”
而语义分析是非结构化数据分析里的一个重要部分,相对于舆情分析需要先建立相关的词汇库,语义分析则是一个用机器学习的方法从数据源里提取出关键信息的过程。由于它是通过统计学和深度学习的方法产生,所以能保证科学性,更客观自然地把文档里的关键信息提取出来。
第三,人机互动可以补足技术短柄。
真正的非结构化数据分析,比如Taste Analytics研发出来的技术,不仅包括舆情分析和语义分析,更为关键的是,还加上了人机互动的创新机制,涵盖了整个非结构化数据分析全过程——从语义分析到人机互动,再到舆情分析,三者缺一不可。
据记者了解,目前美国工业界已经充分认可了这种三位一体的非结构化分析理念:在语义分析的结果基础上,企业内部分析师对机器学习的结果进行学习和KPI筛选,而后再建立舆情模型,进行长时间监控。
这样合理地整合“舆情”加“语义”两大技术系统,再把企业内部分析师的主观能动性有机结合起来,才能实现客观的数据分析。
美国一家知名银行的受访人士也表示,此前他们委托第三方建立的舆情体系,其实最终效果并不让人满意。“按照人为经验建立的舆情体系下,监控和分析的结果都很片面,”对方称,“所以我们最终还是转向了Taste Analytics结合舆情、语义和人机互动的更加客观高效的非结构化数据分析服务。”
非结构化数据分析就是情感分析?错!
不仅国内,即使在美国,非结构化数据分析也属于非常前沿的技术,企业简单粗暴地把非结构化数据分析等同于舆情分析的也不在少数。他们甚至还走入了另外一个误区:把非结构化数据分析和原来美国流行的情感分析也混为一谈。
美国很多企业都和客户关系很紧密,非常注重客户的反馈。而情感分析就是这样应运而生的:它让机器试图理解人说的这段话是正面、褒义的,还是负面、贬义的。
很多美国企业在过去3、4年里,都把所谓的非机构化数据分析,当成情感分析。但是,即使是业界最高水平,也仅仅能够把用户情感度划分成11个层级,来让机器了解人们对这个产品是喜欢、还是讨厌,却无法真正让企业理解用户的深层次需求。
Derek Wang博士介绍说,情感分析的局限性非常大,最多只能作为企业数据分析的一个参考指标,而不能保证100%正确。
比如,嘲讽的语气就是机器无法识别的。美国就曾有公司过于信赖情感分析模型,完全错把顾客的嘲讽当成夸赞,搞反了产品研究的方向。
另外,情感分析缺乏对客户想法的深入挖掘。
机器可以尝试对喜恶赋值,但是这一数值没有办法为企业解释上下文是什么,也就是说永远搞不清客户为什么而喜欢/讨厌它,这样一来情感分析的参考价值就大大缩水。
但是,非结构化数据分析却可以实现“溢价分析”,也就是说,它不仅可以告诉企业客户的情感度多少,还能指出客户在哪里有情感不满。这样就为企业提供了科学的决策辅助工具,有助于企业在今后有效地提升用户满意度。
“我们的语义分析可以把很多种自然语言分析模块有机结合在一起,把自然语言学习、分词、聚类、情感分析都立体整合,把整体化的语义分析带给市场。” Derek Wang博士介绍说,“这其实也是非结构化数据分析和传统情感分析最大的不同。”
海量的客户需求,巨大的市场空白
据IBM商业价值研究院和牛津大学赛德商学院共同发布的《分析:大数据在现实世界中的应用》显示,全球仅四分之一的受访者表示自己具备了分析高度非结构化数据的能力,而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。
事实上,任何需要和客户直接打交道的企业,都应该从现在开始,重视非结构化数据分析的重要性。
为什么呢?至少有两点显而易见的理由。
首先,非结构化数据分析可以排查出致命纰漏,保住了企业的“底线”。
企业服务里可能存在很多难以察觉但是致命的纰漏,用别的方法是很难排查的。比如,美国某著名家电厂商CIO就告诉记者,他们在启用The Taste Signals Platform的第一天,就发现了一年以来客户邮件一直在抱怨的一个小纰漏,从而及时挽回了品牌声誉。
其次,非结构化数据分析提升了企业客户服务的效率。
目前,大多数企业已经建立了多个客户沟通渠道,平均下来有6-7种之多。企业每天都要安排大量的客服人员和客户沟通,但是却“治标不治本”。
企业对客户投诉等这些典型的非结构化数据的分析很少,更多的是疲于解决问题,而不是找到投诉背后的主要原因,而从根本上解决它。
“很多时候,客户一抱怨,客服就是去安抚,甚至安排退货,很少有企业来看说每月为什么有退货,而只是在被动解决问题。”Derek Wang博士表示,“而非结构化数据分析,对客户的抱怨不仅知其然,更将其作为分析结果呈现给企业,企业可以做出改进,从而从根本上解决大批客户的抱怨,大大提升了客户满意度。”
“事实上,不仅如此,以美国企业的经验来看,数据驱动的科学的非机构化数据分析,可以帮助企业提升内部分析师的效率,并且实现明显的商业价值。”Derek Wang博士表示。
目前,中美企业都意识到了非结构化数据分析的重要性,但是苦于市场上几乎没有成熟的解决方案。
Derek Wang博士也表示,排除BAT之外,能够在内部建立非结构化数据分析团队的公司,几乎可以称得上凤毛麟角,很多都是交给第三方服务公司。但问题在于,很少有第三方公司可以完全独立承担非结构化数据分析服务,而且技术也远远不能满足现在企业的需求。
另外,即使有一些非结构化数据分析的工具,由于它们都不是给最终用户设计的,所以普遍都很难用,需要长时间对员工下进行培训,这样产生的经济价值很小。
“CIO们几乎都没有一个工具,可以来调动员工分析数据的热情。而让第三方给他们提供的话,效果也不好。”Derek Wang博士说,“很多时候很多大数据分析工具看起来卖相很好,但是很难被大范围使用,这是企业的损失。”
美国率先实现非结构化数据分析
尽管企业对非结构化数据分析有很大的需求,但是这个市场几乎是一片空白,而由美国夏洛特图像可视化中心的几个年轻的科学家成立的Taste Analytics,看到了这个领域的巨大潜力,决定用自己的研究成果来颠覆传统的数据分析服务。
目前已有6家福布斯全球500强公司以及多家美国主流企业都采用了Taste的新型非结构化数据分析平台The Taste Signals Platform,而且他们的销售额在以400%的速度增长。
“Taste Analytics的优势非常明显,他们可以对数据、文字以及语音进行实时分析,结合了舆情分析、语义分析、人机互动三重机制,再加上可视化分析结果和简单易用的使用界面,他们不仅能帮助企业了解新的市场增长点、做出正确的决策,而且可以充分调动数据分析师们的积极性。”业内专家表示。
另外,Taste Analytics的服务适用于各种非结构化数据分析场景,只要有聊天记录、对话记录和邮件记录,他们的服务就可以和数据源直接对接,非常易用而且安全。
“我们也给中国企业提供了非常本地化的服务。从安全角度来说,如果是企业内部的私有数据,我们可以把平台放到企业防火墙内或者内部云里;如果是外部数据,我们的爬虫会自动抓取这些数据,”Derek Wang博士说,“我们一直希望的就是,让企业用最小的付出,得到最好的结果。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18SPSS 赋值后数据不显示?原因排查与解决指南 在 SPSS( Statistical Package for the Social Sciences)数据分析过程中,变量 ...
2025-07-18在 DBeaver 中利用 MySQL 实现表数据同步操作指南 在数据库管理工作中,将一张表的数据同步到另一张表是常见需求,这有助于 ...
2025-07-18数据分析师的技能图谱:从数据到价值的桥梁 在数据驱动决策的时代,数据分析师如同 “数据翻译官”,将冰冷的数字转化为清晰的 ...
2025-07-17Pandas 写入指定行数据:数据精细化管理的核心技能 在数据处理的日常工作中,我们常常需要面对这样的场景:在庞大的数据集里精 ...
2025-07-17解码 CDA:数据时代的通行证 在数字化浪潮席卷全球的今天,当企业决策者盯着屏幕上跳动的数据曲线寻找增长密码,当科研人员在 ...
2025-07-17CDA 精益业务数据分析:数据驱动业务增长的实战方法论 在企业数字化转型的浪潮中,“数据分析” 已从 “加分项” 成为 “必修课 ...
2025-07-16MySQL 中 ADD KEY 与 ADD INDEX 详解:用法、差异与优化实践 在 MySQL 数据库表结构设计中,索引是提升查询性能的核心手段。无论 ...
2025-07-16解析 MySQL Update 语句中 “query end” 状态:含义、成因与优化指南 在 MySQL 数据库的日常运维与开发中,开发者和 DBA 常会 ...
2025-07-16如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14