京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据统计≠大数据 这些大数据错误你犯过吗
大数据太火了,被广泛应用到各行各业,而近阶段又有着明显的过热迹象。大数据到底是一个营销词汇,还是一个方法论?本文作者老李正是一家大数据服务提供商的资深员工,他所做的项目就是针对不同行业进行大数据分析。他认为,关于大数据你首先必须有一个基本认识,那就是“大量的数据并非一定具有价值”。另外,数据统计并不等同于大数据,数据统计和大数据的区别就在于人工智能。
近两年来,“大数据”被广泛应用到各行各业,而近阶段又有着明显的过热迹象。从央视的春运迁徙图到姚晨看到微博数据的惊呼;从两会期间的两会大数据,到《星星》都叫兽的高低领毛衣,“大数据”被人们推到了一个前所未有的高度,同时也从一个高精尖的科研方向变成了一个世人皆知的营销词汇。
我既没有资格代表学术界,更没有资格来判定谁是谁非。我只能就自己的工作经历,来谈一下我眼中的大数据:
什么是大数据?
百度百科对大数据的定义是这样的:大数据(big data)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
个人认为Gartner的定义更为贴切。“新处理模式”是一个很关键的词汇,这也是我所理解的“大数据”区别于传统统计分析等最关键的特征之一。这个所谓的“新处理模式”有两层含义:
1、由于海量的数据,需要更高效的存储和处理技术,Hadoop成为了大数据时代的标志;
2、如果你认为大数据就等于Hadoop,那就大错特错了。Hadoop只是大数据时代的一个必要条件,大数据还有一个明显的标志是数据挖掘和人工智能的紧密结合。这也是我理解的“大数据”与现在很多所谓“大数据”项目最明显的区别之一。我会在后面的案例中给大家展开。
除了上面的“新处理模式”上的区别,个人认为还有一个最主要的区别是:数据统计分析是基于已有数据的纵向归类,而大数据是基于对已有海量数据的处理,对还未产生的数据作出预测和推荐。数据统计是已经发生的事情,而大数据往往被用于还没有发生的事情预测或者推荐中。
预测和推荐,是如何实现的?
目前主要的推荐算法大致可以分为两类。一个是基于行为,一个是基于内容。当然,针对不同的领域,不同的预测和推荐的对象,又会有十余种算法。这就不是本文展开的内容了。
基于行为的分析,顾名思义,即对用户在互联网、移动互联网留下的“痕迹”,即浏览、点击、收藏、购买、二次购买的分析,得出未来会选择购买的预测和推荐结果。基于行为的分析,属于群体智慧,综合利用群体用户的行为偏好。用户之间会相互影响,更加符合现实世界中的用户行为。
基于内容的分析, 包括对文字、图片、音频、视频等信息的分析,得出预测和推荐的结论。内容的“基因”和用户的偏好相匹配,最有代表的是潘多拉的音乐推荐项目,其将曲库中所有歌曲都由400多位专家打上标签,然后建立个人与音乐的联系,从而完成音乐的推荐。内容的分析只针对个人,与用户之间关系无关。
大数据到底能做什么
现在谈这个问题可能会让大家笑话,似乎所有人都知道大数据能干这个,能干那个,最后连我们自己都觉得可笑。大数据已经都不是被“妖魔化”了,是“娱乐化”。大数据似乎是个离我们忽远又忽近的事物了,变得不真实起来。
更多精彩内容,请关注互联网分析沙龙微信:techxue 每天为您推送最新、最热干货!
互联网分析沙龙——互联网人的实战分享平台,一个为您提供专业的商业模式、产品、数据、用户、电子商务、社会化媒体、移动互联网等深度分析的信息网站!请在微信公众账号中搜索「techxue」,或用手机扫描左方二维码,即可获得互联网分析沙龙每日精华内容推送和最优搜索体验,并参与编辑活动。
好吧,我还是结合从业经历来说说大数据“解决过什么问题”吧:简单地来说,大数据可以帮我们解决决策和选择的问题。
天气预报就是一个最古老而且众所周知的预测。你可以根据预报来决定明天穿什么衣服,是否要带雨伞,等等;
近两年来,大数据被应用到影视制片行业,基于对观众偏好的分析,去预测、设计观众喜欢的剧情,找观众喜爱的演员出演相关的角色,甚至可以去预测票房。这些所有的预测都是基于数据的基础上,经过一定的模型处理,得到接近真实的结论。从某种程度上给决策者决策的依据,比如《纸牌屋》和《星星》。
大数据还有一个重要的作用,就是解决人们的“选择”问题。别笑,无论你的年龄、性别、教育背景,人们目前都面临着前所未有的选择问题。讲的学术一些,这是由于“长尾效应”导致的问题;讲得通俗一些,就是由于日益增多的可选择的对象和我们自身的处理能力之间的矛盾。
科技的进步让人变得更懒,也就是我们自身的处理能力降低,无论是主观的还是客观的。而可被选择的对象却在日益增多。从纷繁复杂的商品(电商),到海量曲库中的乐曲;从婚恋网站的男女朋友,到交通管理的信号灯。
基于人工智能下的大数据,就是可以使人们“变懒”的一个手段。基于你的历史行为,判断出你可能的喜好,乃至需求,将最佳结果,推荐给你。这就是大数据,她是你的贴心管家,或者说是最懂你的朋友。
一个最经典的案例是沃尔玛曾经做过的“啤酒”和“尿布”调研:沃尔玛在研究中发现,一类顾客经常在购买尿布的同时也购买啤酒。尿布跟啤酒自然是毫无关联的两个品类的商品,从个人经验上来看,根本想不到二者的联系。后来发现,这是一类社会现象所导致的。美国有很多年轻夫妇,尿布用完后,女主人在家带孩子,而男主人就去超市买尿布。买完尿布之后,男主人通常会顺带着买些啤酒。
上述例子说明,数据经常可以让你发现看似不合理不合逻辑但却存在,并且经常发生的现象。
再举个例子,北京的交通拥堵是地球人都知道的事情。尤其是早晚高峰,这已经不需要预测了。但如果根据历史交通数据,再经过数学模型,计算出一个全北京最佳的交通信号灯管理系统,这就属于大数据的范畴了。
这也是我眼中大数据主要与普通的数据统计分析最大的不同:数据统计可以帮助你发现疾病,但大数据可以不但帮助你发现,且帮助你治疗疾病。
大数据绝不是“噱头“,我们在帮助某运营商阅读基地的阅读推荐项目中,各项指标均得到大幅提升。而这个提升不是百分之几十,而是数倍的提升!(用户人均流量提升了4倍,沉默用户激活能力提升了6.5倍)这才是大数据的魅力。
大数据不是万能的
大数据显然不是万能的。正因为如此,她才真实。大数据在有些领域由于种种原因,所带来的价值并不如预期的那么高。导致这种现象最主要的问题有两个,一个是由于数据本身的质量或者数量不够;另一个是算法不合适。
不要以为是海量数据就一定会有价值,在过往的工作中,我们经常发现来自甲方的数据源有80-90%的数据都是无用的。只有10%-20%的数据才会产生一定的价值。这就又让我想到Marry Meeker打的那个比喻,“大数据的工作就像在一堆稻草中寻找一根针”。
何况,大多数领域本身业务属于早期,所拥有的数据非常贫乏。冷启动、稀疏性是大数据在诸多领域面临的挑战。
另一方面,对于不同领域,不同项目,没有放之四海而皆准的算法,必须要根据具体问题具体分析解决。在实际的工作中发现,不只是不同的领域(如文章推荐与商品推荐),甚至同一领域的不同单元(同属电商但不同类电商,如母婴类和服装类或者奢侈品类)也有所不同。
数据的交叉利用
上面提到的两个大数据在实际应用中面临的最大问题,即冷启动时数据的匮乏和业务早期数据的稀疏性问题,并不是无药可救。业界一直讨论的数据打通,就是解决这两问题的出路。
对于一些新兴领域,缺乏数据是必然的,而另一方面,正由于缺乏数据的支持,所以才更需要有强大决策支持的系统对其业务做指导和支撑,以实现少走弯路,利益最大化的目的。
移动互联网领域的项目,尤为代表。虽然在过去的两三年里,移动互联网得到了高速的发展,但毕竟在各个方面的积累,都无法与互联网相比。尤其在人们形成稳定的使用习惯之前,数据还不具备更多的价值和意义。
但如果能把互联网的数据与移动互联网数据打通,那么我们就掌握了这个人的喜好等多方面信息,从而为移动互联网业务做出更有效的指导和帮助。
当然,数据的打通绝不仅限于互联网和移动互联网。每个数据源的数据往往刻画了一个人的不同方面。正如巴拉巴西教授在《爆发》一书中描绘的那样,如果数据充分,人类93%的行为是可以预知的,是有规律的。
也只有将这些不同来源的数据重新组织,才能挖掘出更有意义的信息。
如今,行业内不少人打着“数据统计和分析”的旗号来做大数据,让很多外行人陷入了误区:数据统计并非等于大数据。无论数据统计也好,大数据也罢,其实都是为了使我们的工作变得更为有效,让决策更为理性而准确。重视数据,本身就是一个企业成熟的标志。
移动互联网的迅速崛起,让数据变得更为多样、丰富。它的移动性,它的碎片化,它的私密性和随时性都刚好弥补了用户离开桌面电脑之后的数据,从而与原有的互联网数据一起很好滴勾勒出一个网民一天的生活,日常生活的数据化。
随着数据的进一步丰富和完善,随着不同渠道数据的打通和交叉利用,有关大数据的想象一定会更加广阔。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26表格结构数据以“行存样本、列储属性”的规范形态,成为CDA数据分析师最核心的工作载体。从零售门店的销售明细表到电商平台的用 ...
2025-11-26在pandas数据处理工作流中,“列标签”(Column Labels)是连接数据与操作的核心桥梁——它不仅是DataFrame数据结构的“索引标识 ...
2025-11-25Anaconda作为数据科学领域的“瑞士军刀”,集成了Python解释器、conda包管理工具及海量科学计算库,是科研人员、开发者的必备工 ...
2025-11-25在CDA(Certified Data Analyst)数据分析师的日常工作中,表格结构数据是最常接触的“数据形态”——从CRM系统导出的用户信息表 ...
2025-11-25在大数据营销从“粗放投放”向“精准运营”转型的过程中,企业常面临“数据维度繁杂,核心影响因素模糊”的困境——动辄上百个用 ...
2025-11-24当流量红利逐渐消退,“精准触达、高效转化、长效留存”成为企业营销的核心命题。大数据技术的突破,让营销从“广撒网”的粗放模 ...
2025-11-24在商业数据分析的全链路中,报告呈现是CDA(Certified Data Analyst)数据分析师传递价值的“最后一公里”,也是最容易被忽视的 ...
2025-11-24在数据可视化实践中,数据系列与数据标签的混淆是导致图表失效的高频问题——将数据标签的样式调整等同于数据系列的维度优化,或 ...
2025-11-21在数据可视化领域,“静态报表无法展现数据的时间变化与维度关联”是长期痛点——当业务人员需要分析“不同年份的区域销售趋势” ...
2025-11-21在企业战略决策的场景中,“PESTEL分析”“波特五力模型”等经典方法常被提及,但很多时候却陷入“定性描述多、数据支撑少”的困 ...
2025-11-21在企业数字化转型过程中,“业务模型”与“数据模型”常被同时提及,却也频繁被混淆——业务团队口中的“用户增长模型”聚焦“如 ...
2025-11-20在游戏行业“高获客成本、低留存率”的痛点下,“提前预测用户流失并精准召回”成为运营核心命题。而用户流失并非突发行为——从 ...
2025-11-20