京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大思维促大数据战略
你一定知道,所有的数字都是数据。如今的硬件和软件已不能应对以如此高速产生的形式多样的海量数据。大数据变得如此复杂,其变化如此迅速,传统的数据工具已难以对之进行处理、存储、分析和管理。数据量如此之大,以致问对问题和找对答案跟大海捞针一样困难。
幸运的是,用现有的硬件、工具和算法能将所有数据转化为有用的信息。从这些信息中提|炼出的洞见能用来改善你所在组织的决策,提高其效率,降低其成本并增加收入。大数据革|命带来了广泛的影响,并且会遍及各行业的所有企业。
大数据的七个V
有一点是公认的,即大数据可以用三个“V”来解释:速度(velocity)、种类(variety)和数量(volume)。不过,笔者还想加入真实性(veracity)、可变性(variability)、可视化(visualization)和价值(value)的概念,以更好地解释精心计划过的大数据战略。
速度:速度是指数据产生、存储、分析和形象化的速度。当前数据的生成速度几乎超出我们的想象:每分钟,我们向YouTube上传的视频总时长达到100小时。此外,人们每分钟发送超过2亿份电子邮件,查看约2,000万张照片,并将3万张照片上传到Flickr相册,发送近30万条推特消息,谷歌每分钟处理近250万次请求。
多样性:过去所有的数据都是结构化的,可以很容易地进行归类,不过这种情况已经一去不复返了。如今,90%的数据都是非结构化的。数据可以有许多不一样的格式,包括结构化、半结构化、非结构化,甚至是复杂结构化的数据。
每一类型的数据都需要配以不同类型的分析法和解读工具。像脸书(Facebook)或推特(Tweet)这样的社交媒体可以提供深入的见解,让你了解客户对企业的品牌、服务或产品的看法,而传感器数据提供的信息则是用户对产品或机器的使用情况,让你获得可用于改进产品的洞见。
数量:按照如今数据产生的速度,每两年数据量就能翻上一倍。在2011年,我们创造的数据总量令人咂舌,共有1.8ZB。而根据IDC在2011年的研究,到了2020年这一数字将是现在的50倍。这个数量是相当可观的,而这个数字宇宙中相当大的一个数据来源就是物联网,物联网在世界各地各种设备上安装的传感器每分每秒都在传输数据。
让我们来看一些例子。飞机在引擎上安装的传感器每年会产生约25亿TB的数据。而安装在农业拖拉机上的传感器也会产生和采集大量数据。约翰迪尔公司(John Deere)使用传感器数据来监控机械的优化,控制日益壮大的农机队伍,并且帮助农产业者优化决策。壳牌(Shell)也在油井中使用高灵敏度传感器来寻找更多的油,如果公司在所有1万口油井中安装这种传感器,每年大约会采集10EB的数据。
真实性:如果数据本身存在缺陷,那么即使采集高速产生的大量数据也毫无价值。不正确的数据可导致组织乃至消费者面临严重的问题。如果你希望组织能够以信息为中心,那么就需要确保你的数据和分析法都正确无误。在进行自动化决策时,这一条尤其关键,因为整个过程不再有人的参与。但令人震惊的是,企业领导者有三分之一不相信他们用来做决策的信息。所以,如果你想要制定大数据战略,就需要高度注重数据的正确性以及分析的准确度。
可变性:可变性往往会与多样性的概念相混淆。我们可以举个例子说明它们之间的区别。如果面包店销售十种不同的面包,这就是多样性。如果同一种面包每天的口感和香味都不一样,那就是可变性。在进行情感分析时,可变性与主题的关联非常密切。
可变性意味着定义会(迅速)改变。在类似的推特消息中,同一个词可能会有截然不同的含义。要想正确地进行情感分析,所用的算法必须能够根据上下文解读一个词的准确含义。不过,这一点目前仍然是一个亟待解决的技术难题。
可视化:这是大数据中比较难办的部分。这表示你需要帮助受众以容易阅读和理解的方式了解大量的数据。经过正确的可视化操作后,原始数据就可以发挥作用。当然,这里说的可视化并不等于普通的图表或饼状图,而是包含多种数据变量的复杂图表,同时又易于人们阅读和理解。
可视化或许不是技术上难度最大的任务,但肯定是最具挑战性的。使用图表来解说一个复杂的故事很有难度,但同样也极为重要。幸运的是,越来越多的大数据初创公司专注于解决这个领域的挑战。归根结底,可视化能发挥关键的作用,并且它能帮助提高可读性。
价值:所有可用数据都能为组织、社群和消费者创造大量的价值。大数据意味着大量业务,各行各业都能从中有所收益。当然,数据本身完全没有价值。其价值存在于根据数据完成的分析以及如何将数据转化为信息,从而最终变成知识和智慧。数据的价值在于组织如何使用它们来创造以信息为中心的公司,根据数据分析得出的洞见进行决策。
关于大数据的五个事实
现在我们已经对大数据进行了定义,你需要了解你的组织在制定大数据战略时,应当注意到其中哪些方面最重要。大数据需要对范式进行转变,理解这一点能帮助你的组织在利用大数据方面取得进展。
1、大数据需要不一样的企业文化。要想真正发挥大数据的作用,你的组织需要成为以信息为中心的公司。
这种文化上的转变能让企业更注重在数据的推动下进行决策,并让你的员工有机会基于真实的数据而非估算结果来开发新的运营、战术和战略计划。利用大数据的企业文化要求公司鼓励员工在每一个客户接触点上采集数据。他们需要询问正确的问题,并以精确的数据作答。
2、组织内的人才是大数据背后真正的驱动因子。尽管文化上的转变对于充分发挥大数据的潜力很重要,大数据战略的开发却是由组织内的人完成的。尤其是,中层经理人和高管应当明白大数据是什么,以及如何将其应用到组织上。如果有更多的决策者意识到大数据的好处,就更有可能制定和实施成功的大数据战略。
要开始成功开发大数据,首先要在组织内找到正确的发起人,尤其是在初期回报不确定和成本高居不下时更是如此。最理想的做法就是发动一位高级管理者或董事会成员,因为这些人在最初结果不利的情况下,也有足够的权力支持大数据项目。
3、大数据确实需要“大”的安全措施。如果一个组织聚集了大量宝贵数据,就需要保护这些信息免遭不法分子的盗用。因此保护搜集来的所有数据有着极为重要的意义。要保护你的数据,有许多种方法,最常见的是对信息进行正确加密。当然,其他的方法也很多,所以你的大数据团队应始终将数据的安全性当作自己的一项责任。
不过,每个组织还是应当事先准备应急预案,以防数据真的被黑客盗取。出人意料的是,许多公司在遇到与计算机相关的信息安全事件时完全不知所措。这种安全事件可以给企业带来灾难性的后果。如果公司缺乏必要的安全手段,甚至连被黑客入侵了都没发觉,那么后果就更加严重了。
因此,公司应当委派内部人员或使用专门的外部机构的服务,针对潜在的信息安全袭击拟定应急预案。如果公司对组织和客户的数据不加保护,那迟早会关门大吉。如果未雨绸缪了,情况又会大不一样。
4、世界各地的政府正加紧在大数据上的投入。与组织一样,政府也在产生越来越多的数据。许多政府也在进行数字化的转型。以荷兰为例,该国政府希望全面转型数字化办公,并在2017年底彻底淘汰纸质通信。想象一下,1,700万公民在跟国家、地区和县市各级政府通信时可以产生多少数据?
随着这种方案的出现,组织也能够更广泛地接触到公共数据集,从而引发人们针对世界各地的问题提出创新性的解决方案。私营领域启动的数据集项目也越来越多。这种为组织搜集公共和私营数据集的行为已经形成了市场。用户能以访客身份购买数据集或是免费下|载。在某些网站上,还有组织出|售他们自己的数据集。
5、大数据的关键并不在于数据的量。人们通常认为“大数据”这个词表示大量的数据。结果,许多人认为大数据战略只有在你拥有PB或EB级别的数据时才有用。这是不对的。大数据远远不只是收集来的大量数据。大数据更主要的是组合不同来源、不同时间的不同变量的数据集。特别是组合并随之分析不同的数据集,从中找到有价值的新洞见。
此外,大数据指的是对可用的数据进行实时分析,并利用各种算法来预测行为。实时的洞见对于组织来说是十分宝贵的,可以让组织预知客户在短期内的行为。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28