京公网安备 11010802034615号
经营许可证编号:京B2-20210330
高层管理者对于大数据的6个误解
大数据已经成为一个如此普遍的流行词,但有人认为其几乎是毫无意义的。一名IT行业专家表示,其曾从事信息技术工作超过十年,并记得当时订购新的驱动器和存储设备来处理文件和电子邮件,那时读取上千兆字节的信息,当时以为这样大量的数据就是大数据。
经过七年职业生涯的变迁,这个IT专家就职于亚马逊公司,并在他们的数据仓库中运行SQL查询。该数据库的范围之广,让其甚至花费一个星期的时间汇总数据,而无需再采用Excel表格。他以为明白了什么是大数据,但事实证明,并没有任何线索。
大数据如此普遍已经成为一个流行词,但它几乎是毫无意义的。在一次聚会上,这位专家听到有人说,“每家公司都是一家大数据公司。”并让他解释时,他说,如今每家公司都在购买和销售大数据。这位专家认为虽然所有的公司都可以使用大数据或基于大数据的应用程序,但并不是所有的公司都立足于他们的商业模式。他认为在其职业生涯被这种误解迷惑过,因此,他分享了一些自己的误解。
以下是IT高层管理者对于大数据六个最大的误解和错觉:
1.所有的数据是大数据。
调查机构Gartner公司称,大数据必须是大容量,高速度或多样化的各种数据。这意味着,如果你的数据只是处理容纳一个Excel文件,那么你不是在处理大数据。如果你只处理测量千兆字节的数据集,并采用个人电脑能处理,那么你不是在处理大数据。也许你正在处理数千兆字节电子邮件,而你不知道如何处理它,但这并不意味着它是大数据。
2.大数据解决每一个问题。
一些高管认为大数据可以解决一切问题。他们中的许多人都掌握大数据分析来解决问题,而不是使用常识。有一次行业专家和IT高管们试图找出为什么其网站访问人数和销售在四月的一个星期期间急剧下跌,前一年同一周没有经历过同样的下降。他们要求进行分析,在分析之后,直到有人说,“嗯,我们每年都看到网站数据在复活节减少,而去年复活节是在三月。”大数据和分析没有帮助我们弄清这一点,但通过社会常识和日历却可以弄明白。
3.大数据是没有意义的。
关于大数据的“一切”错误观念的另一面是:大数据并不重要。这个观点可以更容易理解,因为大数据的定义表明,它很难处理和理解。如果你不能从大数据中洞察见解或用它来为你的系统提供益处,那确实是毫无意义的。而有着这样观点的IT管理人员虽然了解大数据,却从未从中学到了什么。
为了让大数据变得有意义,你需要能够处理和使用它,其大数据的公司能够更方便实施。这些公司通过收集,清洗起来,组织数据,并通过数据科学家或其他系统可处理,并输出其方式。一旦数据科学家从数据是分析出信息,或者公司的系统使用的数据来执行类似的供应链业务运营,那么公司高管将开始看到大数据的价值。
4.大数据是很容易的。
不幸的是,这是一个常见的误解。让我们看看在世界上的每一个产品的有关信息和定价(免责声明:这是我的公司做的),例如。对于一个单一的产品来说,例如一双鞋,人们需要收集以下数据:
•品牌
•类别
•样式
•颜色
•鞋跟的高度
•材料
•尺寸
•宽度
•出售它的商店
•在这些商店的价格
•随着时间的推移,这些商店的价格
•每次看价格时,其库存如何
这是数学:查询数据库表明,11家不同的零售商在销售同一款,同一颜色的这双鞋。让我们假设正在收集一年中,每个商店销售这款鞋每周的价格和库存数据。这意味着我们有这双鞋的572条记录。如果我们想要追踪春定价和库存信息,其中包括所有16个女鞋的尺寸,这个数字将是9152条。这只是针对一双鞋收集的数据,而在商店鞋柜里的每一双都会创造更多的数据点。
增加的复杂性,在高需求的时间和促销时间收集的价格数据往往比每周一次收集还要多。每日价格和库存信息将意味着一双鞋子有着4015个数据点。亚马逊网站将添加描述这些产品的信息和每个尺寸,以及其对应的不同的价格。因此一双鞋的数据迅速膨胀。想象一下,在这个时代,多达数十亿的产品信息,将其放到你的电子表格中。因此,传统的收集和分析系统将面临大数据的规模的严峻挑战。
5.不完美的大数据是无用的。
这个错误让人疯狂的,因为完美的尺度基本上是不可能的。例如,IT部门试图实现让10亿个具有520个数据点的产品保持一个让人梦寐以求的“五个九”的完美标准(99.999%)。那么在此数据集中,仍然会有5200万个不正确的数据点。
大数据很少达到这种完美的原因很多。许多大的数据来源是远远不够完善。亚马逊公司作为抓取大数据来源之一的网站,很可能在产品名称产生拼写错误。大数据也需要建立和组织其机器学习和算法;在产品数据的世界里,这些可以很容易地根据标题或名称错误将产品进行分类。
缺陷并不表明无用,但。一个有能力的数据分析师可以去除异常,并从大数据中拔出重要的见解,即使有很多缺陷。开发人员可以添加过滤器,减少进入你的系统的错误,,并制定庞大的数据集,这将提高数据质量随着时间的推移训练算法。其中大数据的一个最大好处是,可以弥补偶尔缺陷,让你获得更好的见解。
6.只有大公司需要大数据。
小型营销企业需要网站的流量和关键字搜索的数字。小型购物公司需要尽可能多地链接联盟计划的大型零售商的产品,按需交付服务,并需要可靠的位置数据。这只是那些需要大数据的小型公司的一小部分。
大型公司可能会产生更多的自己的大数据,但几乎每家公司都在现代经济使用上构建了大数据或应用程序。这意味着所有的企业可以获得访问见解和信息,并获得这些庞大的数据集提供的好处,而无需建立和管理创建和分析大数据所需的基础设施。
如今,无论企业规模如何,都不可回避地采用大数据业务。希望了解这些,可以消除误解和错觉。毕竟,我们生活在大数据世界中。如果管理人员更好地理解复杂性,陷阱和大数据的能力,他们会更好地运行业务,做出更好的决策。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02