京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据带给企业的风险_数据分析师
“大数据”。这是最新的IT流行语,而原因也不难理解。更快、更深入地解析更多信息的能力,使企业、政府、研究机构等能够以一种以前只能想象的方式去理解这个世界。
这些都是事实。不过呢……
还有一种情况同样也是事实:在争先恐后拥抱大数据的各种可能性之际,我们或许忽略了大数据带来的挑战,比如企业怎样解读信息,怎样管理数据带来的政治问题,以及怎样寻找必需的人才来理解新信息的洪流。
也就是说,大数据为数据分析的游戏增添了更大额的赌注。侵犯隐私的可能性增加,在快速变幻的市场中的财务敞口加大,把噪音当真知灼见的可能性增加,把大量金钱和时间用于界定不清晰的问题或机会的风险加大。
如果不明白、不化解这些挑战,我们就会面临这类风险:将本来有望强化组织的一切数据变成一种牵扯精力的东西,一种幻象,或者是一场伤筋动骨的权力争夺。
请允许我更具体地说说这些挑战。
找到有能力使用Hive、Pig、Cassandra、MongoDB或Hadoop等数据分析工具的人才只是整个洋葱的第一层。没有几家公司的内部专家能够从业务角度证明花钱聘请大数据专家的价值,更不用说对求职者的优劣展开评估。很多管理人员也缺乏基本的数学能力,所以如何找到能够掌握更复杂统计机制的决策者,也有可能是一种挑战。
让事情更加复杂的是,大数据工具还没有做好大范围推广的准备:它们仍在快速演化,大多数高校都没有教,供应商的支持不够理想,对用户灵活性的要求也高于更成熟的工具。考虑到这种情况,寻找合适人才的重要性只增不减。
洋葱的另一层:要让大数据发挥作用,程序员和分析师还要了解所涉行业的基本情况。比如说,一家制药企业的数据分析师注意到,近乎实时的销售终端数据显示1月份阿司匹林销量大增,于是他们说,流感愈演愈烈。但在调动销售资源开展大规模广告活动并增加产量之前,不妨把当前的销售型态与过去几年的情况做个比较。阿司匹林销量增加也可能是很多人在参加新年前夜的聚会之后出现了宿醉反应。如果分析师不了解业务以及应该问的问题,那么公司就有可能在花了很多钱之后一次次地走进死胡同。
最后一层是IT安全。如果说很多公司真的没有能力使用大数据工具,那么它们肯定也没有能力保障数据安全。收集到的信息越多,可能遭到泄露或窃取的信息也就越多。
人们常常认为掌握信息就会在组织内部掌握权力。显然,不管是谁来决定大数据时代该衡量哪些东西,这个决定者都会积累越来越大的权力。
另外,跨越组织边界的信息分享是大数据的属性之一,它可以颠覆传统的权力关系。
以一家在加拿大和美国各有一座工厂的公司为例。来自传感器的数据流显示加拿大工厂出产的发动机拥有97%的可靠性,美国工厂发动性的可靠性只有80%。突然之间,加拿大工厂管理人员在组织内部的地位可能就会升高,让美国工厂的管理人员感到惊慌。
公司的效益可能会得到改善,但高管必须做好管理内部政治的准备。
再举一个例子。大数据使人有机会衡量先前无法衡量的东西。如果一家大型零售企业现在可以更快速、更方便地衡量消费者对不同营销活动(不管是“超级碗”广告、杂志优惠券还是报纸广告)的反应,不同的利益相关者在组织内部的相对地位可能就会发生变化。他们也有可能对社交媒体团队产生憎恨,因为后者会用点击率数据来证明他们有能力或没有能力拉动销售收入。
原先要用几个月时间来规划、执行的流程现在可能只需几分钟就能评估完毕,将会进一步加剧上述颠覆过程。多年习惯了评估年度销售业绩的人常常很难应付每周甚至是每天的收入数据。按老一套办法管理的人可能会发现自己已经落伍于新的世界。
一旦知道信息即权力,有人可能就会投机取巧,损害公司的利益。
比如说,一家大公司开始以公司被推特(Twitter)提及的次数为指标来跟踪网站流量,跟踪结果在高管的推特活动一览表(dashboard)上持续更新。
一支销售团队的经理原先主要是通过贸易展会来获取线索并最终达成销售,然而当推特提及次数成为关键衡量指标之后,这位经理改变了部门的重点,宣称“我们要拿下dashboard”。到头来这个部门可能确实是拿下了dashboard,但这样一来,它强调的就不是曾经大获成功的展会,而是没有优质线索、无利可图的网站点击量和社交媒体流量。
普通数据库大约已经存在了35年的时间,所以人们有了很多经验,这些工具的理解和运用相对容易。相比之下,大数据还在萌芽阶段,所以组织、理解其深层意义的技术仍然处在起步阶段。
另外,理解如此大规模的信息也不是一件容易的事情。安全大师布鲁斯·施奇纳(Bruce Schneier)如此总结很多人的数学能力:“一个,两个,三个,很多个。”电子表格仍然是很多公司的主要定量分析工具,但它远远不足以用来实时衡量某个城市特定时刻道路上的汽车数量,或者是本周联邦政府在交通项目上的支出。
视觉化对于这类数据可以起到极大的帮助作用,但这个领域仍不成熟,其特殊语言也没有多少人懂得。
在如此大的规模层面上思考问题意味着什么?我们怎样才能学会针对主城道路上每一辆汽车、大型连锁零售店每一位顾客的智能手机、或配送车上每一个隔夜包裹所发出的信息提出问题?怎样才能让更多的商人学会按统计概率而非偶然事件思考?由于《点球成金》(Moneyball)这本书及同名电影的缘故,其中涉及的方法已经为球迷所熟知。但他们也将记得,这样的方法是怎样给一个组织带来了天翻地覆的变化,并被竞争对手模仿。
从某些意义上讲,它要求人们用一种全新的方式打量这个世界。
但优秀管理的原则也适用于大数据领域。在企业能够利用大数据获利之前,管理人员必须拒绝迷失在噪音当中,放任它掩盖客户、价值和执行这些基本力量。大数据的数量、速度和多样性可能会显得陌生,使人很容易在数字海啸面前晕头转向。
所以,坚守扎实分析的基本原则总是至关重要。还要记住,数字可能会告诉你一些以前根本都不知道要问的事情,但数字从来不会自己说话。文章来自:CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27