京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何驾驭大数据
到 2018年 全球大数据方面的开支将达 1140 亿美元,是 5年 前的 3 倍;到 2020年 全球大数据规模将达 44ZB(泽字节),是 2013年 的 10 倍。下一波大数据浪潮即将来袭,但是并没有多少组织为此做好准备。如果应对措施不当,你可能就不是弄潮的那个,而是被浪尖打翻的那个。如何为驾驭大数据做好准备呢?请看 Crewspark CEO Cameron Sim 的文章。
1140 亿美元。这是 2018年 全球组织在大数据方面的开销,仅仅 5年 的时间就增长了 300%以上。但是这些投入有多少是值得的呢?
过去 10年,我们目睹了大数据管理新方法的广泛应用,如 MapReduce、供大规模存储使用的非模式化数据库,以及用于存储和处理的 Hadoop、Storm 和 Spark 等。但是大数据的使用不仅仅是特定平台或范例的部署而已: 通常这意味着公司对数据的建构和组织进行彻底的重新设计。
但据调查发现,目前还没有多少组织为新的数据平台和能力做好基本准备。只有 35%的组织拥有了 “健壮的数据捕捉、管理、验证及保存流程”,更有 67%“缺乏衡量定义明确的大数据行动成功的标准。” 那些大数据解决方案基本都是被动集成进来的。
但时间可不等人,根据 2014年IDC 的报告,到 2020年,全球的数据总量将达 44ZB,整整是 2013年 的 10 倍。面对着下一波的数据大爆发,那些未做好准备的公司将可能就会有背负运营和技术双重债务的风险,并因数据落后而被淘汰出局。
具体而言,这些风险体现在以下几个方面:
企业丧失透明度
业界将面临大规模的技能短缺问题——很少有 IT 专业人士有经验管理大规模的大数据平台。根据麦肯锡的分析,到 2018年,美国将出现 150 万名有能力做出基于数据决策的经理。为了缩短这一鸿沟,麦肯锡估计企业将需要把数据和分析预算的 50%投入到一线经理的培训上面。但是还没有多少公司意识到这一点。
随着数据需求的扩大,如果对信息管理缺乏深刻理解,对数据扩展性缺乏最佳实践,那么在管理数据驱动的系统时就会遭遇到重大挑战。而糟糕的运营透明度会导致企业很难识别出数据何时不准确和无意义,甚至连关键报表和指标是否正确运行都不知道。理清这些错综复杂并对数据提出正确的问题将成为 IT 人员的必备技能。否则就会缺乏对企业运营的可视性,无法有效做出知情决策并削弱企业的竞争优势。
人工成本飙升
据估计 2014年 时数据科学家 50-80%的工作时间花在了数据集清理和处理上。近期公司往往倾向把数据准备工作的自动化外包给离岸或近岸的数据专家。对 CloudFactory、MobileWorks 及 Samasource 这类微工作平台的需求已经爆发,据估计,到 2018年 这类业务的规模将达到 50 亿美元。
但是外包无法规模满足需求。鉴于未来的数据量将达到 44ZB,数据的这种快速增长会需要成千上万具备长期可行的解决方案的离岸或近岸外包团队。而任何可持续的解决方案都离不开显著的自动化。
通信障碍
现在企业间的交互依靠的是经过组织的数据,但与未来 20年 发生的事情相比,这种组织数据的过程将会显得苍白无力。未来将会出现新的企业数据网络标准以及相应的算法和元数据。未能参与到这一全球数据市场的公司将无法利用市面上销售的这些数据产品。
全球各个领域都在发生这种朝着大规模商业数据共享的演变。比方说,在要求第三方验证其研究的压力之下,像葛兰素史克这样的药企最近都拟定了更广泛共享实验数据的计划。奥巴马总统已经要求技术公司共享潜在黑客威胁的数据。Forrester 最近的一项研究预测,数据服务将成为 2015年 的主流产品。按照这种节奏,10年 后大数据的有效使用不仅会成为市场致胜的关键,而且还是参与市场的先决条件。
这些风险就像一个个大数据的定时炸弹,对你构成严峻挑战。不过如果你采取下面的三个步骤,危险也许就可以解除。
1、不要走一步看一步
为了确保未来的分析能力,企业必须现在就开始投资一个能够快速有效管理新数据集的平台。应该考虑业务未来在数据摄入与联合方面如何运作,如何从传统的系统过渡到端到端的自动化的数据与分析。
其核心是这个平台要能够有目的地、小心地、透明地扩充,而不是光收集数据,但对这些数据使用却没有明确的目的,或者在数据的解析上不做投入。
2、再痛也要重建旧数据应用架构
许多公司过度依赖维护开销很高的旧系统,导致升级或作出战略变革的优先性被贬低。甚至一些大公司也是如此,比方说三星的 SmartHub TV 是跑在云上面的,但是因为顾忌迁移成本,其所有的金融交易仍在本地处理。
其结果就是在许多组织里面数据形成了一个个以部门为单位的烟囱。某些数据,比方说社交媒体方面的信息,甚至还保存在公司以外,这又增加了一层复杂性。要想大数据创新,企业必须以提高跨部门运营透明度为焦点对旧的数据应用进行翻新。
3、模块化、多颗粒度的数据管理
要把裸数据和洞察数据塑造成模块化、组织得当、具备各种颗粒度的实体,这一步做得越深入,越能够有效的利用商业洞察,同时还能在永远变化的大数据形势中保持敏捷的反应力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08在数据驱动决策的链路中,统计制图是CDA(Certified Data Analyst)数据分析师将抽象数据转化为直观洞察的关键载体。不同于普通 ...
2026-01-08在主成分分析(PCA)的学习与实践中,“主成分载荷矩阵”和“成分矩阵”是两个高频出现但极易混淆的核心概念。两者均是主成分分 ...
2026-01-07在教学管理、学生成绩分析场景中,成绩分布图是直观呈现成绩分布规律的核心工具——通过图表能快速看出成绩集中区间、高分/低分 ...
2026-01-07在数据分析师的工作闭环中,数据探索与统计分析是连接原始数据与业务洞察的关键环节。CDA(Certified Data Analyst)作为具备专 ...
2026-01-07在数据处理与可视化场景中,将Python分析后的结果导出为Excel文件是高频需求。而通过设置单元格颜色,能让Excel中的数据更具层次 ...
2026-01-06在企业运营、业务监控、数据分析等场景中,指标波动是常态——无论是日营收的突然下滑、用户活跃度的骤升,还是产品故障率的异常 ...
2026-01-06