京公网安备 11010802034615号
经营许可证编号:京B2-20210330
全民大数据时代已不远_数据分析师考试
大数据的神奇令人惊叹,不过要面对超爆发式的数据增长,企业往往要支付超高额的数据存储费用,因此大数据产业仅仅集中在超大型、垄断型企业,不过在日前举行的2015上海大数据产业高端峰会上,肯睿中国区副总裁苗凯翔介绍了一种名为Hadoop的技术,通过重塑数据构架,它在一定程度上解决了大数据发展的成本之痛。而今,全球大数据生态圈中,Hadoop已经成为最为核心的技术。
存储成本阻碍大数据发展
数据量的快速增长,是IT业面临的重大挑战。统计显示,人类迄今为止存储的数据中,90%以上是最近两年新产生的,这种数据爆炸的趋势还将延续。“到2020年,互联网设备的总数将达到500亿部,数据总量将达到40ZB(1ZB=十万亿亿字节)。”苗凯翔说,这大约是人类现在需要处理信息量的10到20倍,换句话说,年均增长超过40%。
数据量快速增长,要求数据处理能力同步提高,但多数企业却因为预算不足而难以招架。以美国主要的四家银行为例,它们每年新增的数据量大致是40PB(1PB=100万GB),仅仅为存储这些数据,每年就必须增加3.2亿美元的投入。
“钱是主要问题。”苗凯翔说。事实上,为了应对40%的数据增速,企业在IT系统方面的预算必须以4%的年率增长,但实际上这块预算的增速很难超过1%。由于投入不足,银行不得不放慢推进大数据业务的速度,比如推广手机银行。
开源模式推动大数据发展
奥巴马政府把大数据比作“未来的新石油”,不过静静流淌的石油并没有价值,只有经过勘探、钻井、提炼、加工成石化产品,其商业价值才能体现。当下,关于大数据说得多做得少,正是由于开采工具不足。苗凯翔认为,要改变这一现象,必须从更深层次理解数据在当今时代意味着什么。
在过去,数据主要驻留在结构化的交易数据库里,结构是固定的,比如企业数据仓库用来产生运营报告;存储系统用来保留数据的有效和安全;搜索系统通过Web搜索引擎来寻找和探索信息……这都是一个个“地窖”,当需要计算时,就将“地窖”中的一部分数据送到计算机处。
不过这种方式只能进行少量、低频率的计算,想要应对当今的数据量、数据多样性和数据生成速度,旧的数据构架显然难以为继。“因为数据的属性已经改变,所以数据构架也一定要变。”苗凯翔说。
10年前,大数据概念还未问世,雅虎公司的技术人员就注意到了这个问题,并由此开发出基于互联网架构的数据处理技术,并以他3岁儿子的棕黄色大象玩具之名将其命名为Hadoop,如今这一开源技术已经成为大数据生态圈的核心。
“它是开源的,能够更高效地处理信息,而且支持标准化存储设备的无限扩容。”苗凯翔说。以国有四大银行为例,一个由53台PC机组成的大数据平台能够支持并发用户30万个,而此前的数量是300个。这样一套系统的使用成本不到原来的1/3。
小微企业为大数据开发注入新活力
Hadoop平台孕育了多家大数据商业开放公司,论规模和影响力,肯睿是其佼佼者,这家公司在全球已经拥有1300家合作伙伴,市值超过50亿美元。去年9月,肯睿(上海)软件有限公司完成注册,目前已有30多名员工。
一直以来,受限于高昂的服务器成本,大数据产业仅仅集中在电信、能源、证券、烟草等超大型、垄断型企业,利用开源性的Hadoop平台,就是淘宝店主也能享受到大数据带来的好处。“我们有免费版本,只要经过简单培训,并愿意共享你的数据,就能使用这个平台。”苗凯翔说。
小微企业的加入或许能为目前发展有些缓慢的大数据注入新的活力。因为根据以往全球的经验来看,企业规模稍大一些,就不太愿意分享自己的数据,而小企业主往往更愿意走出这一步。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】报表、数据源、客户、营销、业绩、销售、时效性、函数、可视化、运营、数据分析、数据报表、业务部门、数据运营 ...
2026-06-30在数据分析、商业预测、经济统计、运维监控等领域中,绝大多数业务数据都具备时间连续性特征,例如月度销售额、日度客流量、季度 ...
2026-06-30 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-06-30在 SQL Server 安装、服务启动、数据库文件操作等场景中,经常会遇到 “实例已在使用” 类报错,不同触发场景的原因与处理方式差 ...
2026-06-29在Excel数据统计、财务核算、销售复盘、库存盘点等办公场景中,经常需要在数据透视表中实现一列数据乘以另一列数据的计算需求, ...
2026-06-29在数据分析中,指标是连接业务与数据的核心语言。它并非一个简单的数字,而是一个将模糊的业务需求(如“提升用户粘性”)转化为 ...
2026-06-29【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22