京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大时代3.0之大数据时代
有一天,美国零售企业好市多(Costco)接到了一位母亲的投诉:“我的女儿才16岁,你们却向她推销孕妇类的产品。”
但是,这一次,尴尬的是这位母亲自己,她16岁的女儿确实怀孕了。为什么卖货的商场,却能比朝夕相处的母亲,更早知道女儿的孕事?
回答这个问题,要扯上一个在2012年热透全球科技行业的关键词——大数据。
数据之大
发现自己怀孕之后,16岁的她不敢告诉母亲,只能时常在网上浏览一些和怀孕相关的网站,搜寻一些孕妇要用的东西。这些浏览行为会被当做数据记录下来,Costco的数据分析团队,会据此进行精确的商品促销定位。
向记者讲述这个故事的华为企业业务BG存储营销总监杨传斌,有很多这样的故事。
“最近我们中标了山东移动,运营商对大数据的需求是相当的迫切和强烈。”杨传斌说,对用户的话费清单进行分析,不管是对用户还是对运营商自己都能带来很大的价值。
首先,从用户层面看,用户查询到自己每月的话费单后,面对一长串的数字,往往无所适从。他们需要知道的是,自己这个月漫游多还是本地电话多,接电话多还是打出电话多,哪些是自己联系最多的人。
其次,从运营商层面来看,山东移动有数千万客户,怎样发掘这些用户的共性消费特征,制订出符合用户需求的资费套餐,是一个很大的学问。
而这些都有赖于引入大数据的存储系统和分析系统。“部署大数据,一方面可以增加客户的黏度,另一方面可以降低运营成本,有的资费套餐只有很少人用,却还要为它维持一整套系统。”杨传斌向记者透露,华为的大数据解决方案已经在电信领域有了很多成功案例。
“大数据”的风靡一时,归根结底还是因为人类社会数据量的几何级增长。
“根据我们的跟踪,每18个月新产生的数据量是过去所有历史数据的总和。”杨传斌说,尽管公众接触到大数据这个概念是最近一两年的事,但在业界,这个词早在上世纪60年代就已经出现。
从那时候到现在,人类对数据的应用主要经历了三个阶段。
第一个阶段被称为关键应用部署阶段,时间从上世纪60年代到80年代早期,当时的主要用户是企业,主要是在大型机上部署财务、银行等关键应用系统,存储介质包括磁盘、磁带、光盘等。
这些数据很关键,很重要,尽管当时人们称之为大数据,但从现在看来,这些数据的量是很有限的,这从上述存储介质的出货量增长上就能看出来。
第二个阶段是企业自动化阶段,标志是PC的出现和大量应用,企业内部出现了很多以办公文档为主要形式的数据,包括office文档、Excel文档,以及后来的图片、图像、影像和音乐等。这时候,产生数据的不仅仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据量的增长。
互联网的兴起为数据的第三次大规模增长插上了翅膀,在这个阶段,产生数据的人更加扩展了,不光是企业的办公人员,几乎全民都在制造数据。与此同时,数据的形式也极大丰富,各种应用层出不穷,既有视频、微博、博客等主动产生的数据,也有搜索、浏览网页等被动行为过程中被记录、搜集的数据。
杨传斌说,发展到今天,这些数据已经呈现指数级的增长。目前全球性的科技公司都要和PB级规模的数据打交道,而Facebook每天要存储大约100TB的用户数据,NASA(美国国家航空航天局)每天要处理约24TB的数据。
这些用来存储数据信息的单位可能比较抽象,拿人们熟悉的兆(MB)来做参照,1024个MB是1个GB,1024个GB是1个TB,1024个TB是1个PB,1024个PB是1个EB,1024个EB是1个ZB。举个例子来说,欧洲物理对撞机每年会产生28PB的数据规模。
杨传斌说,目前全球每年产生的数据量是ZB级,到2015年会达到35个ZB。
商业机会
数据无处不在,并通过各种可能的方式影响着企业业务和每个人的生活。但某种程度上,这又是一个很容易陷入行话堆砌和承诺陷阱的领域,尤其是最近一两年来,随着“大数据”成为科技热词,各路厂商纷纷从自己的角度出发,推介自己形形色色的大数据产品和解决方案。一时之间,赶时髦者有之,新瓶装旧酒者有之。
“华为目前推出的大数据存储产品,比如N8000、CSS等就具有这样的特征。”杨传斌说,作为高性能存储的一个指标,华为的大数据解决方案在最近的一项测试中达到了300万OPS。这是衡量存储性能的一个指标,意思是每秒钟能进行300万个操作。
杨传斌向记者透露,华为的这些大数据存储已经在国内外有了很多客户,除了前文提及的Costco、山东移动、欧洲核子研究中心(CERN),还包括工商银行、全球最大的体育视频节目制作公司IMG等。前者希望从客户的存储中挖掘投资习惯,并向客户针对性地推荐理财产品;后者对分布式动态视频渲染有着很大的需求。
“除了存在那里,大数据主要还是要给存储数据的用户或者是最终的使用者带来价值。”杨传斌对记者表示,对于如何从数据中发现价值,业界有很多不一样的技术,其中最主要的是以Hadoop为基础建立的一整套分析体系。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,主要来源于开源社区。杨传斌说,这个体系由众多的自由贡献者、部分厂商,通过开源的方式提供出来供大家自由使用,华为在其中也贡献了自己的计算分析和存储技术。
截至目前,无论是英特尔、IBM、EMC这样的基础架构厂商,还是微软、SAP、甲骨文这样的应用软件厂商,都推出了支持Hadoop或者基于Hadoop的产品线,以应对市场对于大数据的需求。
“华为也会在Hadoop的体系内提供接口,和整个大数据的分析领域对接起来。”杨传斌说,Hadoop对于IT业界来说,除了存储,还可以在计算、分析、数据调度等方面为企业带来商机。
著名市场研究公司Gartner在2012年10月发布的一份研究报告称,在2012年,大数据对全球IT开支的直接或间接推动达960亿美元,而到2016年,这一数字预计将达到2320亿美元。
基于大数据的分析,未来会在社会的方方面面得到应用。比如,通过遍布各地的电子眼和监控摄像头,警务系统可以基于大数据识别一些危险的人或危险的行为,发现苗头进行预警。
再比如,现在几乎没有人可以离开手机,而手机信号的大数据使用,未来甚至可以用于控制交通流量,通过车上的GPS和手机,当交通进入拥堵状态,就通过手机提示你进入某个路段要收费,如果执意进入,费用就从手机上直接自动收取了,这就避免了现在在各个路口设卡刷卡的做法所带来的麻烦。
“这些都是和政府的政策相关,技术上已经完全能实现,只不过政策上怎么部署的问题。”杨传斌说。
格局未定
“大数据还刚刚开始,可以说还没有形成格局。”杨传斌认为,截至目前,也还没有一个完全独立的大数据市场来作为样本分析。
谈到市场竞争,杨传斌表示,“从国内来讲,华为在大数据领域遇到的竞争还是比较少的,因为其他厂商还不太关注中国市场的大数据;从海外来讲,大数据解决方案提供商涵盖传统基础架构厂商、新兴软件厂商和一些基于开源平台的厂商,提供大数据收集、存储、提取、分类、分析、报表、商业智能等某几方面的功能模块。”
事实上,存储巨头EMC对大数据也一直在摇旗呐喊。EMC董事长、总裁兼首席执行官乔·图斯曾对记者表示,大数据已不仅停留于概念,数据大爆炸催生了社会各界对数据分析的需求。他还预测,大数据的发展必将影响职场,未来,拥有一个数据科学(DataScience)学位将比拥有一个计算机科学(ComputerScience)学位更有市场。
在华为看来,大数据解决方案和传统IT相比面临一些新的挑战,首先,大数据应用的数据量很大,并且是有一个逐步积累的过程,要求无论是存储能力和计算能力都需要按需可扩展;其次,大数据由于数据体量庞大,数据移动面临困难,要求应用程序就近计算,结果输出;第三,存储面临着成本压力问题,重删、备份及归档一体,可大幅降低存储成本。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27