京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大时代3.0之大数据时代
有一天,美国零售企业好市多(Costco)接到了一位母亲的投诉:“我的女儿才16岁,你们却向她推销孕妇类的产品。”
但是,这一次,尴尬的是这位母亲自己,她16岁的女儿确实怀孕了。为什么卖货的商场,却能比朝夕相处的母亲,更早知道女儿的孕事?
回答这个问题,要扯上一个在2012年热透全球科技行业的关键词——大数据。
数据之大
发现自己怀孕之后,16岁的她不敢告诉母亲,只能时常在网上浏览一些和怀孕相关的网站,搜寻一些孕妇要用的东西。这些浏览行为会被当做数据记录下来,Costco的数据分析团队,会据此进行精确的商品促销定位。
向记者讲述这个故事的华为企业业务BG存储营销总监杨传斌,有很多这样的故事。
“最近我们中标了山东移动,运营商对大数据的需求是相当的迫切和强烈。”杨传斌说,对用户的话费清单进行分析,不管是对用户还是对运营商自己都能带来很大的价值。
首先,从用户层面看,用户查询到自己每月的话费单后,面对一长串的数字,往往无所适从。他们需要知道的是,自己这个月漫游多还是本地电话多,接电话多还是打出电话多,哪些是自己联系最多的人。
其次,从运营商层面来看,山东移动有数千万客户,怎样发掘这些用户的共性消费特征,制订出符合用户需求的资费套餐,是一个很大的学问。
而这些都有赖于引入大数据的存储系统和分析系统。“部署大数据,一方面可以增加客户的黏度,另一方面可以降低运营成本,有的资费套餐只有很少人用,却还要为它维持一整套系统。”杨传斌向记者透露,华为的大数据解决方案已经在电信领域有了很多成功案例。
“大数据”的风靡一时,归根结底还是因为人类社会数据量的几何级增长。
“根据我们的跟踪,每18个月新产生的数据量是过去所有历史数据的总和。”杨传斌说,尽管公众接触到大数据这个概念是最近一两年的事,但在业界,这个词早在上世纪60年代就已经出现。
从那时候到现在,人类对数据的应用主要经历了三个阶段。
第一个阶段被称为关键应用部署阶段,时间从上世纪60年代到80年代早期,当时的主要用户是企业,主要是在大型机上部署财务、银行等关键应用系统,存储介质包括磁盘、磁带、光盘等。
这些数据很关键,很重要,尽管当时人们称之为大数据,但从现在看来,这些数据的量是很有限的,这从上述存储介质的出货量增长上就能看出来。
第二个阶段是企业自动化阶段,标志是PC的出现和大量应用,企业内部出现了很多以办公文档为主要形式的数据,包括office文档、Excel文档,以及后来的图片、图像、影像和音乐等。这时候,产生数据的不仅仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据量的增长。
互联网的兴起为数据的第三次大规模增长插上了翅膀,在这个阶段,产生数据的人更加扩展了,不光是企业的办公人员,几乎全民都在制造数据。与此同时,数据的形式也极大丰富,各种应用层出不穷,既有视频、微博、博客等主动产生的数据,也有搜索、浏览网页等被动行为过程中被记录、搜集的数据。
杨传斌说,发展到今天,这些数据已经呈现指数级的增长。目前全球性的科技公司都要和PB级规模的数据打交道,而Facebook每天要存储大约100TB的用户数据,NASA(美国国家航空航天局)每天要处理约24TB的数据。
这些用来存储数据信息的单位可能比较抽象,拿人们熟悉的兆(MB)来做参照,1024个MB是1个GB,1024个GB是1个TB,1024个TB是1个PB,1024个PB是1个EB,1024个EB是1个ZB。举个例子来说,欧洲物理对撞机每年会产生28PB的数据规模。
杨传斌说,目前全球每年产生的数据量是ZB级,到2015年会达到35个ZB。
商业机会
数据无处不在,并通过各种可能的方式影响着企业业务和每个人的生活。但某种程度上,这又是一个很容易陷入行话堆砌和承诺陷阱的领域,尤其是最近一两年来,随着“大数据”成为科技热词,各路厂商纷纷从自己的角度出发,推介自己形形色色的大数据产品和解决方案。一时之间,赶时髦者有之,新瓶装旧酒者有之。
“华为目前推出的大数据存储产品,比如N8000、CSS等就具有这样的特征。”杨传斌说,作为高性能存储的一个指标,华为的大数据解决方案在最近的一项测试中达到了300万OPS。这是衡量存储性能的一个指标,意思是每秒钟能进行300万个操作。
杨传斌向记者透露,华为的这些大数据存储已经在国内外有了很多客户,除了前文提及的Costco、山东移动、欧洲核子研究中心(CERN),还包括工商银行、全球最大的体育视频节目制作公司IMG等。前者希望从客户的存储中挖掘投资习惯,并向客户针对性地推荐理财产品;后者对分布式动态视频渲染有着很大的需求。
“除了存在那里,大数据主要还是要给存储数据的用户或者是最终的使用者带来价值。”杨传斌对记者表示,对于如何从数据中发现价值,业界有很多不一样的技术,其中最主要的是以Hadoop为基础建立的一整套分析体系。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,主要来源于开源社区。杨传斌说,这个体系由众多的自由贡献者、部分厂商,通过开源的方式提供出来供大家自由使用,华为在其中也贡献了自己的计算分析和存储技术。
截至目前,无论是英特尔、IBM、EMC这样的基础架构厂商,还是微软、SAP、甲骨文这样的应用软件厂商,都推出了支持Hadoop或者基于Hadoop的产品线,以应对市场对于大数据的需求。
“华为也会在Hadoop的体系内提供接口,和整个大数据的分析领域对接起来。”杨传斌说,Hadoop对于IT业界来说,除了存储,还可以在计算、分析、数据调度等方面为企业带来商机。
著名市场研究公司Gartner在2012年10月发布的一份研究报告称,在2012年,大数据对全球IT开支的直接或间接推动达960亿美元,而到2016年,这一数字预计将达到2320亿美元。
基于大数据的分析,未来会在社会的方方面面得到应用。比如,通过遍布各地的电子眼和监控摄像头,警务系统可以基于大数据识别一些危险的人或危险的行为,发现苗头进行预警。
再比如,现在几乎没有人可以离开手机,而手机信号的大数据使用,未来甚至可以用于控制交通流量,通过车上的GPS和手机,当交通进入拥堵状态,就通过手机提示你进入某个路段要收费,如果执意进入,费用就从手机上直接自动收取了,这就避免了现在在各个路口设卡刷卡的做法所带来的麻烦。
“这些都是和政府的政策相关,技术上已经完全能实现,只不过政策上怎么部署的问题。”杨传斌说。
格局未定
“大数据还刚刚开始,可以说还没有形成格局。”杨传斌认为,截至目前,也还没有一个完全独立的大数据市场来作为样本分析。
谈到市场竞争,杨传斌表示,“从国内来讲,华为在大数据领域遇到的竞争还是比较少的,因为其他厂商还不太关注中国市场的大数据;从海外来讲,大数据解决方案提供商涵盖传统基础架构厂商、新兴软件厂商和一些基于开源平台的厂商,提供大数据收集、存储、提取、分类、分析、报表、商业智能等某几方面的功能模块。”
事实上,存储巨头EMC对大数据也一直在摇旗呐喊。EMC董事长、总裁兼首席执行官乔·图斯曾对记者表示,大数据已不仅停留于概念,数据大爆炸催生了社会各界对数据分析的需求。他还预测,大数据的发展必将影响职场,未来,拥有一个数据科学(DataScience)学位将比拥有一个计算机科学(ComputerScience)学位更有市场。
在华为看来,大数据解决方案和传统IT相比面临一些新的挑战,首先,大数据应用的数据量很大,并且是有一个逐步积累的过程,要求无论是存储能力和计算能力都需要按需可扩展;其次,大数据由于数据体量庞大,数据移动面临困难,要求应用程序就近计算,结果输出;第三,存储面临着成本压力问题,重删、备份及归档一体,可大幅降低存储成本。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16