京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据到底是什么_数据分析师培训
如果用非IT类媒体的报道次数或关注度,来去衡量一个IT词汇的热度,我相信“大数据”绝对可以算得上是当前最热的IT词汇,云计算肯定不是它的对手。
大数据之所以这么火热,是因为它与普通大众的生活之间,相较其他IT术语似乎有着更为重大,或者说更具传奇色彩更为深厚的关系。从定向营销,到助力美国总统大选,大数据迅速披上了神奇的外衣。而也正是因为它对于人类生活的这种显性的影响力,让它成为了每个生活于信息世界中的人,或多或少都要关注的方向。
仅以企业与客户者之间的关系而言,企业主希望借助大数据来分析客户行为规律、兴趣爱好、找到目标的客户,向潜在的客户推送他们可能想要的信息,但另一方面消费者也会因为一些不靠谱的信息推送,来揣测相关企业的大数据的水平。除此之外,通过大数据来改变自身运营效率的企业案例,似乎也正在飞速增加着……因此,从哪个方面看,大数据也越来越有成为公从谈资的资本。然而,大数据到底是什么,可能这些参与其中的人又会给出不同的说法,有技术层面上的解读,有理念层面上的解读,有从使用效果上的事后总结……但实话实说,与其他IT术语相比,大数据在解释上更具多样性与不确定性色彩。
大数据是噱头吗?
今天我们来谈“大数据到底是什么”,并不想从技术或理念上深究,而希望能一种浅显的描述,来最大限度的达成一种对大数据的共识。其实,大数据这一概念最早成型于IDC与EMC合作的调研报告中,可是那个调研报告的侧重点还在于对互联网、物联网、云计算等大趋势下的数据积累、保存与管理的警示,随后不同的厂商在这一基础上不断扩展、丰富并最终延伸出一个业界公认的4V属性理论(体量Volume、种类Variety、速度Velocity、价值Value,IBM的4V理念将最后一个V定义为真实Veracity),从而形成了一个闭合的大数据体系,从纵向上又总结出从硬件基础设施到数据管理,再到数据分析,最后是数据呈现等4层架构。归根结底,大家最后的共识都认为大数据最终要用服务于社会的,这是它的终极用途,之前所说的积累、保存、管理、分析都是为这一目的服务的。
这么说来,对大数据的认识似乎又统一了,但也因此也使很多人对大数据概念嗤之以鼻。如果仅就大数据最终要体现出应用的价值为社会服务的话,与以前的数据挖掘、商业智能理念又有怎样的区别呢?大数据中的体量,可能在很多场合也并不能体现出来,可能就是几TB的数据也能把人搞得焦头烂额,无非就是数据类型扩展而已。所以,说“大数据只是一个噱头”并无道理。
但是,当前的一些大数据的应用案例,也的确与以往的数据仓库应用不同,这其中可能有非结构化与结构化数据的原因,但也有一新的理念、处理模型与手段的变化。至于哪些新东西是因大数据引发的,我们在此也没必要去纠缠,只需要解答一个核心的问题即可:数据到底是什么?
数据能源?
如果说很多人追捧大数据的神奇在于,它可以将原本不起眼的历史数据化腐朽为神奇,那么我们是不是可以将大数据比作一种通过加工而来的一种能源?如果可以,我们放眼地球上的能源,就会发现其与大数据有着太多相似之处。
地球上的能源有很多种,但是它们之所以是能源的前提在于人类对它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源,前者可用来取暖、驱兽、加工食品,后者可用来生火。在此之后,随着人类文明的进步,科技的发达,逐渐发现了越来越多的能源,比如煤、天然气、石油、太阳能等等,但是在人类还不能认知它们时,它们就不存在了吗?显然不是,在没有人类的时候,它们就已经在地球上静静的等候了成万上亿年,只是人类掌握了相应的科技与工具之后,它们才得以登堂入室。
数据也是一样,如果数据有着一个生成/采集——应用/加工——保存/管理——分析/挖掘——再保存或删除这样的一个周期的话,那么在其生成的那一刻起,它就存在着应有的价值,只是在于你是否有能力去发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下几十公里有石油,他们也无法开采,所谓的数据分析,道理也是一样的。
从人类发展的历史来看,不断发现新的能源,是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的能源。从这个角度讲,当前的大数据所带来的种种神奇,只是人类在数据收集、管理、分析等领域的一次进步而已,它有出现的必然,而非人类的一种“顿悟”。
我们再来看看地球能源的4V属性:
图注:大数据的4V属性:Volume、Variety 、Velocity和Value。
1、Volume——储量:现在已经探明的,或新探明的煤、天然气、石油、风、太阳能等能源的储量是相当惊人的,但遍布于多种地形、地貌中,就看人类有没有本事都能获取到了。
2、Variety——类别:随着人类技术水平的进步,所获得的能源种类也就越来越多,并且越来越多以前认为不行的资源,后来也慢慢成为了能源,放射性元素就是典型的例子,而若技术成熟,海水将成为人类用之不竭的新能源。曾经有一篇科幻论文说得好“也许未来只需要一把泥土,就能把火箭送上月球”。另一方面,不同能源所需要的开采技术与工具也各不相同,这就好比结构化数据与非结构化数据的处理手段的差别。因此,人类面对的能源类别越来越多,它也需要人类具备越来越多种类的能源开采能力。
3、Velocity——开采/转换效率:很难想像一口一天只产一加仑的油井有什么价值,如果一个太阳能的光电转换效率不到1%,还有使用它的必要吗?因此,人类在能源上的开采/转换的效率将决定这种能源的可利用性,就如果做数据分析,今天的销售数据分析,一个月后才能出来,那不分析也罢了。
4、Value——价值:能源的价值取决于它所能提供的能量与贡献,谁都知道95号汽油比92号汽油好,但也更贵;煤很便宜,但能提供的能量也相对较低;电能,在目前仍要通过其他能源转换得来,这都是价值之所在。它决定于自身的属性,与相应的数据挖掘与提炼的能力,前者相当于汽油与煤的不同,后者相当于炼油厂在95与92号之间的提炼工艺不同。它们都最终决定了数据的价值——并且像某些大数据宣传中所鼓吹的那样,好像任何数据用大数据分析后,就能黄土变黄金一样,这是不可能的,除非你自己对某类数据的认知就有偏差(原本就是土,和原本就是金子,有着本质不同)
IBM所提倡的Veracity,我认为可以理解为能源的提炼水平,就算是95号汽油,中国产的能和欧美产的相提并论吗?这就是所谓的真95与假95号的区别。另一个典型的例子就是浓缩铀,丰度为3%的铀235的低浓缩铀可用于核发电,而丰度高于90%的铀235则可以用来制造核武器,两者的价值肯定不一样?所以,这种提炼质量与能力上的区别也最终会体现在能源的价值上。因此,IBM强调数据分析的准确与真实,可以与能源提炼过程中的纯度相对应,体现了对数据分析的一种质的要求。
图注:IBM把大数据第4个V定义为Veracity。
说完理念的对比,再看纵向技术架构上的相似之处,大家可以想想大数据中所谈到的数据采集、汇总、保存、管理、分析、呈现是不是与能源的勘探、开采、汇聚、保管、提炼、使用有着一一对应的关系呢?
特别需要指出的是,现在物联网的一大分支——工业互联网越来越热,而大数据就是其最后的重要支撑(前不久通用电气还专门为此投资了Pivotal),其理念在于将各种传感器、致动器也纳入整体的信息采集体系,借助工业设备管控平台,分析出存在于工业设备内有价值的信息,以便于管理、精度调校以及健康预警。想想看,这是不是像地质勘探中,将不同炸点的传感信息汇总起来,再通过震荡波分析软件,来呈现出地下的矿产分布与结构视图?
大数据到底是什么?
话说至此,我们应该可以总结一下了——在某种角度上讲,大数据其实就是人类能源开拓历史在IT领域的一种再现与映射。
无论从理念还是实现手法上,大数据的种种说辞,都可以在人类悠久的能源勘探、开采、利用的经验中到对应的关系,因此,从根本上讲它并不新鲜。
但关键就在于,在IT领域,对于“数据能源”的认知水平,远不如人类对其他类别能源的认知,所以当我们有一天终于完善了相关理念基础,开发出相应的工具,看到了数据内部的能源之后,可能就一种当初发现石油一样的冲动,进而将其夸大、神话。但是,仔细想想,对于已经经历过太多这类惊喜的人类来说(火、电、煤、油、气、核能、太阳能,哪个不给我们一个惊喜?),应该不必如此大惊小怪。
我认为,在数据利用的愿景方面,大数据与原来的数据仓库、数据挖掘、商业智能等概念是同出一辙、一脉相承的。大数据其实是对人类在数据利用方面进入的一个新阶段,它代表了一种理念(数据能源)、一种思路(从数据收集到数据分析再到数据呈现的整体构想)和一种新工具(将结构化与非结构化数据、语义与机器化数据汇聚、统一处理、分析与呈现的工具)的集合。它赋予了人类对数据认知的新能力,也进一步打开了人类的数据利用方面的想像空间。就这一点来说,全盘否定大数据,一概以噱头蔽之,也是不可取的。
总之,我们必须明白大数据并非是从天上掉下来的,是人类IT水平发展到一定阶段的必然结果,就像PC、智能手机等出现一样,是很多相关技术互动过程中自然而然的产物。我们要从一个整体去看它,不能一上来只看到某些诱人的东西,而将这些原本很平实的信息变成了一种“传说”。显然,大数据现在有这种倾向,它似乎无所不能,无所不包。就像我们上文所说的那样,如果数据本身的价值就在泥土一级的,也就不用指望它能提炼出黄金,大数据分做的只是将原本就存在的各种等级的“数据能源”真实的呈现出来而已。在可预计的未来,它将成为一种常态,一种基本的能力,就像现在的汽油一样,每辆车不用因为烧汽油而会自豪,会成为传奇。
所以,我认为当前的大数据热潮应该有针对性的降降温,让其回归本色,还原其实质,并将精力放在一个能源开采者所应投放的地方——数据采集的渠道是不是不够广?数据汇聚的能力是不是不够强?数据管理是不是太过复杂?数据处理能力是不是太弱?数据分析太是不是不智能?数据的呈现是不是易用性与友好度不同?——其实当一件事,到最后大家都要做的时候,当一种能力,大家都要具备的时候,它也就不是神话与传奇了,大数据即是如此。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07