
DT时代,如何理解大数据与云计算的关系
首先要明白大家为何从前几年开始谈大数据了?这是一个基本问题,包含着对当下数据现实的基本认识。一个不可忽视的事实是,随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
数据“大爆炸”
对于如此巨量数据(而且单纯的增量数据都是一个巨量),与之相关的存储、分析、流转、使用到交易等等环节产生了一系列关联的问题,而在当下的时间节点,我们不得不明确面对,而不仅仅是先找个地方把数据存起来。
国家信息中心专家委员会主任宁家骏表示:大数据是指无法在一定时间内使用传统数据库软件工具对其内容进行抓取、管理和处理的数据集。大数据不仅仅是大,还有它的复杂性和沙里淘金的重要性。
以上是宁家骏从技术分析角度对数据与大数据做的区分,传统软件处理的数量主要是结构化数据,而且数量上相对小。当规模大到需要新的技术方案的时候,那正是我们重新认识它的时候。
在笔者看来,大数据有两大特点,一是数据来源多源,包括各种结构化数据和非结构化数据,如网络日志、视频、图片、地理位置信息等等,同时数量相对巨大,大数据中的‘大’本身就是一个相对的概念;二是数据处于“on line”即在线的状态,能够随时被吸取和关联,并进行分析。
一般来讲,更多智能硬件和这能设备的加入,更多数据实时产生,于是就需要大数据技术来实现对数据信息的价值挖掘。大数据技术包括了数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现等八个方面。
而以上几个方面都离不开云平台和云计算能力,比如说数据采集之后的数据存储,现在很多非核心敏感数据都可以存储在云端;数据挖掘也是需要通过云计算和机器学习才能实现。那什么才是云计算呢?
云计算——低成本部署、随需使用的计算大脑
所谓云计算,非常教科书的说法是“能通过网络访问可扩展的、灵活的、可共享的物理或虚拟资源池,并按需自助获取和管理这些资源的模式。其中资源实例包括服务器、操作系统、网络、软件、应用和存储设备等。 ”
从以上概念可以看出其包括软件、硬件等资源,简单说云计算有三层云平台,第一个是Iaas(Infrastructure as a Service),基础设施即服务,以前这些资源都是企业固有资源,现在可以不再拥有,通过平台服务商提供,减轻部署成本;
第二个是Paas(Platform as a service),平台即服务,开放式的API可以由合作方提供行业和内容的服务;
第三个是SaaS(Software as a service),软件即服务。比如我们经常使用的手机APP等;
云计算有一个很重要的特点和优势就是资源池化,就是把Iaas,Paas,Saas层的资源(CPU、存储、网络等)放入到资源池中(云服务器),由云服务器进行集中管理。云计算里所有的服务都是通过资源池里的资源而提供的。
我们已经进入了新一轮技术驱动的时代
那如何理解大数据与云计算的关系?
在中国计算机学会大数据专家委员会副主任车品觉看来:人工智能、深度学习,这些都是二十年前就有的技术,但是二十年前没有大数据,没有可以关联的数据。所以大数据的故事从有了关联才真正开始。
那如何应用大数据?车品觉表示:首先要了解数据的生命周期。“布点”、“收集”、“存储”,这些是前端,之后需要对数据做“识别”、“关联”、“分析”。还有一个能把整个过程包起来的,就是“实时刷新”。这就是数据的生命周期,它是一个闭环。不管你怎么使用大数据,你首先要了解这个周期。
阿里巴巴集团首席技术官王坚在一次小型论坛上分享到:“云计算是工业时代的电,大数据就是福特生产线,云存储就是钢铁工业。也就是说,没有钢铁,就没有电,就不会有大规模工业化生产。没有云计算,大数据不会出来,如果云计算没有解决云存储的问题,也不会出来。”
如果简单来讲,我们可以通过一个图来进行标识:
中国科学院院士、西安交通大学教授徐宗本在刚刚结束的工业大数据大会·钱塘峰会上介绍,大数据是新一代信息技术的基础性技术,被普遍认为是继互联网之后,能对全球社会、经济、工业产生重大影响的技术。
面对一股面向大数据的市场狂热,徐院士讲到两点基本观点:
第一,我不认为大数据对近一两年GDP的贡献有那么大,但肯定的说对于三年、五年之后的GDP贡献巨大。换句话说,只有沉得下心,愿意扎扎实实打好基础的政府和企业,才能从大数据技术上获益。
第二,大数据技术并不是已经成熟的技术,是一个正在从应用中逐渐走向成熟的技术,目前的挑战多于成熟。
所以,要从整体视角来观察大数据和云计算,而不能因为其中一个而偏废其他,总体来讲,大数据技术与云计算都是很有效的工具手段,有待人们去不断挖掘。
我们用丛龙峰博士的话来作结:“历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的泡沫;中期又会低估它的影响,觉得不过是些概念而已;当你觉得它是概念的时候,它已经开始生根发芽,开始茁壮成长。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18SPSS 赋值后数据不显示?原因排查与解决指南 在 SPSS( Statistical Package for the Social Sciences)数据分析过程中,变量 ...
2025-07-18在 DBeaver 中利用 MySQL 实现表数据同步操作指南 在数据库管理工作中,将一张表的数据同步到另一张表是常见需求,这有助于 ...
2025-07-18数据分析师的技能图谱:从数据到价值的桥梁 在数据驱动决策的时代,数据分析师如同 “数据翻译官”,将冰冷的数字转化为清晰的 ...
2025-07-17Pandas 写入指定行数据:数据精细化管理的核心技能 在数据处理的日常工作中,我们常常需要面对这样的场景:在庞大的数据集里精 ...
2025-07-17解码 CDA:数据时代的通行证 在数字化浪潮席卷全球的今天,当企业决策者盯着屏幕上跳动的数据曲线寻找增长密码,当科研人员在 ...
2025-07-17CDA 精益业务数据分析:数据驱动业务增长的实战方法论 在企业数字化转型的浪潮中,“数据分析” 已从 “加分项” 成为 “必修课 ...
2025-07-16MySQL 中 ADD KEY 与 ADD INDEX 详解:用法、差异与优化实践 在 MySQL 数据库表结构设计中,索引是提升查询性能的核心手段。无论 ...
2025-07-16解析 MySQL Update 语句中 “query end” 状态:含义、成因与优化指南 在 MySQL 数据库的日常运维与开发中,开发者和 DBA 常会 ...
2025-07-16如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14