大数据技术对于数据挖掘的未来究竟意味着什么(1)-CDA数据分析师官网

热线电话：13121318867

大数据技术对于数据挖掘的未来究竟意味着什么(1)

2015-08-02

大数据技术对于数据挖掘的未来究竟意味着什么(1)

我们都听说过如下的预测：到2020年，全球以电子形式存储的数据量将达到35ZB，是2009年全球存储量的40倍。而在2010年底，根据IDC的统计，全球数据量已经达到了120万PB，或1.2ZB。如果将这些数据都刻录在DVD上，那么光把这些DVD盘片堆叠起来就可以从地球垒到月球一个来回(单程约24万英里)。

　　对于动不动就忧天的杞人来说，如此庞大的数字可能是不详的，预示着世界末日的来临。而对于乐观主义者来说，这些数字却是一座信息金矿，随着技术的进步，其中所蕴含的财富会越来越容易被挖掘出来。

　　进入“大数据”时代，出现了不少新兴的数据挖掘技术，使得对数据财富的储存、处理和分析变得比以往任何时候都更便宜、更快速了。只要有了超级计算环境，那么大数据技术就能被众多的企业所用，从而改变很多行业经营业务的的方式。

　　我们对大数据技术的定义是：利用一些非传统的数据筛选工具(包括但不限于Hadoop)对大量的结构化和非结构化数据集合进行挖掘，以便提供有用的数据洞察。

　　大数据技术的概念和“云计算”一样，也存在着很多的炒作和大量的不确定性。为此，我们咨询了多位分析师和研究大数据的专家，让他们解释大数据技术是什么和不是什么，以及大数据技术对于数据挖掘的未来究竟意味着什么等诸多问题。

　　大数据技术的发展背景

　　对大企业而言，大数据的兴起部分是因为计算能力可用更低的成本获得，且各类系统如今已能够执行多任务处理。其次，内存的成本也在直线下降，企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。IDC的数据库管理分析师Carl Olofson认为，这三大因素的结合便催生了大数据。

　　“我们不但能够把这些事情做好，而且能够以更低廉的成本去做这些事情，”他说。“过去有些大型超级计算机就曾涉足过繁重的多处理系统，一起构建成紧密聚合的集群，但由于都是专门设计的硬件，所以其成本动辄数十万甚至数百万美元。而现在，我们利用普通的商品化硬件也能获得同样的计算能力。这便帮助我们能够更快、更便宜地处理更多的数据。”

　　当然，并非所有拥有庞大数据仓库的企业都可以说他们正在使用大数据技术。IDC认为，某项技术要想成为大数据技术，首先必须是成本可承受的，其次是必须满足IBM所描述的三个“V”判据中的两个：多样性(variety)、体量(volume)和速度(velocity)。

　　多样性是指，数据应包含结构化的和非结构化的数据。体量是指聚合在一起供分析的数据量必须是非常庞大的。而速度则是指数据处理的速度必须很快。Olofson说，大数据“并非总是说有数百个TB才算得上。根据实际使用情况，有时候数百个GB的数据也可称为大数据，这主要要看它的第三个维度，也就是速度或者时间维度。假如我能在1秒之内分析处理300GB的数据，而通常情况下却需要花费1个小时的话，那么这种巨大变化所带来的结果就会增加极大的价值。所谓大数据技术，就是至少实现这三个判据中的两个的可承受得起的一种应用。”

　　与开源之关系

　　“很多人都认为，Hadoop和大数据是同义词。但这是个错误，”Olofson解释说。例如Teradata、MySQL和一些“聪明的集群技术”的实施案例都没有使用Hadoop，但也被认为是大数据的实施案例。

　　作为大数据的一种应用环境，Hadoop之所以能够引起人们的注意，是因为它是基于MapReduce环境的，这是超算圈里很常用的一种简化环境，主要是由谷歌所创建的一个项目。Hadoop是和各种Apache项目密切相关的混合实施环境，其中包含了在MapReduce环境下所创建的HBase数据库。

　　软件开发人员一般会用一切利用到Hadoop以及相似的高级技术的手段来响应——而这些技术很多都是在开源社区里开发的。“他们创建了一个令人眼花缭乱、变化多端的东西，即所谓的NoSQL数据库，该数据库的键值多数都已利用了各种技术在处理能力、多样化，或者数据库规模上做了优化的，”Olofson说。

　　开源技术一般是没有商业支持的，“所以这些东西还必须让其进化一段时间，逐渐剔除各种缺陷，而这一般需要数年的时间。这就是说，羽毛未丰的大数据技术目前还无法在普通市场上普及。”与此同时，IDC预计至少有三家商业厂商会在年底之前对Hadoop提供某种类型的支持服务。还有其他一些厂商，如Datameer等，也会提供带有Hadoop组件的分析工具，允许企业开发他们自己的应用。例如Cloudera和Tableau等已经在其产品中用到了Hadoop。

　　升级关系型数据库

　　行业观察家们一般都赞成在升级关系数据库管理系统(RDBMS)时也要考虑大数据技术。Olofson说，“大数据技术适用于速度更快、规模更大、成本更低廉的场合。”比如Teradata就把它的系统做得成本更低廉、具备可扩展性和集群环境。

　　然而还有些人则不这么认为。Gartner的数据管理分析师Marcus Collins说，“通常在使用RDBMS时，都要用到BI工具，但这种处理流程并非真的大数据。这种流程由来已久。”

CDA学员免费下载查看报告全文：2026全球数智化人才指数报告【CDA数据科学研究院】.pdf

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据 Hadoop 数据挖掘 SQL 云计算关系型数据库数据仓库

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大数据技术对于数据挖掘的未来究竟意味着什么(1)

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】大数据赋能，精准破局——程序化广告技 ...

【CDA干货】精准防控，长效留存——玩家用户流失监 ...

从战略到行动：CDA数据分析师视角下的指标体系搭建 ...

【CDA干货】Power BI切片器全选功能添加指南：高效 ...

【CDA干货】以数为据，以析促优——数据分析结果指 ...

从“万能基石”到“定制利器”：CDA数据分析师视角 ...

权威收录｜CDA数据科学院发布的《2026 全球数智化人 ...

【CDA干货】基于客户行为数据序列的意图识别模型构 ...

【CDA干货】数据清洗全流程常见问题解析：规避陷阱 ...

从零散数字到体系洞察：CDA数据分析师视角下的指标 ...

【CDA干货】数据波动性评估：从量化分析到风险防控 ...

【CDA干货】多变量一般线性分析结果解读：从数据关 ...

从样本到总体：CDA数据分析师视角下的参数估计 ...

【CDA干货】SQL日期提取：从文本到可用数据，解锁时 ...

【CDA干货】特征重要性分析：解锁机器学习模型价值 ...

从“杂乱”到“有序”：CDA数据分析师视角下的数据 ...

【CDA干货】数据分析与数据挖掘：必备工具与核心技 ...

【CDA干货】SQL 查询结果转换为字符串：场景、方法 ...

从汇总到洞察：CDA数据分析师视角下的透视分析方法 ...

从表格到洞察：数据分析师视角下的表格结构数据特征 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据技术对于数据挖掘的未来究竟意味着什么(1)​

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】大数据赋能，精准破局——程序化广告技 ...

【CDA干货】精准防控，长效留存——玩家用户流失监 ...

从战略到行动：CDA数据分析师视角下的指标体系搭建 ...

【CDA干货】Power BI切片器全选功能添加指南：高效 ...

【CDA干货】以数为据，以析促优——数据分析结果指 ...

从“万能基石”到“定制利器”：CDA数据分析师视角 ...

权威收录｜CDA数据科学院发布的《2026 全球数智化人 ...

【CDA干货】基于客户行为数据序列的意图识别模型构 ...

【CDA干货】数据清洗全流程常见问题解析：规避陷阱 ...

从零散数字到体系洞察：CDA数据分析师视角下的指标 ...

【CDA干货】数据波动性评估：从量化分析到风险防控 ...

【CDA干货】多变量一般线性分析结果解读：从数据关 ...

从样本到总体：CDA数据分析师视角下的参数估计 ...

【CDA干货】SQL日期提取：从文本到可用数据，解锁时 ...

【CDA干货】特征重要性分析：解锁机器学习模型价值 ...

从“杂乱”到“有序”：CDA数据分析师视角下的数据 ...

【CDA干货】数据分析与数据挖掘：必备工具与核心技 ...

【CDA干货】SQL 查询结果转换为字符串：场景、方法 ...

从汇总到洞察：CDA数据分析师视角下的透视分析方法 ...

从表格到洞察：数据分析师视角下的表格结构数据特征 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据技术对于数据挖掘的未来究竟意味着什么(1)