Spark会成为大数据分析的新里程碑_数据分析师-CDA数据分析师官网

热线电话：13121318867

Spark会成为大数据分析的新里程碑_数据分析师

2015-04-22

Spark会成为大数据分析的新里程碑_数据分析师

在年初于纽约举行的Spark Summit East大会上，Databrick成为了焦点所在，通过新发布的数据处理云服务，该公司力图将Spark与MapReduce及Hadoop系统划清界限。

经过本次大会，Spark在业界的逐渐普及已是不争的事实。Apache Spark是一个开源的大数据处理引擎，能够被用于解决各界面临的高难度问题：如何快速识别针对比特币网络的拒绝服务攻击？如何将车辆与物联网或互联网相连接？如何识别出那些极为隐秘的洗钱行为？

对于Spark的兴趣不仅仅局限于具有纯天然数字化基因的企业，或者提供Spark相关技术的厂商。诺华制药（Novartis）、有线电视网Comcast和高盛等公司也在会上为Spark唱起了赞歌。但是，本次Spark Summit与其说是一次会议，不如说是一次Databrick的专场演出。Databrick发布了商业版的Spark系统，并且撇清与Hadoop生态的任何关系 -- 既非敌人也不是朋友。Databrick这次发布的是基于云的Spark服务。

顺势而生

Databrick由加州伯克利大学AMP实验室团队所创建，即Apache Spark的开发者。自从诞生伊始，Spark就被拿来与MapReduce进行比较，MapReduce是Hadoop最初的数据处理引擎。MapReduce因其对大数据集的分布式处理能力而广受关注，但是也一直在效率方面饱受责难。MapReduce以批处理方式进行计算，无法很好地应对流处理模式（比如物联网项目）。而且，MapReduce没有内存计算的选项，每次计算后都要将结果写入外部存储，这使得迭代式的任务相当耗时。

MapReduce的种种缺陷，使得诸如Spark之类的新一代处理引擎应运而生。“MapReduce的设计始于15年以前，”Databrick的联合创始人Patrick Wendell表示：“而Spark则是基于当代最新的硬件，完全重新设计而成的。”

同时，Databrick实现了Spark与Hadoop环境的兼容，并坚信Spark将在大数据生态中扮演更重要的角色。“我认为Spark将凌驾于Hadoop之上，在更多的场景中发挥作用。目前，在很大程度上这一点已经成为现实。”Wendell说。

去年春季，Databrick与DataStax建立了合作伙伴关系，后者专注于提供NoSQL数据库Cassandra的商业版。去年秋天，Databrick发布了Databrick云，基于Amazon S3存储提供Spark环境，实现所谓的大数据即服务。由于在可用性方面受限，有传闻Databrick云最终将驻留在Google Compute Engine和微软Azure云上。与MapReduce不同，Databrick尽量让使用Spark的技术门槛降低，能够面向更为广泛的受众。比如，Databrick为用户提供了各种高级和低级的API接口 – 所谓高级接口，主要针对那些对数据科学或分布式系统不熟悉的用户，使之同样能从复杂的机器学习算法中受益。

应者云集

如果说本次Spark Summit East大会带来的影响，应该就是CIO们，或者更确切地说是那些一直追踪大数据技术发展的数据分析师们会认为Spark将是继Hadoop之后的新里程碑。Databrick宣称Spark大数据处理引擎将改变企业分析的形态（过去的情况是，诸如Cloudera一类的Hadoop提供商一直扮演着支撑的角色）。Databrick同样让与会者相信，即使那些“普通”（normal，先前举行的Hadoop World大会上，Cloudera使用了这个词）的公司，也能够从Spark中受益，比如诺华制药和Comcast，以及不那么有名的Automatic和Shopify公司。

对于Spark的赞美同样来自于其他与会者。Tresata的创始人和首席执行官Abhishek Mehta表示：“我认为Spark应对了当前大数据研究中的所有热点问题。”高盛的Matt Glickman表示，Spark代表了未来发展的方向，将成为大数据分析的通用工具。Alteryx（致力于为普通用户提供分析语言R和大数据分析能力）的首席运营官George Mattew则描述了在集成R和MapReduce时的遭遇。
“有人说，旧约中并没有对地狱的具体描述。”Mathew回忆到：“但是，当我们试图将R和MapReduce集成时，却有了切身体会。在引入其他通用的计算能力时，MapReduce的步伐是如此艰难。”

这听起来非常刺耳，曾经的大数据明星，如今被Spark的光芒所掩盖 – 至少在某些大数据信徒看来，事实就是如此。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据 Hadoop 数据分析 SQL 机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Spark会成为大数据分析的新里程碑_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

Spark会成为大数据分析的新里程碑_数据分析师​

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

Spark会成为大数据分析的新里程碑_数据分析师