
Spark会成为大数据分析的新里程碑_数据分析师
在年初于纽约举行的Spark Summit East大会上,Databrick成为了焦点所在,通过新发布的数据处理云服务,该公司力图将Spark与MapReduce及Hadoop系统划清界限。
经过本次大会,Spark在业界的逐渐普及已是不争的事实。Apache Spark是一个开源的大数据处理引擎,能够被用于解决各界面临的高难度问题:如何快速识别针对比特币网络的拒绝服务攻击?如何将车辆与物联网或互联网相连接?如何识别出那些极为隐秘的洗钱行为?
对于Spark的兴趣不仅仅局限于具有纯天然数字化基因的企业,或者提供Spark相关技术的厂商。诺华制药(Novartis)、有线电视网Comcast和高盛等公司也在会上为Spark唱起了赞歌。但是,本次Spark Summit与其说是一次会议,不如说是一次Databrick的专场演出。Databrick发布了商业版的Spark系统,并且撇清与Hadoop生态的任何关系 -- 既非敌人也不是朋友。Databrick这次发布的是基于云的Spark服务。
顺势而生
Databrick由加州伯克利大学AMP实验室团队所创建,即Apache Spark的开发者。自从诞生伊始,Spark就被拿来与MapReduce进行比较,MapReduce是Hadoop最初的数据处理引擎。MapReduce因其对大数据集的分布式处理能力而广受关注,但是也一直在效率方面饱受责难。MapReduce以批处理方式进行计算,无法很好地应对流处理模式(比如物联网项目)。而且,MapReduce没有内存计算的选项,每次计算后都要将结果写入外部存储,这使得迭代式的任务相当耗时。
MapReduce的种种缺陷,使得诸如Spark之类的新一代处理引擎应运而生。“MapReduce的设计始于15年以前,”Databrick的联合创始人Patrick Wendell表示:“而Spark则是基于当代最新的硬件,完全重新设计而成的。”
同时,Databrick实现了Spark与Hadoop环境的兼容,并坚信Spark将在大数据生态中扮演更重要的角色。“我认为Spark将凌驾于Hadoop之上,在更多的场景中发挥作用。目前,在很大程度上这一点已经成为现实。”Wendell说。
去年春季,Databrick与DataStax建立了合作伙伴关系,后者专注于提供NoSQL数据库Cassandra的商业版。去年秋天,Databrick发布了Databrick云,基于Amazon S3存储提供Spark环境,实现所谓的大数据即服务。由于在可用性方面受限,有传闻Databrick云最终将驻留在Google Compute Engine和微软Azure云上。与MapReduce不同,Databrick尽量让使用Spark的技术门槛降低,能够面向更为广泛的受众。比如,Databrick为用户提供了各种高级和低级的API接口 – 所谓高级接口,主要针对那些对数据科学或分布式系统不熟悉的用户,使之同样能从复杂的机器学习算法中受益。
应者云集
如果说本次Spark Summit East大会带来的影响,应该就是CIO们,或者更确切地说是那些一直追踪大数据技术发展的数据分析师们会认为Spark将是继Hadoop之后的新里程碑。Databrick宣称Spark大数据处理引擎将改变企业分析的形态(过去的情况是,诸如Cloudera一类的Hadoop提供商一直扮演着支撑的角色)。Databrick同样让与会者相信,即使那些“普通”(normal,先前举行的Hadoop World大会上,Cloudera使用了这个词)的公司,也能够从Spark中受益,比如诺华制药和Comcast,以及不那么有名的Automatic和Shopify公司。
对于Spark的赞美同样来自于其他与会者。Tresata的创始人和首席执行官Abhishek Mehta表示:“我认为Spark应对了当前大数据研究中的所有热点问题。”高盛的Matt Glickman表示,Spark代表了未来发展的方向,将成为大数据分析的通用工具。Alteryx(致力于为普通用户提供分析语言R和大数据分析能力)的首席运营官George Mattew则描述了在集成R和MapReduce时的遭遇。
“有人说,旧约中并没有对地狱的具体描述。”Mathew回忆到:“但是,当我们试图将R和MapReduce集成时,却有了切身体会。在引入其他通用的计算能力时,MapReduce的步伐是如此艰难。”
这听起来非常刺耳,曾经的大数据明星,如今被Spark的光芒所掩盖 – 至少在某些大数据信徒看来,事实就是如此。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27