京公网安备 11010802034615号
经营许可证编号:京B2-20210330
有关Hadoop的六大误解
迄今为止,Hadoop和大数据实际上是同义词。然而随着大数据的炒作不断升温,出现了很多对Hadoop如何应用于大数据的误解。
Hadoop是一种用于存储和分析大型数据集开源软件框架,可处理分布在多个现有服务器中的数据。Hadoop适合处理来自手机、电子邮件、社交媒体、传感器网络和其它不同渠道的多样化、大负荷的数据,因此通常被认为是一种大数据操作系统。而这正是第一个误解的来源:
1、Hadoop是一个完整的解决方案。
事实并非如此。无论你把它称为“框架”或“平台”都可以,只是不能认为Hadoop可以解决大数据方面的所有问题。
“市场上没有标准的Hadoop产品,”《太大而无法忽略:大数据的商业案例》一书的作者菲尔·西蒙说:“这不像别的东西,你可以从IBM或SAP那里,得到一个标准的数据库。”
然而西蒙不认为这是一个长期的问题。首先,由于Hadoop是开源项目,许多其他Hadoop相关的项目,如Cassandra和HBase,都可以满足特定的需求。HBase提供的分布式数据库,支持大数据表的结构化数据存储。
此外,正像红帽、IBM和其他厂商将Linux打包成各种用户友好的产品一样,有很多大数据方面的创业公司,正在对Hadoop做同样的事情。所以,虽然Hadoop本身不是一个完整的解决方案,大多数企业实际上还是会在比较完整的大数据解决方案中遇到它。
2、Hadoop是一种数据库。
Hadoop是经常被当作数据库,但事实并非如此。Damballa安保公司的一名软件工程师,Marshall Bockrath-Vandegrift说:“Hadoop核心中没有任何类似于查询或索引的核心平台。”Damballa公司利用Hadoop来分析实时的安全风险。
“我们使用HBase来帮助我们的风险分析师针对被动DNS数据运行实时查询。HBase和其他实时技术不仅与Hadoop是互补的,而且多数依赖Hadoop核心的分布式存储技术(HDFS)来实现高性能的分布式数据集的访问。”他补充说。
Bloom Reach数据营销分析公司的科学家Prateek Gupta也表示:“Hadoop不是为替代数据库系统而生的,但却可以用来建立数据库系统。”
3、企业级Hadoop应用过于冒险。
许多企业担心Hadoop太新,未经考验,不适合企业级应用。没有什么想法比这更错误的了。别忘了,Hadoop是基于谷歌文件系统的分布式存储平台和运行于该文件系统上的GoogleMapReduce数据分析工具建立的。雅虎在Hadoop上投入了资金和精力,并于2008年推出其第一个大型Hadoop应用,一种搜索“站点地图”,可对所有已知的网页和相应的元数据进行索引,从而完成对这些页面的搜索。
现在,Hadoop被包括Netflix、Twitter和eBay等公司所采用,包括微软、IBM和甲骨文这样的公司都有Hadoop工具出售。目前,将Hadoop称为“成熟”的技术还为时尚早,这一点与任何大数据平台的情况类似,然而它确实已经得到了大型企业的采纳和验证。
这不意味着它是一种没有风险的平台,安全问题本身就是一个比较棘手的问题。但企业远不该就因此被Hadoop平台的年轻而吓跑。
4、要使用Hadoop,就得请一堆程序员。
取决于你要做的事情,这个说法或许是对的。如果你计划开发优秀的下一代Hadoop大数据套件,可能需要专业的Java和MapReduce编程人员。反过来,如果你愿意利用他人的成就,编程就不是一个问题。数据集成供应商Syncsort的建议分析师们利用Hadoop兼容的数据集成工具来运行高级查询,这样做无需任何编码工作。
大多数数据集成工具都有图形化界面,可以屏蔽MapReduce编程的复杂性,很多还带有预置的模板。此外,包括Alpine Data Labs、Continuuity和Hortonworks在内的创业型公司,还提供可以简化大数据和Hadoop应用的工具。
5、Hadoop不适合中小企业。
许多中小企业担心会被“大数据”的趋势拒之门外。IBM、甲骨文等大型厂商自然倾向于兜售大而昂贵的解决方案。这并不意味着市场上没有适合中小企业的相关工具。
云计算正在迅速推动一些尖端技术的大众化应用。“云计算正将资本支出转化为运营成本,”《大数据》的作者菲尔·西蒙指出。“你可以和Netflix利用相同的云服务。同样的事情也开始发生在大数据领域,一个只有五个员工的企业,照样可以使用Kaggle。”
Kaggle称自己为“在数据问题和数据方案间搭建桥梁的市场。”例如,创业公司Jetpac以5000美元悬赏一种算法,以找出最有吸引力的度假照片。多数度假照并不好,而从中筛选是一个繁琐,耗时的过程。
Jetpac让人手工评选出了30000张照片,并且寻求一种能够与人工方式类似,只是通过分析元数据(照片大小、标题,描述信息)来进行排序的算法。如果该公司自行开发这一算法,花的钱绝对不止5000美元。而且他们只能得到一种方案,而不是从各种方案中优选。Jetpac的图像处理工具,最终帮助其获得了240万美元的风投资金。
6、Hadoop比较便宜。
这个误解对任何开放源代码的软件都适用。省下最初的采购成本,并不意味着你一定会省钱。例如,云计算的问题之一就是,要在亚马逊平台上建立一个科研项目非常容易,以致于很多人都在AWS建立了自己的项目,在持续付费的同时,却忘了这些项目本身。
虚拟服务器的盲目扩张,已经使物理服务器的增加相形见绌。虽然Hadoop可以帮助你存储和分析数据,但你又如何将老的数据导入到新的系统中?如何实现数据的可视化?如何分享数据?对于这些会更多被大家分享的数据,你又如何去保护它?
Hadoop实际上一种东拼西凑的解决方案。你可以从Cloudera这样的公司获得完整的企业级解决方案,也可以着手建立自己高度定制化的解决方案。无论你选择的路线如何,都要认真做好预算,因为免费软件从来都不是真正免费的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01