
大数据项目部署的五大愿景
如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。
好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试,甚至已经发布了SQL(或SQL-like)分析选件,用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中,10gen公司已经对MongoDB的分析能力进行了改进,大数据厂商Acunu对Cassandra也做了同样的改进。
部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验,但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时,EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具,旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用,如WibiData,提供简化HBase的开源库、模型和工具。
收集和利用大数据的重点是进行预测分析和其他高级分析,进而得到更明智的商业决策。但是在数据人才短缺的今天,企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习,这是因为它不依赖于专家,而是依赖数据和计算能力收集客户行为数据,并挖掘数据背后的商业模式。
大数据的3V原理的其中一个V是velocity(速度),但是很难用“实时”一词来形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能,其他厂商可能会效仿,尤其是那些事件流处理厂商。
排在第五位的大数据愿景是更简便的网络分析。目前,企业友好型图形分析数据库和工具不断涌现,它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史,不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明,大数据管理和分析的痛点正在迅速缓解。
通过很多关于大数据人才短缺的故事和报告,就可以得到这样一个结论:大数据领域最迫切的需求是了解数据类型的数据科学家,他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是,为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家,并且大多数SQL专家更急于扩大自己的职业潜力。
推动在Hadoop之上提供SQL分析能力,大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库,它提供SQL-like查询功能的有限子集,但是Hive是将SQL查询转化成MapReduce任务,这导致Hive的性能缓慢。
为了应对Hadoop之上SQL查询范围更广、速度更快的需求,很多相关项目和方案陆续发布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架,该框架让用户直接在MongoDB中查询数据,而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作,它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。
SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出,如Datameer、Hadapt、Karmasphere和Platfora等,它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。
包含Hadoop和NoSQL数据库在内的大数据平台一直在努力简化其部署和管理功能,每次软件升级都会带来新的管理特性和新的内置功能,例如10gen公司在最新发布的MongoDB中新增了内置文本搜索功能和预置监控功能。Hortonwork Hadoop发行版针对微软Windows的版本嵌入Active Directory(活动目录)、System Center和虚拟化技术,用以简化大数据的部署和管理。
在构建Hadoop集群的过程中,虽然没有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件厂商推出Hadoop一体机,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle称如果算上每个组件的价格、配置和调整的时间、维护和升级工作、可以直接运行的Cloudera软件,以及Oracle NoSQL数据库,一体机的成本比自己部署价格更低。
真正复杂的Hadoop管理常常出现在软件层面,而非硬件配置。例如HBase——Hadoop架构中日益重要的NoSQL数据库,很多开发者认为很难在HBase中建模和分析数据。WibiData公司提供开源库、模型和工具,使HBase中的数据更容易存储、提取和分析。该理念是将HBase运行中的技术难点可重复化,因此在解决商业问题时节省大量工程师和数据科学家等人力资源,这一准则也可以应用于其他大数据平台。
开发算法和预测模型是专业数据科学家的工作,但是他们既数量稀少,又需要支付高额报酬。因此,人才短缺是大数据、分析和商业智能厂商开发机器学习方法的原因之一。在光学字符识别、垃圾邮件过滤和计算机安全威胁检测等应用程序中证实,机器学习使用的学习算法是数据本身训练而来的。如果展示该算法扫描成千上万个文本字符、未经请求的电子邮件消息、病毒程序和恶意软件等,的确能够找到更多实例。
随着机器学习的发展,训练模型还能继续在新的数据中学习。例如Amazon.com和Netflix公司利用算法发现顾客交易规律,并向他们推荐感兴趣的书或电影。每当新书或者电影发行时,这些公司可以利用算法洞察数据中的偏好模式,推荐给相关顾客。
Apache Mahout是全球领先的部署机器学习基础集群、分类、Hadoop协同过滤算法的项目,该技术同样是由R统计编程语言支持的。支持或嵌入机器学习技术的厂商还包括Alpine数据实验室、Birst、Causata、Lionsolver、Revolution Analytics等。
大数据分析上的另一个需求是实时性能。两家初创厂商正试图抓住这一机遇,分别是市场分析厂商Causata和实时Hadoop分析厂商HStreaming。
对于Causata而言,“实时”意味着在50毫秒以内作出决策。当你的顾客仍然在访问网站和手机客户端时,需要以这种速度更改内容、横幅广告和市场报价。Causata利用Hadoop的HBase NoSQL数据库进行存储,包括点击流、活动响应数据和CRM记录等与市场相关的数据。HBase并不擅长实时查询,因此Causata在专有查询引擎上运行基于Java的算法用以提升性能。
HStreaming所用的流处理技术类似于金融交易系统中的事件处理引擎,以及IBM(InfoSphere Streams)、Progress Software (Apama)、SAP (Sybase Aleri)、Tibco (Complex Event Processing)等技术。HStreaming能够直接从不间断数据源中提取数据,如视频监控摄像头、发射塔、传感器等。该技术还提供了一种提取、转换、加载(ETL)的形式,将数据存储在Hadoop中,用于随后的分析。HStreaming在视频监控、网络优化和移动广告领域拥有最多应用,在这三种场景下,实时洞察力和行动力是必须的。
与HStreaming采取不同的策略,Hadoop软件和服务提供商MapR宣布与Informatica成为合作伙伴,并将成为第一个也是唯一一个拥有实时能力的Hadoop软件发行商,能够在大数据平台中以接近实时的速度传送数据。MapR的Hadoop发行版的特色是无锁存储服务层,能够与Informatica消息传递软件共同运行,不断将大规模数据传送至Hadoop。结合即将推出的SQL-on-Hadoop选件,如MapR-favored Drill,大数据又将增加一个快速分析的选择。
社交网络为大数据贡献了规模性和多样性的数据,社交网络本身使用图形数据库和分析工具,通过研究“节点(nodes)”发现用户关系网。这些节点代表人、公司、地点等,而边缘(edges)代表各个节点中复杂的关系。
美国世纪投资公司利用图形分析预测公司基金投资的业绩,该公司使用的开源R统计编程语言和iGraph包由Revolution Analytics(分析力革命公司)提供软件和支持,由此创建的图形分析应用能够跟踪制造商和供应商之间的资金流。
如同苹果公司与其芯片和屏幕的供应商或者汽车制造商与其零部件供应商之间的关系。美国世纪投资公司结合这些采购关系的公共和私有数据,运用图形分析获得对供应商更清晰的认识,这些预测比基于公共财政报告数据的预测更准确。
其他支持图形分析的开源技术还有Neo4j,这是Neo Technologies公司开发和支持的一款图形数据库。Neo4j适用于IT和电信网络场景应对安全接入挑战、在主数据管理应用中观察数据之间关系的变化,以及在推荐引擎应用中根据好友的行为和关系计算客户的需求。除此之外,开源图形分析项目还包括Google Pregel和Apache Giraph,人们对图形分析的兴趣与日俱增。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27