
大数据项目部署的五大愿景
如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。
好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试,甚至已经发布了SQL(或SQL-like)分析选件,用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中,10gen公司已经对MongoDB的分析能力进行了改进,大数据厂商Acunu对Cassandra也做了同样的改进。
部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验,但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时,EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具,旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用,如WibiData,提供简化HBase的开源库、模型和工具。
收集和利用大数据的重点是进行预测分析和其他高级分析,进而得到更明智的商业决策。但是在数据人才短缺的今天,企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习,这是因为它不依赖于专家,而是依赖数据和计算能力收集客户行为数据,并挖掘数据背后的商业模式。
大数据的3V原理的其中一个V是velocity(速度),但是很难用“实时”一词来形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能,其他厂商可能会效仿,尤其是那些事件流处理厂商。
排在第五位的大数据愿景是更简便的网络分析。目前,企业友好型图形分析数据库和工具不断涌现,它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史,不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明,大数据管理和分析的痛点正在迅速缓解。
通过很多关于大数据人才短缺的故事和报告,就可以得到这样一个结论:大数据领域最迫切的需求是了解数据类型的数据科学家,他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是,为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家,并且大多数SQL专家更急于扩大自己的职业潜力。
推动在Hadoop之上提供SQL分析能力,大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库,它提供SQL-like查询功能的有限子集,但是Hive是将SQL查询转化成MapReduce任务,这导致Hive的性能缓慢。
为了应对Hadoop之上SQL查询范围更广、速度更快的需求,很多相关项目和方案陆续发布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架,该框架让用户直接在MongoDB中查询数据,而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作,它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。
SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出,如Datameer、Hadapt、Karmasphere和Platfora等,它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。
包含Hadoop和NoSQL数据库在内的大数据平台一直在努力简化其部署和管理功能,每次软件升级都会带来新的管理特性和新的内置功能,例如10gen公司在最新发布的MongoDB中新增了内置文本搜索功能和预置监控功能。Hortonwork Hadoop发行版针对微软Windows的版本嵌入Active Directory(活动目录)、System Center和虚拟化技术,用以简化大数据的部署和管理。
在构建Hadoop集群的过程中,虽然没有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件厂商推出Hadoop一体机,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle称如果算上每个组件的价格、配置和调整的时间、维护和升级工作、可以直接运行的Cloudera软件,以及Oracle NoSQL数据库,一体机的成本比自己部署价格更低。
真正复杂的Hadoop管理常常出现在软件层面,而非硬件配置。例如HBase——Hadoop架构中日益重要的NoSQL数据库,很多开发者认为很难在HBase中建模和分析数据。WibiData公司提供开源库、模型和工具,使HBase中的数据更容易存储、提取和分析。该理念是将HBase运行中的技术难点可重复化,因此在解决商业问题时节省大量工程师和数据科学家等人力资源,这一准则也可以应用于其他大数据平台。
开发算法和预测模型是专业数据科学家的工作,但是他们既数量稀少,又需要支付高额报酬。因此,人才短缺是大数据、分析和商业智能厂商开发机器学习方法的原因之一。在光学字符识别、垃圾邮件过滤和计算机安全威胁检测等应用程序中证实,机器学习使用的学习算法是数据本身训练而来的。如果展示该算法扫描成千上万个文本字符、未经请求的电子邮件消息、病毒程序和恶意软件等,的确能够找到更多实例。
随着机器学习的发展,训练模型还能继续在新的数据中学习。例如Amazon.com和Netflix公司利用算法发现顾客交易规律,并向他们推荐感兴趣的书或电影。每当新书或者电影发行时,这些公司可以利用算法洞察数据中的偏好模式,推荐给相关顾客。
Apache Mahout是全球领先的部署机器学习基础集群、分类、Hadoop协同过滤算法的项目,该技术同样是由R统计编程语言支持的。支持或嵌入机器学习技术的厂商还包括Alpine数据实验室、Birst、Causata、Lionsolver、Revolution Analytics等。
大数据分析上的另一个需求是实时性能。两家初创厂商正试图抓住这一机遇,分别是市场分析厂商Causata和实时Hadoop分析厂商HStreaming。
对于Causata而言,“实时”意味着在50毫秒以内作出决策。当你的顾客仍然在访问网站和手机客户端时,需要以这种速度更改内容、横幅广告和市场报价。Causata利用Hadoop的HBase NoSQL数据库进行存储,包括点击流、活动响应数据和CRM记录等与市场相关的数据。HBase并不擅长实时查询,因此Causata在专有查询引擎上运行基于Java的算法用以提升性能。
HStreaming所用的流处理技术类似于金融交易系统中的事件处理引擎,以及IBM(InfoSphere Streams)、Progress Software (Apama)、SAP (Sybase Aleri)、Tibco (Complex Event Processing)等技术。HStreaming能够直接从不间断数据源中提取数据,如视频监控摄像头、发射塔、传感器等。该技术还提供了一种提取、转换、加载(ETL)的形式,将数据存储在Hadoop中,用于随后的分析。HStreaming在视频监控、网络优化和移动广告领域拥有最多应用,在这三种场景下,实时洞察力和行动力是必须的。
与HStreaming采取不同的策略,Hadoop软件和服务提供商MapR宣布与Informatica成为合作伙伴,并将成为第一个也是唯一一个拥有实时能力的Hadoop软件发行商,能够在大数据平台中以接近实时的速度传送数据。MapR的Hadoop发行版的特色是无锁存储服务层,能够与Informatica消息传递软件共同运行,不断将大规模数据传送至Hadoop。结合即将推出的SQL-on-Hadoop选件,如MapR-favored Drill,大数据又将增加一个快速分析的选择。
社交网络为大数据贡献了规模性和多样性的数据,社交网络本身使用图形数据库和分析工具,通过研究“节点(nodes)”发现用户关系网。这些节点代表人、公司、地点等,而边缘(edges)代表各个节点中复杂的关系。
美国世纪投资公司利用图形分析预测公司基金投资的业绩,该公司使用的开源R统计编程语言和iGraph包由Revolution Analytics(分析力革命公司)提供软件和支持,由此创建的图形分析应用能够跟踪制造商和供应商之间的资金流。
如同苹果公司与其芯片和屏幕的供应商或者汽车制造商与其零部件供应商之间的关系。美国世纪投资公司结合这些采购关系的公共和私有数据,运用图形分析获得对供应商更清晰的认识,这些预测比基于公共财政报告数据的预测更准确。
其他支持图形分析的开源技术还有Neo4j,这是Neo Technologies公司开发和支持的一款图形数据库。Neo4j适用于IT和电信网络场景应对安全接入挑战、在主数据管理应用中观察数据之间关系的变化,以及在推荐引擎应用中根据好友的行为和关系计算客户的需求。除此之外,开源图形分析项目还包括Google Pregel和Apache Giraph,人们对图形分析的兴趣与日俱增。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30