
大数据遇上大型机 结果会如何?
进入数据大爆炸时代,企业所面临的局面无疑更复杂了。看着日益累积的各种数据,相信有不少用户都有这样的感觉:明知面前是座金矿,却苦于没有合适的开采方法,只能任机会流逝。
当然,并不是所有用户都在坐等时机,也有不少在尝试的。比如有用户在用分布式平台进行数据的整合、存储、分析、应用,也有用户在用集中式平台进行相关的工作,同样还有用户从分布式平台转向集中式平台。
究竟谁好?各有各的道理,不妨看个具体的案例,从中或许能受到一些启发。
Banca Carige实践心得
Banca Carige Group (Banca Carige) 是意大利的一家银行,距今已经有500多年的历史。其雇佣约6000名员工,有650多个网点,服务120万客户,年营业总额超过8亿欧元。
随着银行业的主战场不断转向移动端,Banca Carige凭借500多年服务客户的经验,果断地提出了改进计划,即通过数据分析更好地了解客户行为,从而达到吸引新客户服务老客户的目的。
最终Banca Carige选择了IBM 大型机作为未来的业务承载平台。至于原因,就像Banca Carige 的ICT治理经理Daniele Cericola所讲,“在银行业中,可用性与安全性对于业务而言至关重要,而大型机的这些性能都经过了实践检验,这一事实使其自然而然成为了我们新计划的平台之选。”
从这个角度看,Banca Carige选择大型机更多还是从安全性、可用性方面出发的结果。由于其之前一直在使用大型机(多年来,Banca Carige一直在采用IBM DB2数据库的IBM CICS Transaction Server上运行包括账户、支付、贷款等在内的核心银行系统,而该数据库位于可运行IBM z/OS的两台IBM zEnterprise EC12 服务器上),给出这样的理由并不意外,那究竟大型机在数据分析方面的表现如何呢,是不是能满足Banca Carige的需求?
“满意。”Daniele Cericola表示,“通过整合,我们所有的分析都是针对大型机的数据仓库进行的,借此我们可获得单一事实来源,而且在为所有新需求开发分布式数据集市时能够避免多余的成本投入和复杂性。”
据悉,Banca Carige已经将原来运行在分布式环境的多个营销数据库和应用迁移至了大型机,并借助运行在Red Hat Enterprise Linux上的IBM Campaign软件开发了新的活动管理数据模型,同时将这些整合至大型机环境中,从而使 DB2 for z/OS 成为分析和大数据唯一的数据储存库。
简单来说,相当于用大型机构建了一个平台,现在这些数据统一在这个平台进行处理。很显然,这个过程所需要的采购成本、电力成本、人力成本在一定范围内并不会像分布式平台那样随着业务量的增加而增加。也就是说,使用大型机做大数据分析并不一定比使用分布式架构成本更高。
虽然短短几段话,但是透露的内容很多。比如鉴于大型机强大的整合能力,最终的TCO并不一定高;再比如支持Linux,使得其解决方案变得更加丰富……
就像Daniele Cericola 在采访中所讲,“在大型机的 Linux 环境中运行我们的移动银行服务,使我们在大型机发展方面又迈进了一步。我们的关键业务价值是,最重要的服务可通过一致稳定的具有高度安全性的平台进行统一管理,而且该平台要能提供一流的可扩展性与性能。”应该说这就是对大型机核心价值的准确概括。
其实类似这样的应用案例还有很多,比如花旗银行、乐购、珠海社保等。
与时俱进的大型机
当然,举了这么一个例子笔者想说的并不是一定要使用大型机进行数据分析,事实上,大型机肯定有其更擅长、更适用的领域。笔者想说的是,在分布式环境大张旗鼓的今天,其实用户还有另外的选择,而且这个选择本身也在发生着变化,这才是最重要的。
说起大型机本身,可能很多人的印象依旧停留在几年甚至十几年前,呆板、贵、封闭。事实上,大型机早已通过实际行动着力改变这一形象。
它不断开放自己,尽管不能说IBM一直在引领潮流,但至少也是在紧跟趋势,比如IBM是 最早的Linux支持者,IBM大型机也很早就支持了Linux,再比如随着OpenStack的兴起,IBM大型机也支持在OpenStack平台上对 其进行统一管理。另外还有很多开源软件,IBM大型机均可支持,包括Docker、Hadoop、Spark、MongoDB、MariaDB等。
它不断提升自己的性能,单台最高支持8000台虚拟机,提供无与伦比的扩展性;在动态多线程技术的帮助下,Linux和Java工作负载运行速度提升30%。论整合能力、性能、安全性、可靠性,绝对无人可及。
它不断以更低的成本来面对用户,当然这个成本不仅是采购成本,因为IT系统的采购成本只占总体拥有成本(TCO)的一小部分,还包括电力、运维、管理等成本,试想能容纳8000台虚拟机的大型机能整合多少台服务器?应该说这个数量是惊人的,由此带来的后期使用成本的节约也是巨大的。
凭借着与时俱进,市场给了大型机、给了IBM积极的反馈。根据IDC发布的2015年第 二季度服务器市场调研报告显示,该季度IBM z13大型机表现强劲,同比增幅近两位数。根据刚刚发布的2016年第一季度IBM财报显示,与去年同期相比,来自z Systems大型主机服务器产品的营收增长了16%(计入汇率变动影响后上涨了21%)。以MIPS(每秒百万指令数)计算的z Systems所交付的计算能力,上升了28%。
记者观察
好多人说大型机不行了,但我们看到的却是大型机的逆势增长,这说明什么?这表明集中式与 分布式之争从来就不是非此即彼的关系,用户关心的只是是否有更好解决问题的方案,这才是他们的根本出发点。因此,就厂商而言,要做的是不断完善方案,并让 用户认识到其中的价值;对于用户而言,则要对各方解决方案有个充分的比较。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10