
对于企业的业务人员,特别是数据科学家人群来说,Informatica的Intelligent Data Platform不仅是一个智能化的大数据预处理工具,而且可以像业务系统一样为企业带来直接的价值。
互联网企业通常会强调细节和微创新,把产品的某一项功能做到极致,借此牢牢吸引大量用户。但是企业级厂商则不同,它们更倾向于将产品平台化。平 台化的好处是可以把尽量多的功能集成在一起,方便部署与管理,而且可以借平台屏蔽底层架构的复杂性。软件厂商尤喜平台化,比如数据保护厂商有数据保护和统 一管理平台,大数据产品厂商有大数据处理通用平台等。
今年5月,独立企业数据集成软件提供商Informatica在一年一度的Informatica World上发布了Intelligent Data Platform。作为下一代数据平台,Intelligent Data Platform可以在正确的时间提供正确的数据,并通过铺设一条虚拟数据的高速公路,将人员、位置、设备以更加智能化的方式紧密联系在一起,为大数据应 用提供更好的支持。
提升智能化水平
Intelligent Data Platform包含三大核心:第一,Informatica Vibe虚拟数据机。Vibe是一种嵌入式的数据处理引擎,可以提供针对任何位置、格式或来源的数据的普遍的访问能力,且支持客户“一次映射,多次部 署”;第二,数据基础设施。数据基础设施层能够在任何规模的环境中系统、连续地交付干净、安全、互连的数据,从部门级到企业级,从事务数据到大数据,从内 部部署到云端皆可;第三,数据智能。Informatica独创的数据智能层将为客户重新定位数据基础设施层所创建的元数据,从而提高数据的可见性,改善 决策过程,并提升运营的智能化水平。
Intelligent Data Platform能够以正确的方式将正确的数据传递给相关的人员或发送到正确的位置。Informatica公司大中国区首席产品顾问但彬归纳了 Intelligent Data Platform的主要功能:Informatica可以在正确的时间提供最高质量的正确数据;Informatica能够将数据交付到正确的位置,包括 企业内部或云端;Informatica 可以将数据交付给正确的人员,无论是IT人员、分析师、数据管理员,还是业务用户;Informatica可以将数据交付给正确的设备,包括联网设备或自 动化决策系统;Informatica能以正确的方式交付数据,并确保数据安全可靠、经过授权且已获得保护。
Intelligent Data Platform在Informatica World 2014大会上一发布,即受到了与会的Informatica的用户的普遍欢迎。Informatica在大会上展示了一系列Intelligent Data Platform的应用案例,包括自助服务数据集成(Springbok 项目)、数据导向型安全管理(Secure@Source 项目)和360 度全方位业务实体(MDM 10)等。目前,Intelligent Data Platform还没有完全商品化。之所以在Informatica World 2014提前发布Intelligent Data Platform,Informatica是想在产品正式发布前先听听用户的反馈,然后根据用户的反馈进一步对Intelligent Data Platform进行完善,再择机发布商用化的版本。这种在产品正式发布前先与客户进行交流已经成了Informatica开发新产品的一个惯例。
为数据科学家服务
有业内人士指出,大数据已经发展到一个新的阶段,仍然按照传统商业智能(BI)的思路和方法解决大数据的问题已经不合时宜。传统BI采用包括数据采集、存储、处理、分析和呈现等环节在内的纵向数据处理方式,而新的大数据处理和利用方式则是分布式、扁平化的。文章来源:http://cda.pinggu.org/
传统的数据处理方式是模式化的,用户需要什么,厂商就提供什么样的解决方案,但这些解决方案通常是固定的、不能灵活扩展的。如果用户提出了新的 要求,想在原有系统中增添新功能或进行修改会十分麻烦。而Intelligent Data Platform可以解决这一问题,因为它是一个智能化的平台,可以为集中到“数据湖”中的各种类型的数据建立相关性,然后再提供给业务应用或通过接口与 分析工具衔接。
在进行大数据处理时,传统的数据库和分析技术还有用吗?但彬认为,传统技术与新技术之间不是谁对谁错的问题,而是要针对不同的应用选择适合的技 术。比如,银行常见的商业行为分析仍然可以采用数据库技术,而一些预测性的大数据挖掘项目则要采用新的大数据处理技术,呈现数据之间的关联性。
“Intelligent Data Platform给用户带来的最大改变是解放了IT人员。原来IT人员既要做业务也要搞技术。未来,我们希望IT人员可以把工作重心放在做开发和系统集成 上,而业务人员可以基于Intelligent Data Platform将业务描述得更清楚,并且可以自动生成一些规则。”但彬介绍说。
支撑Intelligent Data Platform的底层技术是Informatica的Vibe虚拟数据机,它也是所有Informatica产品的基础引擎。在这个引擎之 上,Informatica可以帮助客户进行数据集成,提升数据质量。Intelligent Data Platform是一个集成化的平台,从IT的角度讲,其实施肯定会存在一些挑战,但它确实能给企业的业务带来更多价值。“IT人员可以完成数据的抽取和 存储,然后提交数据用于分析。”但彬告诉记者,“但是企业的业务人员或数据科学家可以标记数据的质量、发现问题,从数据中发现更多有价值的东西。所以,我 们希望业务人员能借助Intelligent Data Platform更多地接触和利用数据,而不仅仅是IT人员。”
在推出Intelligent Data Platform的同时,Informatica还提出了“数据湖”的概念。所谓数据湖,就是将不同来源的数据存放在一起,但并不是将未经处理的数据简单 地堆放在一起,而是要将这些数据进行预先处理,建立数据之间的联系,这更有利于日后的大数据处理。
大数据是业务系统
传统的数据处理与分析都是IT人员的事,因此IT人员必须掌握丰富的数学知识和计算机技术。但是,大数据的最终目标是为企业业务和应用服务,而 IT人员通常不太了解业务,这就造成了大数据技术与应用的脱节。但彬表示,Intelligent Data Platform最理想的使用者是企业的业务人员或数据科学家,因为他们更了解业务需求,可以利用Intelligent Data Platform更好地解读大数据分析结果。
大数据处理系统是一个IT工具,还是业务系统呢?不同的定位决定了大数据处理系统的不同“命运”。“中国的很多客户通常将大数据处理系统当成一 个IT工具来使用。从IT运维的角度来看,IT人员只负责保证系统的正常运行、开关,虽然偶尔也会编写一些代码,但毕竟不能从业务的角度充分利用大数据处 理系统。在这种情况下,大数据处理系统只是一个IT支撑和保障系统,而不能直接给企业带来商业价值。”但彬介绍说,“如果将大数据处理系统当成一个业务系 统来对待,那么业务人员就可以利用这个平台更好地挖掘数据,给业务带来直接的价值。”
据记者了解,一个具有单一功能的大数据产品可能需要几十万元,而一套比较完善的大数据整体解决方案的价格可能达到上千万元。如果不能充分发挥大 数据产品应有的价值,那么对企业来说无疑是一种巨大的浪费。但彬表示:“如果企业只把大数据产品当成一个IT工具,那么可能不会持续地对产品进行升级,也 不会购买厂商的专业服务,一旦遇到解决不了的问题,就可能轻易放弃。”
Informatica曾经带国内某银行的技术人员去美国与Informatica的客户交流。让但彬吃惊的是,美国客户参与交流的全是公司的 业务人员,讲的全是业务系统如何运行。参与交流的中国客户全是技术人员,想了解的是美国企业如何构建一个大数据系统,而不太关心系统如何运行和如何给企业 带来价值。如此强烈的反差给中国的用户提了一个醒:第一,部署大数据应用应该以业务为中心和出发点;第二,企业最好自己主导大数据系统的部署与应用,因为 企业最了解自身的业务需求,可以更充分地利用大数据平台,提高数据分析的效率。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10