京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据分析之数据孤岛:你能看到它们吗
从企业和CIO们开始尝试数据挖掘以来,数据孤岛就一直阻碍着商业智能效能的提高。数据孤岛,换句话说昂贵的、需要费尽心血维护却彼此无法兼容的数 据库,指望从它们那儿发掘到伟大的知识,无疑于缘木求鱼。也就是说,数据库的数量和挖掘到的知识产量没有任何关系。正如一位商业智能专家所说的,进进出出 的都是垃圾。
谈到大数据分析-或者叫数据3V(类别、数量和增长率),则是个令大多数公司窒息的流行语。因为,据分析师Ted Friedman说,数据孤岛整指数般的蔓延-就像瘟疫一样。
“在你的公司,任何时间任何地方,都有数据孤岛的存在。从大数据的角度看,简直整个宇宙都充斥着数据孤岛-在防火墙里,在web上,在‘云’端,还有那些 属于其他企业、客户和供应商的却在你这儿出现的数据,”Gartner主持信息管理咨询的Friedman说道,“所有这些使得你更难打破数据孤岛来挖掘 有意义的知识信息。”
那么,CIO在诠释大数据的过程中能起到什么作用呢?和企业遇到的其他IT挑战一样,这个难题及其解决之道也围绕 着人才、流程和技术而展开。CIO不仅需要为为员工培养新技能(包括招募数据科学家、分析师和架构师等),而且需要说服高层:大数据治理是需要高管甚至董 事会关注的重要命题。
突然变时髦的数据管理
对付大数据遭遇的数据孤岛问题有一种 方法,就是孤立分析,重点突破。Gartner专门有一种信息估值过程来运用这种方法。“在庞大的数据海洋中,不同数据有着不同的价值,于是数据挖掘的目 标,就变成了定义怎样的问题空间,然后在空间内深入分析,”Friedman说道,“就我看来,客户往往将分析边界定义得太过宽泛。”
为了突出重点,企业可以首先问自己这样一个问题:我们到底要从数据中得到什么?这些数据和我们的业务有什么联系?我们如何使用这些数据以获得积极的回报?
随着企业越来越关注潜伏在大数据中的价值信息,Gartner注意到越来越多的公司开始设立数据治理委员会。由业务干系人所组成,这些机构关注一切方面 -从哪些是重要的数据源、向什么技术投资,到各种和数据有关的问题,譬如数据质量、数据保留度、数据整合、数据安全性和信息隐私。
外部数据孤岛的危险探索
除了少数IT专家外,也应该开放给其他职员大数据探索的权利,以最大程度从大数据中攫取价值。Gartner及其它专业人士担心,很多组织急于从大数据中牟利,以至于忽视了IT治理的风险,从而付出了侵犯隐私、数据造假等问题而得到严惩的代价。
“在企业里,彻底的数据开放不切实际,”麻省Forrester首席分析师Boris Evelson说道,“有各种各样的监管问题和利益冲突。举个例子,投行的行研师和交易员之间就绝对不可互犯雷池一步。”
在科罗拉多大学国家冰雪研究数据中心(NSIDC)和其数据收集伙伴美国航天局(NASA)看来,保护数据的完整是一项巨大的挑战,NSIDC的IT服 务经理David Gallaher如是说。David的主要任务,是收集、管理记录着世界上所有冰冻地域的以PB级计算的科学数据,并保证以可控的方式分发给需要的研究人 员。“我们需要让人们尽可能方便地获取他们需要的数据,但我们必须得保证他们不可能胡乱更改其中的任何一处,”正在接受地理学培训的Gallaher表 示。另一方面,NSIDC的科学家们每次访问数据后肯定会对其进行更新,所以数据管理的治理原则必须是“正确的人做正确的修改”,Gallaher强调 道。NSIDC目前正在和美国国家科学基金会合作完善其数据治理原则。
数据管理-只要多视图,不要多拷贝
不是所有人同意大数据一定意味着更多的数据孤岛这一说法。IBM大数据项目副总裁Anjul Bhambhri就宣称,大数据其实能“帮助”CIO。
“现在,数据孤岛能够进行自我清理,”在一次针对其一年来为200多家公司清理数据孤岛的访谈中,Bhambhri如是说。一家大型企业为邮件归档建立了 13个数据集市(单是法务部就使用了8个),因为当他们要访问归档邮件时,他们等不及让IT来处理。另一家公司的两个部门分别为自己的web缓存建立了拷 贝。“要知道他们每天就有150亿条缓存要处理,”Bhambhri说道。
新技术-当然,包括IBM的BI大数据产品-可让企业在一个数据 仓库中存储和分析庞大的数据信息。因此,上述两家公司只用保留一个活跃的数据归档,大可不必设立13个归档副本或150亿web缓存。“你的数据只用保存 于一处,来自多处的应用即可对数据同时进行访问,因为数据在存储层次的形式保持不变,”Bhambhri说道。然而,即使她和像她这样的积极倡导大数据分 析的IT人士,也不断提醒企业,有效的大数据分析,需要对已有的IT系统框架进行彻底地改造。“能够有效存储数据是在正确的方向上前进了一大步,”她说 道,“但仅能存储是不够的,有效的分析还需要大量的算法。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27