
大数据分析之数据孤岛:你能看到它们吗
从企业和CIO们开始尝试数据挖掘以来,数据孤岛就一直阻碍着商业智能效能的提高。数据孤岛,换句话说昂贵的、需要费尽心血维护却彼此无法兼容的数 据库,指望从它们那儿发掘到伟大的知识,无疑于缘木求鱼。也就是说,数据库的数量和挖掘到的知识产量没有任何关系。正如一位商业智能专家所说的,进进出出 的都是垃圾。
谈到大数据分析-或者叫数据3V(类别、数量和增长率),则是个令大多数公司窒息的流行语。因为,据分析师Ted Friedman说,数据孤岛整指数般的蔓延-就像瘟疫一样。
“在你的公司,任何时间任何地方,都有数据孤岛的存在。从大数据的角度看,简直整个宇宙都充斥着数据孤岛-在防火墙里,在web上,在‘云’端,还有那些 属于其他企业、客户和供应商的却在你这儿出现的数据,”Gartner主持信息管理咨询的Friedman说道,“所有这些使得你更难打破数据孤岛来挖掘 有意义的知识信息。”
那么,CIO在诠释大数据的过程中能起到什么作用呢?和企业遇到的其他IT挑战一样,这个难题及其解决之道也围绕 着人才、流程和技术而展开。CIO不仅需要为为员工培养新技能(包括招募数据科学家、分析师和架构师等),而且需要说服高层:大数据治理是需要高管甚至董 事会关注的重要命题。
突然变时髦的数据管理
对付大数据遭遇的数据孤岛问题有一种 方法,就是孤立分析,重点突破。Gartner专门有一种信息估值过程来运用这种方法。“在庞大的数据海洋中,不同数据有着不同的价值,于是数据挖掘的目 标,就变成了定义怎样的问题空间,然后在空间内深入分析,”Friedman说道,“就我看来,客户往往将分析边界定义得太过宽泛。”
为了突出重点,企业可以首先问自己这样一个问题:我们到底要从数据中得到什么?这些数据和我们的业务有什么联系?我们如何使用这些数据以获得积极的回报?
随着企业越来越关注潜伏在大数据中的价值信息,Gartner注意到越来越多的公司开始设立数据治理委员会。由业务干系人所组成,这些机构关注一切方面 -从哪些是重要的数据源、向什么技术投资,到各种和数据有关的问题,譬如数据质量、数据保留度、数据整合、数据安全性和信息隐私。
外部数据孤岛的危险探索
除了少数IT专家外,也应该开放给其他职员大数据探索的权利,以最大程度从大数据中攫取价值。Gartner及其它专业人士担心,很多组织急于从大数据中牟利,以至于忽视了IT治理的风险,从而付出了侵犯隐私、数据造假等问题而得到严惩的代价。
“在企业里,彻底的数据开放不切实际,”麻省Forrester首席分析师Boris Evelson说道,“有各种各样的监管问题和利益冲突。举个例子,投行的行研师和交易员之间就绝对不可互犯雷池一步。”
在科罗拉多大学国家冰雪研究数据中心(NSIDC)和其数据收集伙伴美国航天局(NASA)看来,保护数据的完整是一项巨大的挑战,NSIDC的IT服 务经理David Gallaher如是说。David的主要任务,是收集、管理记录着世界上所有冰冻地域的以PB级计算的科学数据,并保证以可控的方式分发给需要的研究人 员。“我们需要让人们尽可能方便地获取他们需要的数据,但我们必须得保证他们不可能胡乱更改其中的任何一处,”正在接受地理学培训的Gallaher表 示。另一方面,NSIDC的科学家们每次访问数据后肯定会对其进行更新,所以数据管理的治理原则必须是“正确的人做正确的修改”,Gallaher强调 道。NSIDC目前正在和美国国家科学基金会合作完善其数据治理原则。
数据管理-只要多视图,不要多拷贝
不是所有人同意大数据一定意味着更多的数据孤岛这一说法。IBM大数据项目副总裁Anjul Bhambhri就宣称,大数据其实能“帮助”CIO。
“现在,数据孤岛能够进行自我清理,”在一次针对其一年来为200多家公司清理数据孤岛的访谈中,Bhambhri如是说。一家大型企业为邮件归档建立了 13个数据集市(单是法务部就使用了8个),因为当他们要访问归档邮件时,他们等不及让IT来处理。另一家公司的两个部门分别为自己的web缓存建立了拷 贝。“要知道他们每天就有150亿条缓存要处理,”Bhambhri说道。
新技术-当然,包括IBM的BI大数据产品-可让企业在一个数据 仓库中存储和分析庞大的数据信息。因此,上述两家公司只用保留一个活跃的数据归档,大可不必设立13个归档副本或150亿web缓存。“你的数据只用保存 于一处,来自多处的应用即可对数据同时进行访问,因为数据在存储层次的形式保持不变,”Bhambhri说道。然而,即使她和像她这样的积极倡导大数据分 析的IT人士,也不断提醒企业,有效的大数据分析,需要对已有的IT系统框架进行彻底地改造。“能够有效存储数据是在正确的方向上前进了一大步,”她说 道,“但仅能存储是不够的,有效的分析还需要大量的算法。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27