
近几年,有些名词由于使用过度或者是遭到误解而被认为是“大数据”。从用谷歌流感趋势解析器来预测大规模流感的爆发,到追踪人们购物的趋势,从引导消费者如何省钱,到制定能够对底层公司和个人产生影响的实时交易决策——数据已经成为今天全球经济中保持竞争力的关键。要想理解产业大数据的意义,以及为什么大数据能够受到如此多的关注,我们需要将数据库产业划分成几个部分来分析,这些产业在我们今天处理和分析数据的时候也为我们带来了不小的挑战。
为了充分了解大数据以达到我写这篇文章的目的,我会尽力从一个帮助公司了解大数据对其有何种意义的公司管理人员的角度,对大数据的定义予以阐明。大数据简单来说就是目前的一代人,他们有处理数据库和科学技术的需要以此来满足数据市场的需求。在与高德纳公司和其他公司结成同盟的今天,在谈论数据库的不同时我听到过这样一种解释:数量,种类,速度和难度。
这种数据包括复杂的文章,大容量的视频和录音文件,即时信息和多变的商业进程,这些都需要来自不同渠道的灵活的数据纲要。技术专家意识到遗留系统和传统的关系上的数据库处理系统的解决方案无法控制和处理数据的类型,因为它们是以一种直接趋向商业结果的方式呈现的,这时候问题就来了。这已经不再仅仅是储存信息的问题了。技术专家和商业领导者应当充分利用现有数据,存取,处理并在实际中使用它们。为了满足新的需要,新的使用者现正处于一种必须应对某些挑战的状态,因为随着数据的不断增加,新的问题也随之出现。
因此,当某些企业想要用大数据执行某些计划但是失败的时候,我们最常见的错误是什么呢?最近的一份调查显示在更广泛的领域内超过百分之七十五的大数据或者说是IT项目都是不完善的。我们应该清楚的看到,在找到最有效的解决方法使大数据能够被充分利用开发并为我们所用的道路上仍然有许多困难和挑战。
让我们来列举一部分。
首先,你没有充分利用你的数据。
也许,让很多企业都不得不面临大数据的挑战的一个很明显的原因,是缺乏一种通过使用大数据来推动支持决策形成商业智慧的能力。
如果一个线上出版者能够更好地理解读者会在什么时候以及为什么浏览他出版的内容并在他的页面上停留很久,他便能够根据现在和未来的浏览者的需要对内容进行改进。在现存的数据中,驱动价值是产业中最常见的难题之一。虽然众多的科技产品可以帮助克服这些困难,但是大部分的数据库产品都缺乏快速有效解决的这一问题的能力,因为它们没有进行大规模的数据转换,在精确衡量商业智慧上往往会制定一些不符合实际的过高目标。
如果大部分的数据库技术在一开始的时候并不了解和满足数据的某些特殊要求,那么它们便需要某种数据定义或者是数据纲要来减缓项目进程。还有要顺便提一句,这里描述的都是我在过去的15年来有着愉快的工作经历的IT项目。
NoSQL关系型数据库有效地解决了这个问题。如果执行了NoSQL关系型数据库(通常情况下可以行得通),那么纲要便不再需要了,或者是需要的程度降低了。这是NoSQL关系型数据库的主要价值所在,也是在关系市场上直接增加在使用者的知名度的一个主要的推动力。
复杂的数据建模,中间层的目标规划和不断返工,这些与更早的RDBMS关系型数据库管理系统有诸多联系的特点,为探索一种新的充分利用大数据的方式开辟了一条新路。
第二点是,你已经将公司赌在了免费软件上
通过过去几年的促销循环系统,每一个组织都在考虑有效利用最新最好的解决方案,像Apache和Pig这样的,都是感觉过去的RDBMS关系型数据库管理系统已经过时而力求创新。事实的确如此,关系型数据库本身无法满足NoSQL数据库能够达到的要求。在源头开放的大数据生态系统中,持续增长的失败案例已经能够防止大象试图飞行—许多公司已经感受到了小范围失败带来的损失。
免费软件运动已经因为其不真实性而备受批判,主要由哪些抱着不切实的幻想,守望着自己的产品能够成为下一个最畅销的产品或者只有他们自己可以做到这种程度的这种没有什么经验的软件开发者共享。
产业在过去的几十年里已经尽力去克服公司软件中的一些现实的不稳定因素(完整的版本是“你得到的永远不会多于你应得的——但是不要忘记后续,如果这看起来太美好而让人无法相信其真实性的话……”)
现实是大部分的开放源数据软件在满足公司的需要上都并不可行。大部分的开放源安装包的存在都是为了吸引那些寻求简单客户基础的网络开发者。这些产品都具有一些很典型的特点,不能物尽其用,不安全而且众所周知它们会丢失数据。是的它们会丢失数据,因为它们在一开始被设计研发时,就没有可以核对每一个自主数据的处理器。
第三点是,你彻底的放弃了昂贵的遗留下来的数据系统
我相信数据仓库将会有一个长远的未来。这并不是一个非常大胆的猜想,但是RDBMS关系型数据库管理系统的未来又会怎样?当然不久之后我们将看不到Oracle数据库的终结。
我的数据显示,逻辑型数据仓库(LDW)正在呈上涨趋势。一个仓库是建于由两个或者多个现实数据库合成的单一的接入视图之上的。同样的原因,产业未来应用的发展也正在采集使用NoSQL数据库,这便需要一种新的方式来构建和储存数据仓库。使用RDBMS关系型数据库管理系统的话,一开始会很难去驾驭它,反复做又会花费大量的时间和金钱。
一个逻辑性数据仓库(LDW)拥有一种独特的功能,能够加强几乎所有来自各种数据源的数据和索引,并构建一种客制化的时间系统,使所有客户进行交易和分析问题成为可能。虽然RDBMS关系型数据库管理系统已经成为一种旧的派别,但是放弃现有的数据执行手段的代价是非常巨大的。逻辑型数据仓库LDW允许公司在关于遗留系统的沉没成本的问题时可以尽量减少损失,并转向一个更有效率,更多面的,更有伸缩性的数据平台。一个公司的NoSQL关系型数据库可以成为旧有的RDBMS关系型数据库管理系统和失败的用以处理结构性数据,文件内容,档案和媒体的实战项目之间的整合点。这对过去长期一直与错误软件作斗争的不稳定的IT行业意义重大。
第四点是你不了解你的数据
对于任何产业来说,一种进化必然会很快的产生一种知识代沟:你对迎面而来的挑战和解决方法的了解远远落后于那些在特定企业中呆过的人。
一些人认为大数据产生了一些新的社会角色的需要。就在最近,我看到了首席数据官CDO和数据科学家的出现。很多人嘲笑过将专家带进企业带来的成本和需求,但是缺乏正确的专业知识的企业是无法理解自己的数据的,这意味着,他们也就不会知道最好的使用自身数据的方法。据高德纳公司预测,到2015年全球百分之二十五的大型企业都将聘请首席数据官CDO。
但是坦白说,你们真的不需要数据科学家,你们需要的是更好的软件。
第五点是你总是贪得无厌
也许在你突袭进入大数据领域中最容易避开的错误就是不要吸收太多的数据。大部分情况下,科技方面的原因导致了这种现象的出现。奇怪的是,从大数据的角度处理整个公司的事情基本上是不可能的,那么为什么不从最底层开始,逐渐积累成功的经验从而使项目一点一点发展起来呢?使用灵活的科学技术,像公司中的 NoSQL关系型数据库。迭代数据仓库的发展会很快出现,同时能够减少重复作业和预付工程成本。
曾经有一段时间,以能力为基础的公司成功的带着所有的可用数据快速果断地实现了转移,若要增加每一个公司的竞争优势其压力也是十分大的。太多企业吸收过多自身无法成功处理的数据。有一种错误的观念是,所有的大数据问题在某种程度上都可以一起解决,就像一个需要唯一解决办法的集成问题一样。带着游戏总会结束的思想,IT管理者和主要的信息人员应当问清楚自己尝试去施加影响的商业决策到底是什么样的,而不是一味考虑怎样把新技术和旧有技术融为一体。能否获得正确的答案将直接决定一切数据项目的成败。
团队应从小处着眼,快速的缩小比例,并能够适应摆在面前相关的模式和解决方法将会有利于使未来的项目不超出预算并按时完成,最重要的一点是,达到预期的结果。
无论你正在处理的是金融数据,特定的保健数据和购物分析还是出版工作和政府情报,这些数据的一致性就在于他们的多变性,复杂性和多样化以及它们不断增加的数量和需求。要想以一种驱动商业价值的方式来处理大量的不断汇集的数据,企业必须要明白众多大数据项目失败的原因,从而避免已经出现过的错误导致的失败。知道不应该做什么和知道应该做什么同样重要,有了这些基本的知识,企业才能快速实现他们短期和长期的各种目标。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27