京公网安备 11010802034615号
经营许可证编号:京B2-20210330
五个大数据执行中应当避免的错误_数据分析师考试
近几年,有些名词由于使用过度或者是遭到误解而被认为是“大数据”。从用谷歌流感趋势解析器来预测大规模流感的爆发,到追踪人们购物的趋势,从引导消费者如何省钱,到制定能够对底层公司和个人产生影响的实时交易决策——数据已经成为今天全球经济中保持竞争力的关键。要想理解产业大数据的意义,以及为什么大数据能够受到如此多的关注,我们需要将数据库产业划分成几个部分来分析,这些产业在我们今天处理和分析数据的时候也为我们带来了不小的挑战。
为了充分了解大数据以达到我写这篇文章的目的,我会尽力从一个帮助公司了解大数据对其有何种意义的公司管理人员的角度,对大数据的定义予以阐明。大数据简单来说就是目前的一代人,他们有处理数据库和科学技术的需要以此来满足数据市场的需求。在与高德纳公司和其他公司结成同盟的今天,在谈论数据库的不同时我听到过这样一种解释:数量,种类,速度和难度。
这种数据包括复杂的文章,大容量的视频和录音文件,即时信息和多变的商业进程,这些都需要来自不同渠道的灵活的数据纲要。技术专家意识到遗留系统和传统的关系上的数据库处理系统的解决方案无法控制和处理数据的类型,因为它们是以一种直接趋向商业结果的方式呈现的,这时候问题就来了。这已经不再仅仅是储存信息的问题了。技术专家和商业领导者应当充分利用现有数据,存取,处理并在实际中使用它们。为了满足新的需要,新的使用者现正处于一种必须应对某些挑战的状态,因为随着数据的不断增加,新的问题也随之出现。
因此,当某些企业想要用大数据执行某些计划但是失败的时候,我们最常见的错误是什么呢?最近的一份调查显示在更广泛的领域内超过百分之七十五的大数据或者说是IT项目都是不完善的。我们应该清楚的看到,在找到最有效的解决方法使大数据能够被充分利用开发并为我们所用的道路上仍然有许多困难和挑战。
让我们来列举一部分。
首先,你没有充分利用你的数据。
也许,让很多企业都不得不面临大数据的挑战的一个很明显的原因,是缺乏一种通过使用大数据来推动支持决策形成商业智慧的能力。
如果一个线上出版者能够更好地理解读者会在什么时候以及为什么浏览他出版的内容并在他的页面上停留很久,他便能够根据现在和未来的浏览者的需要对内容进行改进。在现存的数据中,驱动价值是产业中最常见的难题之一。虽然众多的科技产品可以帮助克服这些困难,但是大部分的数据库产品都缺乏快速有效解决的这一问题的能力,因为它们没有进行大规模的数据转换,在精确衡量商业智慧上往往会制定一些不符合实际的过高目标。
如果大部分的数据库技术在一开始的时候并不了解和满足数据的某些特殊要求,那么它们便需要某种数据定义或者是数据纲要来减缓项目进程。还有要顺便提一句,这里描述的都是我在过去的15年来有着愉快的工作经历的IT项目。
NoSQL关系型数据库有效地解决了这个问题。如果执行了NoSQL关系型数据库(通常情况下可以行得通),那么纲要便不再需要了,或者是需要的程度降低了。这是NoSQL关系型数据库的主要价值所在,也是在关系市场上直接增加在使用者的知名度的一个主要的推动力。
复杂的数据建模,中间层的目标规划和不断返工,这些与更早的RDBMS关系型数据库管理系统有诸多联系的特点,为探索一种新的充分利用大数据的方式开辟了一条新路。
第二点是,你已经将公司赌在了免费软件上
通过过去几年的促销循环系统,每一个组织都在考虑有效利用最新最好的解决方案,像Apache和Pig这样的,都是感觉过去的RDBMS关系型数据库管理系统已经过时而力求创新。事实的确如此,关系型数据库本身无法满足NoSQL数据库能够达到的要求。在源头开放的大数据生态系统中,持续增长的失败案例已经能够防止大象试图飞行—许多公司已经感受到了小范围失败带来的损失。
免费软件运动已经因为其不真实性而备受批判,主要由哪些抱着不切实的幻想,守望着自己的产品能够成为下一个最畅销的产品或者只有他们自己可以做到这种程度的这种没有什么经验的软件开发者共享。
产业在过去的几十年里已经尽力去克服公司软件中的一些现实的不稳定因素(完整的版本是“你得到的永远不会多于你应得的——但是不要忘记后续,如果这看起来太美好而让人无法相信其真实性的话……”)
现实是大部分的开放源数据软件在满足公司的需要上都并不可行。大部分的开放源安装包的存在都是为了吸引那些寻求简单客户基础的网络开发者。这些产品都具有一些很典型的特点,不能物尽其用,不安全而且众所周知它们会丢失数据。是的它们会丢失数据,因为它们在一开始被设计研发时,就没有可以核对每一个自主数据的处理器。
第三点是,你彻底的放弃了昂贵的遗留下来的数据系统
我相信数据仓库将会有一个长远的未来。这并不是一个非常大胆的猜想,但是RDBMS关系型数据库管理系统的未来又会怎样?当然不久之后我们将看不到Oracle数据库的终结。
我的数据显示,逻辑型数据仓库(LDW)正在呈上涨趋势。一个仓库是建于由两个或者多个现实数据库合成的单一的接入视图之上的。同样的原因,产业未来应用的发展也正在采集使用NoSQL数据库,这便需要一种新的方式来构建和储存数据仓库。使用RDBMS关系型数据库管理系统的话,一开始会很难去驾驭它,反复做又会花费大量的时间和金钱。
一个逻辑性数据仓库(LDW)拥有一种独特的功能,能够加强几乎所有来自各种数据源的数据和索引,并构建一种客制化的时间系统,使所有客户进行交易和分析问题成为可能。虽然RDBMS关系型数据库管理系统已经成为一种旧的派别,但是放弃现有的数据执行手段的代价是非常巨大的。逻辑型数据仓库LDW允许公司在关于遗留系统的沉没成本的问题时可以尽量减少损失,并转向一个更有效率,更多面的,更有伸缩性的数据平台。一个公司的NoSQL关系型数据库可以成为旧有的RDBMS关系型数据库管理系统和失败的用以处理结构性数据,文件内容,档案和媒体的实战项目之间的整合点。这对过去长期一直与错误软件作斗争的不稳定的IT行业意义重大。
第四点是你不了解你的数据
对于任何产业来说,一种进化必然会很快的产生一种知识代沟:你对迎面而来的挑战和解决方法的了解远远落后于那些在特定企业中呆过的人。
一些人认为大数据产生了一些新的社会角色的需要。就在最近,我看到了首席数据官CDO和数据科学家的出现。很多人嘲笑过将专家带进企业带来的成本和需求,但是缺乏正确的专业知识的企业是无法理解自己的数据的,这意味着,他们也就不会知道最好的使用自身数据的方法。据高德纳公司预测,到2015年全球百分之二十五的大型企业都将聘请首席数据官CDO。
但是坦白说,你们真的不需要数据科学家,你们需要的是更好的软件。
第五点是你总是贪得无厌
也许在你突袭进入大数据领域中最容易避开的错误就是不要吸收太多的数据。大部分情况下,科技方面的原因导致了这种现象的出现。奇怪的是,从大数据的角度处理整个公司的事情基本上是不可能的,那么为什么不从最底层开始,逐渐积累成功的经验从而使项目一点一点发展起来呢?使用灵活的科学技术,像公司中的 NoSQL关系型数据库。迭代数据仓库的发展会很快出现,同时能够减少重复作业和预付工程成本。
曾经有一段时间,以能力为基础的公司成功的带着所有的可用数据快速果断地实现了转移,若要增加每一个公司的竞争优势其压力也是十分大的。太多企业吸收过多自身无法成功处理的数据。有一种错误的观念是,所有的大数据问题在某种程度上都可以一起解决,就像一个需要唯一解决办法的集成问题一样。带着游戏总会结束的思想,IT管理者和主要的信息人员应当问清楚自己尝试去施加影响的商业决策到底是什么样的,而不是一味考虑怎样把新技术和旧有技术融为一体。能否获得正确的答案将直接决定一切数据项目的成败。
团队应从小处着眼,快速的缩小比例,并能够适应摆在面前相关的模式和解决方法将会有利于使未来的项目不超出预算并按时完成,最重要的一点是,达到预期的结果。
无论你正在处理的是金融数据,特定的保健数据和购物分析还是出版工作和政府情报,这些数据的一致性就在于他们的多变性,复杂性和多样化以及它们不断增加的数量和需求。要想以一种驱动商业价值的方式来处理大量的不断汇集的数据,企业必须要明白众多大数据项目失败的原因,从而避免已经出现过的错误导致的失败。知道不应该做什么和知道应该做什么同样重要,有了这些基本的知识,企业才能快速实现他们短期和长期的各种目标。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25在数字化时代,数据已成为企业核心资产,而“数据存储有序化、数据分析专业化、数据价值可落地”,则是企业实现数据驱动的三大核 ...
2026-02-25在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16