京公网安备 11010802034615号
经营许可证编号:京B2-20210330
关于大数据的十个有力事实_数据分析师考试
无论大家如何进行定义,大数据自诞生之日起就饱受争议——既有毛病之词,亦不乏诋毁之声。大数据对于很多人来说包含有重要的意义,特别是科学家和零售商家。不过这项技术的出现也引发了大量的相关隐私问题与安全威胁。
到底是救世主、骗局抑或二者兼而有之?无论如何,大数据仍然在技术专家、趋势分析师、市场推广人士以及安全从业者群体中拥有极高的热度与人气。事实上,截至 今天大数据仍然没有一个受到普遍认同的官方定义。那么大数据到底是什么?维基百科给出的描述可以说为大数据的概念确立之路开了个好头:“任何由于规模庞大 且高度复杂而难以通过现有数据库管理工具或者传统数据处理应用进行处理的数据集。”
虽然管理这种规模庞大、形式多变 且对速度要求较高(这三点也就是经典的3V定义)的数据集确实充满挑战,不过目前针对这类任务的数据共享设备的数量正呈现指数级增长的趋势,而这又给大数 据难题带来更多别样的变化。这类硬件被统称为物联网,其中包括机器传感器以及面向普通消费者的设备,例如联网温控器、电灯泡、冰箱以及可穿戴式健康监测工 具等。IDC公司预计,物联网市场在未来几年当中将迅猛增长——其单位安装数量将由2013年年底的91亿增长到2020年的281亿。
企业则将来自大数据的可行性分析结论视为潜在的利好消息,这不仅是因为此类结论能够帮助商家售出更多工具及服务,同时也可以更好地处理医疗事务、阻止伪劣药 品流通、追踪恐怖分子甚至监控特定目标的通话内容。因此,大数据本身并没有善恶之分,真正起决定作用的还是我们的实际使用方式。
具有讽刺意味的是,尽管大数据当中蕴藏着提升人类经验的潜在可能性,但这些宝贵的信息却往往很难进行收集、筛选、分析以及最后的解释。今天的文章着重审视大 数据领域的挑战与机遇,这些事实与论证数据很可能给各位带来意外惊喜。哪些内容值得期待?这个嘛,作为大数据平台中的领导者,Hadoop的发展前景一片 光明。而且数据科学家与大数据相关技术人士也将在未来几年中获得丰厚的薪酬回报。
业内人士作出预测,认为“大数据” 作为流行词汇将彻底消失。“一切的一切最终都会被归结为数据,仅此而已。大数据与所有以此为基础的预测行为都将成为由分析师以及众多‘大型’技术供应商负 责的‘数据管理’工作,”Hortonworks公司总裁Herb Cunitz在2012年12月的一篇博文中写道。
Cunitz作出的“大数据”概念消亡预测可能为时过早,他提出了很重要的一项结论,即一切的一切最终都会被归结为数据。只有管理这些信息所必需的工具会迎来变革。现在就请大家跟随我们的脚步,一同通过图文了解与大数据紧密相关的统计及研究成果。
大多数企业估算称,他们只对自身持有的约12%数据进行了分析,Forrester研究公司在最近的一项调查中发现。这到底是好消息还是坏消息?这个嘛,被 他们所忽略的88%数据当中很可能蕴藏着足以带来数据驱动结论的宝贵信息。但从另一个角度看,他们也许明智地避免了由所谓“煮沸海洋”战略所带来的巨大资 源消耗。说起企业忽略绝大多数自有数据的理由,原因主要有两点:第一是缺乏相关分析工具与“可控制”数据仓库,第二则在于他们很难确切了解哪些信息能够实 现价值、哪些则最好加以忽略,Forrester公司在报告中指出。
大数据掀起的狂潮对于具备特定技能的从业人员来说不啻为一大福音。根据 Dice网站(一家专门服务于技术及工程专业人才的求职网站)的统计,目前业界对于数据专家的需求正持续激增。与上一年相比,目前针对NoSQL技术人员 的招聘岗位数量增长了54%,而面向“大数据人才”的岗位也上涨了46%,该网站在今年四月的报告中指出。虽然这样的提升幅度令人印象深刻,不过与网络安 全专家的职位需求相比仍然是小巫见大巫——后者的同比增长幅度高达162%。
在未来六年当中,数字化领域的数据问题将由目前的3.2 ZB(即泽字节)增长到40 ZB。(1 ZB基本相当于10亿TB。)“当我们审视即将席卷而来的数据量时,其庞大的规模真的很令人兴奋,”Hortonworks公司CEO Rob Bearden在今年于加利福尼亚州圣何塞举办的2014 Hadoop峰会上表示。“从现在到2020年,企业所持有的数量问题将以每年50倍的速度递增。我认为目前最重要的任务在于清醒地认识到,其中85%的 数据来自新兴网络数据源。”包括移动、社交媒体以及Web与机器生成数据在内的这些新兴数据源将给全球企业带来重大挑战与不可错过的发展机 遇,Bearden指出。
大数据相关岗位的薪酬相当突出。根据Burtch Works公司发布的2014年4月数据科学家薪酬报告,2014年数据科学家职位的基础薪酬为每年12万美元,相关管理岗位则为每年16万美元。这一结 论以Burtch Works就业数据库的分析为基础,涉及超过170位数据科学家在采访中的意见反馈。对于范畴更为广泛的大数据相关专业人士而言,也就是那些“利用复杂的 定量分析技术对事务、相互作用或者其它人为因素进行数据化描述、从而得出结论及对应方案的从业者”,其整体薪酬同样实现了显著提升。这类工作人员在 2013年获得的平均薪酬水平在每年9万美元左右,而相关管理岗位则开出了每年14.5万美元这一令人艳羡的平均工资。
大多数IT专家表示他们还没有开始为物联网时代的来临进行准备。Spiceworks公司今年四月对440位IT专业人士进行了调查,了解他们如何看待物联 网并有针对性地推进前期准备工作。其中62%的受访者来自北美地区,38%则来自EMEA(即欧洲、中东以及非洲)地区。超过一半(59%)的受访者指 出,他们还没有采取具体的步骤来处理未来产生自传感器、摄像头以及其它各类物联网设备的海量数据。不过调查还发现,也有相当一部分IT专业人士开始切实筹 备物联网相关事宜,包括向基础设施、安全、应用以及分析机制进行投资,并同时扩大数据传输带宽。
2012 年10月《哈佛商业评论》发布了一篇抓人眼球的报道,其中将数据科学相关工作称为“二十一世纪最性感的工作岗位”。这种说法存在一定争议,不过如果把“性 感”当成是需求的代名词则更容易理解,这是指数据科学家仍然拥有旺盛的市场需求。根据全球IT职业介绍服务供应商Modis的统计,目前数据科学家仍然处 于“需求高企但供应不足”的阶段,换言之与大数据相关的博士学位持有者年平均薪酬都能超过六位数。
数据仓库业界是否该为Hadoop的迅速崛起而感到担忧甚至恐慌?抑或是该向其敞开热情的怀抱?Cloudera公司的Doug Cutting与Hortonworks公司的Arun Murthy作为Hadoop领域的两位先驱者,在本届Hadoop 2014峰会的问答环节中提出了这样的问题。尽管很多企业开始将数据仓库中的工作负载迁移到Hadoop环境当中,但这种作法仍然没有成为主流。但未来情 况是否会有变化?“如果相当比例的用户不再增加数据仓库的规模,反而由于发现了Hadoop类系统在处理效率与负担成本方面的优势而对数据仓库方案进行投 资或者规模缩减处理,那我认为这确实应该算作一种威胁,”Cutting解释道。
对于隐私与安全漏洞的担忧与看似无穷无尽的问题解决道路不可能阻止大数据的发展进程。《经济学家》在今年六月的一篇报道中指出,“没有证据表明隐私问题会给 数据的使用以及存储方式带来根本性转变。”Gartner公司分析师Carsten Casper在接受该杂志采访时表示,IT领域并没有酝酿一场“隐私大革命”。而且尽管企业用户始终在就隐私相关问题提出更多要求,但其中九成查询其实指 向的都是本地数据中心,Casper补充称。
从2013年到2018年,全球软件市场的年度复合增长率将在6%上下浮动,研究企业IDC公司预测称。不过大数据相关门类,包括协作应用程序与数据访问、分析与交付解决方案以及结构化数据管理软件,将在未来五年内迎来更高的年度复合增长水平(约为9%),IDC指出。
对于社交媒体的进一步关注也将有助于这种增长趋势的持续。“社交媒体关注度与面向大数据及分析解决方案的需求增长可谓互相依托,二者将帮助企业理解并切实推 进对于客户行为的预期以及与产品可靠性及维护相关的新思路,”IDC公司分析师Herny Morris在一份声明中表示。
物联网将包含众多千奇百怪但又精妙非常的设备,其中很多对于大数据领域来说都是前所未见的新鲜事物。有鉴于此,ABI研究公司的分析师们预计到2020年,全球无线联网设备总量将超过300亿。其中医疗相关数据收集方案将在物联网时代下扮演重要角色。
下面我们来看一个独特的例子:微软与来自罗切斯特大学(纽约)以及南安普敦大学(英国)的研究人员们共同设计出一款智能纹胸,能够借助传感器检测穿着者的心 跳与皮肤活性、从而计算出其压力水平,BBC报道称。这款纹胸能够收集数据并将其发送至智能手机端的应用程序,从而利用穿戴式技术掌握用户的压力水平,进 而帮助其摆脱由压力引发的暴饮暴食、保持良好的饮食习惯。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16