
统计报告=大数据?论玩转大数据的正确姿势
随着物联网技术的发展,各种设备数据量的增多,“大数据”和“数据分析师”的概念正逐渐走进普通人的生活。然而近期,“大数据”或“数据分析师”正沦为一种炒作概念和传播噱头。在政府和企业的各种统计报告中,不提大数据似乎便是落伍。
日前,南京交管部门本周就发布了“2015年南京交通事故大数据分析报告”。让我们来看看报告中的内容。
数据分析报告显示,2015年全年,南京新增机动车驾驶人26.2万人,其中男性16.5万,女性9.7万。在发生的全部交通事故中,驾龄1年以下的司机引发的事故占13.6%,驾龄1至2年的司机占6.5%,驾龄2至3年的司机占的8.6%,驾龄6到10年的司机占5.5%,驾龄11至15年的司机占3.3%。
在此基础上,数据分析师还在报告中做了更多分析:在驾龄3年以下司机引发的事故中,男司机占87%,女司机占13%。而从2013年至2015年,南京新增司机中男性和女性分别占60%和40%。这就是说,3年以下新手中,四成女司机引发的交通事故占一成多,而六成男司机引发的交通事故近九成。所以结论是,男性新手司机引发的事故高于女性新手司机。
看到这里,你可能会问,这个“大数据”报告仅此而已?这样的数据又说明了什么?制作这样的报告似乎只需利用简单的数据库即可。如果数据量只有几万行,甚至Excel表格都能妥妥搞定。任何学过Excel制表的新手都能完成这样的“大数据分析”。
那么,数据科学是否真的如此简单?这种数据统计报告是否就等同于大数据?很明显,答案是否定的。
1.大数据究竟有多大?
本月,雅虎公布了用户使用该公司服务,例如雅虎新闻和雅虎财经的大量数据。雅虎的计划是将这些数据开放给学术界,给大数据和机器学习研究者提供素材。那么,雅虎提供的“大数据原材料”究竟有多大?
准确数字是13.5TB。如果使用当前常见的1TB移动硬盘去保存,那么这些数据需要14块硬盘才能完全容纳。
雅虎表示,这些数据来自2015年4个月时间里的2000万用户,其中包括用户使用的设备类型、阅读文章的时间、文章主题,以及用户的位置、年龄和性别。雅虎认为,只有通过对这种规模量级的数据进行研究,才能帮助学术界更好地理解普通人的在线阅读习惯和偏好。
雅虎此前也曾开放过一些规模较小的数据集,但这些数据集的大小也要达到1TB。这远远不是电子表格工具,或是传统数据库有能力处理的。而这才是数据分析师真正的用武之地。
2.大数据应当怎么做?
大数据的一条基本理论在于,单纯的数据并不产生价值,只有通过数据分析师的计算分析,找出其中趋势,为未来的决策提供依据,这样的大数据技术才是有意义的。
在本周于上海举行的阿里云栖大会上,阿里云大数据事业部资深总监徐常亮指出,大数据技术的重要一部分是数据加工工具,这样的工具需要打通数据生产链条,包括从数据采集到计算引擎,到数据加工、数据分析,到机器学习再到数据应用,最后形成闭环又回到数据采集。
道路交通状况分析和预测就是这种大数据技术实际应用的一个简单案例。在这一分析预测系统中,输入的数据是每辆汽车的信息,包括当前时间、汽车行驶速度,以及天气状况等。这样的数据既可以来自交通监控设备,也可以来自未来的互联汽车传感器。在繁忙的城市道路上,这样的数据将是海量的。
数据分析师可根据历史数据,我们可以建模,了解不同季节、不同时间、不同天气状况下汽车行驶速度和交通拥堵状况。随后,利用这样的模型,系统可以对道路上的合理车速做出预测,判断是否会出现交通拥堵,并提前预警,以便及时疏导交通。而更进一步,这样的信息对于城市未来的交通设计和规划也有着参考意义。
在本周的阿里云栖大会上,中国天气网宣布了与阿里云的战略合作,将把气象大数据开放给开发者。对这些大数据的分析处理将给农业(气象变化对农业生产的影响)、医疗健康(天气对人体罹患疾病的影响)和零售(不同天气状况下消费者的消费模式)等行业带来重要指导。
3.研究大数据需要什么样的技能?
数据科学很明显是未来科技行业发展的一大方向,然而在全球范围内,大数据人才的缺口很大。
麦肯锡的一项研究预计,到2018年,美国在深度数据分析领域的人才缺口可能将高达50%至60%。埃森哲的大数据战略调查则显示,有90%客户表示,计划招聘更多具备数据分析技能的员工。然而在1000多家受访的客户中,有41%表示,市场上数据科学人才的匮乏造成了限制。
那么,数据科学人才需要具备什么样的技能?
首先,对数据科学家(数据分析师)来说,数学是必不可少的知识基础。统计、概率论、数学建模,这些都是数据科学研究的基础。其次,他们还需要使用计算机语言,例如R或Python去玩转这些数据。
只有通过计算机编程,数学理论才能被用于实践,而数据集也才能得到适当的分析处理。最后,数据科学家还必须对某些垂直领域,例如交通或气象,有自己的兴趣。对于这些领域的多方面影响因素,他们必须了若指掌。而这也是使用数学理论去展开实用型研究的前提。
在此基础上,许多大数据公司还在开发机器学习技术,利用机器去深挖数据的潜力。这就要求数据科学家还要去了解机器学习算法,甚至相配套的硬件设计。
这样看来,数据科学的研究有着相当高的门槛,而理想的数据科学家(数据分析师)应当是了解数据、计算机,以及其他某一专业的复合型人才。这远远不是刚学会数据库操作的新手所能胜任的工作。
结论
数据统计并不等同于大数据。这可能是数据科学发展的最初形态,但未来的大数据技术还需要从这些统计数据中得出更多具有指导意义的分析结论。
回到2015年南京交通事故大数据分析报告。如果希望这成为真正的大数据报告,并带来参考意义,那么首先可能要做的就是增大数据集,采集更多类型的司机和车辆数据,并将覆盖范围扩大至整个省,甚至全国。
另一方面,数据科学家(数据分析师)需要做进一步的数据挖掘,将目光瞄准更多有价值的点。这将给交通出行体系和汽车业的多个领域带来帮助:汽车厂商可以基于这些信息开发安全功能,而道路设计也可以据此优化以减少事故的发生。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关键 ...
2025-06-092025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27