京公网安备 11010802034615号
经营许可证编号:京B2-20210330
统计报告=大数据?论玩转大数据的正确姿势
随着物联网技术的发展,各种设备数据量的增多,“大数据”和“数据分析师”的概念正逐渐走进普通人的生活。然而近期,“大数据”或“数据分析师”正沦为一种炒作概念和传播噱头。在政府和企业的各种统计报告中,不提大数据似乎便是落伍。
日前,南京交管部门本周就发布了“2015年南京交通事故大数据分析报告”。让我们来看看报告中的内容。
数据分析报告显示,2015年全年,南京新增机动车驾驶人26.2万人,其中男性16.5万,女性9.7万。在发生的全部交通事故中,驾龄1年以下的司机引发的事故占13.6%,驾龄1至2年的司机占6.5%,驾龄2至3年的司机占的8.6%,驾龄6到10年的司机占5.5%,驾龄11至15年的司机占3.3%。
在此基础上,数据分析师还在报告中做了更多分析:在驾龄3年以下司机引发的事故中,男司机占87%,女司机占13%。而从2013年至2015年,南京新增司机中男性和女性分别占60%和40%。这就是说,3年以下新手中,四成女司机引发的交通事故占一成多,而六成男司机引发的交通事故近九成。所以结论是,男性新手司机引发的事故高于女性新手司机。
看到这里,你可能会问,这个“大数据”报告仅此而已?这样的数据又说明了什么?制作这样的报告似乎只需利用简单的数据库即可。如果数据量只有几万行,甚至Excel表格都能妥妥搞定。任何学过Excel制表的新手都能完成这样的“大数据分析”。
那么,数据科学是否真的如此简单?这种数据统计报告是否就等同于大数据?很明显,答案是否定的。
1.大数据究竟有多大?
本月,雅虎公布了用户使用该公司服务,例如雅虎新闻和雅虎财经的大量数据。雅虎的计划是将这些数据开放给学术界,给大数据和机器学习研究者提供素材。那么,雅虎提供的“大数据原材料”究竟有多大?
准确数字是13.5TB。如果使用当前常见的1TB移动硬盘去保存,那么这些数据需要14块硬盘才能完全容纳。
雅虎表示,这些数据来自2015年4个月时间里的2000万用户,其中包括用户使用的设备类型、阅读文章的时间、文章主题,以及用户的位置、年龄和性别。雅虎认为,只有通过对这种规模量级的数据进行研究,才能帮助学术界更好地理解普通人的在线阅读习惯和偏好。
雅虎此前也曾开放过一些规模较小的数据集,但这些数据集的大小也要达到1TB。这远远不是电子表格工具,或是传统数据库有能力处理的。而这才是数据分析师真正的用武之地。
2.大数据应当怎么做?
大数据的一条基本理论在于,单纯的数据并不产生价值,只有通过数据分析师的计算分析,找出其中趋势,为未来的决策提供依据,这样的大数据技术才是有意义的。
在本周于上海举行的阿里云栖大会上,阿里云大数据事业部资深总监徐常亮指出,大数据技术的重要一部分是数据加工工具,这样的工具需要打通数据生产链条,包括从数据采集到计算引擎,到数据加工、数据分析,到机器学习再到数据应用,最后形成闭环又回到数据采集。
道路交通状况分析和预测就是这种大数据技术实际应用的一个简单案例。在这一分析预测系统中,输入的数据是每辆汽车的信息,包括当前时间、汽车行驶速度,以及天气状况等。这样的数据既可以来自交通监控设备,也可以来自未来的互联汽车传感器。在繁忙的城市道路上,这样的数据将是海量的。
数据分析师可根据历史数据,我们可以建模,了解不同季节、不同时间、不同天气状况下汽车行驶速度和交通拥堵状况。随后,利用这样的模型,系统可以对道路上的合理车速做出预测,判断是否会出现交通拥堵,并提前预警,以便及时疏导交通。而更进一步,这样的信息对于城市未来的交通设计和规划也有着参考意义。
在本周的阿里云栖大会上,中国天气网宣布了与阿里云的战略合作,将把气象大数据开放给开发者。对这些大数据的分析处理将给农业(气象变化对农业生产的影响)、医疗健康(天气对人体罹患疾病的影响)和零售(不同天气状况下消费者的消费模式)等行业带来重要指导。
3.研究大数据需要什么样的技能?
数据科学很明显是未来科技行业发展的一大方向,然而在全球范围内,大数据人才的缺口很大。
麦肯锡的一项研究预计,到2018年,美国在深度数据分析领域的人才缺口可能将高达50%至60%。埃森哲的大数据战略调查则显示,有90%客户表示,计划招聘更多具备数据分析技能的员工。然而在1000多家受访的客户中,有41%表示,市场上数据科学人才的匮乏造成了限制。
那么,数据科学人才需要具备什么样的技能?
首先,对数据科学家(数据分析师)来说,数学是必不可少的知识基础。统计、概率论、数学建模,这些都是数据科学研究的基础。其次,他们还需要使用计算机语言,例如R或Python去玩转这些数据。
只有通过计算机编程,数学理论才能被用于实践,而数据集也才能得到适当的分析处理。最后,数据科学家还必须对某些垂直领域,例如交通或气象,有自己的兴趣。对于这些领域的多方面影响因素,他们必须了若指掌。而这也是使用数学理论去展开实用型研究的前提。
在此基础上,许多大数据公司还在开发机器学习技术,利用机器去深挖数据的潜力。这就要求数据科学家还要去了解机器学习算法,甚至相配套的硬件设计。
这样看来,数据科学的研究有着相当高的门槛,而理想的数据科学家(数据分析师)应当是了解数据、计算机,以及其他某一专业的复合型人才。这远远不是刚学会数据库操作的新手所能胜任的工作。
结论
数据统计并不等同于大数据。这可能是数据科学发展的最初形态,但未来的大数据技术还需要从这些统计数据中得出更多具有指导意义的分析结论。
回到2015年南京交通事故大数据分析报告。如果希望这成为真正的大数据报告,并带来参考意义,那么首先可能要做的就是增大数据集,采集更多类型的司机和车辆数据,并将覆盖范围扩大至整个省,甚至全国。
另一方面,数据科学家(数据分析师)需要做进一步的数据挖掘,将目光瞄准更多有价值的点。这将给交通出行体系和汽车业的多个领域带来帮助:汽车厂商可以基于这些信息开发安全功能,而道路设计也可以据此优化以减少事故的发生。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析实战中,我们经常会遇到“多指标冗余”的问题——比如分析企业经营状况时,需同时关注营收、利润、负债率、周转率等十 ...
2026-02-04在数据分析场景中,基准比是衡量指标表现、评估业务成效、对比个体/群体差异的核心工具,广泛应用于绩效评估、业务监控、竞品对 ...
2026-02-04业务数据分析是企业日常运营的核心支撑,其核心价值在于将零散的业务数据转化为可落地的业务洞察,破解运营痛点、优化业务流程、 ...
2026-02-04在信贷业务中,违约率是衡量信贷资产质量、把控信用风险、制定风控策略的核心指标,其统计分布特征直接决定了风险定价的合理性、 ...
2026-02-03在数字化业务迭代中,AB测试已成为验证产品优化、策略调整、运营活动效果的核心工具。但多数业务场景中,单纯的“AB组差异对比” ...
2026-02-03企业战略决策的科学性,决定了其长远发展的格局与竞争力。战略分析方法作为一套系统化、专业化的思维工具,为企业研判行业趋势、 ...
2026-02-03在统计调查与数据分析中,抽样方法分为简单随机抽样与复杂抽样两大类。简单随机抽样因样本均匀、计算简便,是基础的抽样方式,但 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27