导读:对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。
作者:张良均 谭立云 刘名军 江建明
来源:大数据DT(ID:hzdashuju)
内容摘编自《Python数据分析与挖掘实战》
其中,分布分析能揭示数据的分布特征和分布类型。本文就手把手教你做分布分析。
对于定量数据,要想了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析;对于定性数据,可用饼图和条形图直观地显示其分布情况。
01 定量数据的分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行:
第一步:求极差。
第二步:决定组距与组数。
第三步:决定分点。
第四步:列出频率分布表。
第五步:绘制频率分布直方图。
遵循的主要原则如下:
各组之间必须是相互排斥的。
各组必须将所有的数据包含在内。
各组的组宽最好相等。
下面结合具体实例来运用分布分析对定量数据进行特征分析。
表3-2是菜品“捞起生鱼片”在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。
▲表3-2 “捞起生鱼片”的销售情况
1. 求极差
极差=最大值-最小值=3960-45=3915
2. 分组
这里根据业务数据的含义,可取组距为500.则组数如下所示。
组数=极差/组距=3915/500=7.83≈8
3. 决定分点
分布区间如表3-3所示。
▲表3-3 分布区间
4. 绘制频率分布直方表
根据分组区间得到如表3-4所示的频率分布表。
其中,第1列将数据所在的范围分成若干组段,其中第1个组段要包括最小值,最后一个组段要包括最大值。习惯上将各组段设为左闭右开的半开区间,如第一个组段为[0.500)。
第2列组中值是各组段的代表值,由本组段的上限值和下限值相加除以2得到。
第3列和第4列分别为频数和频率。
第5列是累计频率,是否需要计算该列数值视情况而定。
▲表3-4 频率分布
5. 绘制频率分布直方图
若以2014年第二季度“捞起生鱼片”这道菜每天的销售额组段为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表3-4中的数据可绘制成频率分布直方图,如代码清单3-3所示。
代码清单3-3 “捞起生鱼片”的季度销售情况
import pandas as pd
import numpy as np
catering_sale = '../data/catering_fish_congee.xls' # 餐饮数据
data = pd.read_excel(catering_sale,names=['date','sale']) # 读取数据,指定“日期”
列为索引
bins = [0.500.1000.1500.2000.2500.3000.3500.4000]
labels = ['[0.500)','[500.1000)','[1000.1500)','[1500.2000)',
'[2000.2500)','[2500.3000)','[3000.3500)','[3500.4000)']
data['sale分层'] = pd.cut(data.sale, bins, labels=labels)
aggResult = data.groupby(by=['sale分层'])['sale'].agg({'sale': np.size})
pAggResult = round(aggResult/aggResult.sum(), 2. ) * 100
import matplotlib.pyplot as plt
plt.figure(figsize=(10.6)) # 设置图框大小尺寸
pAggResult['sale'].plot(kind='bar',width=0.8.fontsize=10) # 绘制频率直方图
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.title('季度销售额频率分布直方图',fontsize=20)
plt.show()
运行代码清单3-3可得季度销售额频率分布直方图,如图3-3所示。
▲图3-3 季度销售额频率分布直方图
02 定性数据的分布分析
对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布,如代码清单3-4所示。
代码清单3-4 不同菜品在某段时间的销售量分布情况
import pandas as pd
import matplotlib.pyplot as plt
catering_dish_profit = '../data/catering_dish_profit.xls'# 餐饮数据
data = pd.read_excel(catering_dish_profit) # 读取数据,指定“日期”列
为索引
# 绘制饼图
x = data['盈利']
labels = data['菜品名']
plt.figure(figsize=(8. 6)) # 设置画布大小
plt.pie(x,labels=labels) # 绘制饼图
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.title('菜品销售量分布(饼图)') # 设置标题
plt.axis('equal')
plt.show()
# 绘制条形图
x = data['菜品名']
y = data['盈利']
plt.figure(figsize=(8. 4)) # 设置画布大小
plt.bar(x,y)
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.xlabel('菜品') # 设置x轴标题
plt.ylabel('销量') # 设置y轴标题
plt.title('菜品销售量分布(条形图)')# 设置标题
plt.show() # 展示图片
饼图的每一个扇形部分代表每一类型的所占百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一部分的大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。
运行代码清单3-4可得不同菜品在某段时间的销售量分布图,如图3-4和图3-5所示。
▲图3‑4 菜品销售量分布(饼图)
▲图3‑5 菜品销售量分布(条形图)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27