
作者:俊欣
来源:关于数据分析与可视化
相信大家都用在Excel当中使用过数据透视表(一种可以对数据动态排布并且分类汇总的表格格式),也体验过它的强大功能,在Pandas模块当中被称作是pivot_table,今天小编就和大家来详细聊聊该函数的主要用途。
那我们第一步仍然是导入模块并且来读取数据,数据集是北美咖啡的销售数据,包括了咖啡的品种、销售的地区、销售的利润和成本、销量以及日期等等
import pandas as pd def load_data(): return pd.read_csv('coffee_sales.csv', parse_dates=['order_date'])
那小编这里将读取数据封装成了一个自定义的函数,读者也可以根据自己的习惯来进行数据的读取
df = load_data() df.head()
output
通过调用info()函数先来对数据集有一个大致的了解
df.info()
output
<class 'pandas.core.frame.DataFrame'> RangeIndex: 4248 entries, 0 to 4247 Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 order_date 4248 non-null datetime64[ns] 1 market 4248 non-null object 2 region 4248 non-null object 3 product_category 4248 non-null object 4 product 4248 non-null object 5 cost 4248 non-null int64 6 inventory 4248 non-null int64 7 net_profit 4248 non-null int64 8 sales 4248 non-null int64
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 298.8+ KB
在pivot_table函数当中最重要的四个参数分别是index、values、columns以及aggfunc,其中每个数据透视表都必须要有一个index,例如我们想看每个地区咖啡的销售数据,就将“region”设置为index
df.pivot_table(index='region')
output
当然我们还可以更加细致一点,查看每个地区中不同咖啡种类的销售数据,因此在索引中我们引用“region”以及“product_category”两个,代码如下
df.pivot_table(index=['region', 'product_category'])
output
上面的案例当中,我们以地区“region”为索引看到了各项销售指标,当中有成本、库存、净利润以及销量这个4个指标的数据,那要是我们想要单独拎出某一个指标来看的话,代码如下所示
df.pivot_table(index=['region'], values=['sales'])
output
这也就是我们上面提到的values,在上面的案例当中我们就单独拎出了“销量”这一指标,又或者我们想要看一下净利润,代码如下
df.pivot_table(index=['region'], values=['net_profit'])
output
另外我们也提到了aggfunc,可以设置我们对数据聚合时进行的函数操作,通常情况下,默认的都是求平均数,这里我们也可以指定例如去计算总数,
df.pivot_table(index=['region'], values=['sales'], aggfunc='sum')
output
或者我们也可以这么来写
df.pivot_table(index=['region'], values=['sales'], aggfunc={ 'sales': 'sum' })
当然我们要是觉得只有一个聚合函数可能还不够,我们可以多来添加几个
df.pivot_table(index=['region'], values=['sales'], aggfunc=['sum', 'count'])
output
剩下最后的一个关键参数columns类似于之前提到的index用来设置列层次的字段,当然它并不是一个必要的参数,例如
df.pivot_table(index=['region'], values=['sales'], aggfunc='sum', columns=['product_category'])
output
在“列”方向上表示每种咖啡在每个地区的销量总和,要是我们不调用columns参数,而是统一作为index索引的话,代码如下
df.pivot_table(index=['region', 'product_category'], values=['sales'], aggfunc='sum')
output
同时我们看到当中存在着一些缺失值,我们可以选择将这些缺失值替换掉
df.pivot_table(index=['region', 'product_category'], values=['sales'], aggfunc='sum')
output
我们再来做几组练习,我们除了想要知道销量之外还想知道各个品种的咖啡在每个地区的成本如何,我们在values当中添加“cost”的字段,代码如下
df.pivot_table(index=['region'], values=['sales', 'cost'], aggfunc='sum', columns=['product_category'], fill_value=0)
output
同时我们还能够计算出总量,通过调用margin这个参数
df.pivot_table(index=['region', 'product_category'], values=['sales', 'cost'], aggfunc='sum', fill_value=0, margins=True)
output
最后的最后,我们调用pivot_table函数来制作一个2010年度咖啡销售的销量年报,代码如下
month_gp = pd.Grouper(key='order_date',freq='M')
cond = df["order_date"].dt.year == 2010 df[cond].pivot_table(index=['region','product_category'],
columns=[month_gp], values=['sales'],
aggfunc=['sum'])
output
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25