京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:小伍哥
来源:AI入门学习
在数据处理过程中,经常会遇到多个表进行拼接合并的需求,在Pandas中有多个拼接合并的方法,每种方法都有自己擅长的拼接方式,本文对pd.concat()进行详细讲解,希望对你有帮助。pd.concat()函数可以沿着指定的轴将多个dataframe或者series拼接到一起,这一点和另一个常用的pd.merge()函数不同,pd.merge()解决数据库样式的左右拼接,不能解决上下拼接。
pd.concat( objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)
#构建需要的数据表
import pandas as pd
df1 = pd.DataFrame({'A':['A{}'.format(i) for i in range(0,4)], 'B':['B{}'.format(i) for i in range(0,4)], 'C':['C{}'.format(i) for i in range(0,4)]
})
df2 = pd.DataFrame({'A':['A{}'.format(i) for i in range(4,8)], 'B':['B{}'.format(i) for i in range(4,8)], 'C':['C{}'.format(i) for i in range(4,8)]
})
df3 = pd.DataFrame({'A':['A{}'.format(i) for i in range(8,12)], 'B':['B{}'.format(i) for i in range(8,12)], 'C':['C{}'.format(i) for i in range(8,12)]
})
现将表构成list,然后在作为concat的输入
frames = [df1, df2, df3] result = pd.concat(frames) A B C 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11
传入也可以是字典
frames = {'df1':df1, 'df2':df2,'df3':df3} result = pd.concat(frames) A B C df1 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 df2 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 df3 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11 三、横向拼接
当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并
#再构建一个表
df4 = pd.DataFrame({'C':['C{}'.format(i) for i in range(3,9)], 'E':['E{}'.format(i) for i in range(3,9)], 'F':['F{}'.format(i) for i in range(3,9)]
})
pd.concat([df1,df4], axis=1)
A B C C E F 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 4 NaN NaN NaN C7 E7 F7 5 NaN NaN NaN C8 E8 F8
加上join参数的属性,如果为'inner'得到的是两表的交集,如果是outer,得到的是两表的并集。
# join='inner' 取交集 pd.concat([df1, df4], axis=1, join='inner') A B C C E F 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 # join='outer' 和 默认值相同 pd.concat([df1, df4], axis=1, join='outer') A B C C E F 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 4 NaN NaN NaN C7 E7 F7 5 NaN NaN NaN C8 E8 F8 四、对比append方法
append是series和dataframe的方法,使用它就是默认沿着列进行凭借(axis = 0,列对齐)
df1.append(df2) A B C 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 五、忽略index
如果两个表的index都没有实际含义,使用ignore_index参数,置true,合并的两个表就睡根据列字段对齐,然后合并。最后再重新整理一个新的index。
pd.concat([df1, df4], axis=1, ignore_index=True) 0 1 2 3 4 5 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 4 NaN NaN NaN C7 E7 F7 5 NaN NaN NaN C8 E8 F8 六、增加区分组键
前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源
pd.concat([df1,df2,df3], keys=['x', 'y', 'z']) A B C x 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 y 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 z 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11
frames = {'df1':df1, 'df2':df2,'df3':df3} result = pd.concat(frames) A B C df1 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 df2 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 df3 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11
七、加入新的行
append方法可以将 series 和 字典就够的数据作为dataframe的新一行插入。
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
df1.append(s2, ignore_index=True)
A B C D 0 A0 B0 C0 NaN 1 A1 B1 C1 NaN 2 A2 B2 C2 NaN 3 A3 B3 C3 NaN 4 X0 X1 X2 X3
如果遇到两张表的列字段本来就不一样,但又想将两个表合并,其中无效的值用nan来表示。那么可以使用ignore_index来实现。
dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4}, {'A': 5, 'B': 6, 'C': 7, 'Y': 8}] df1.append(dicts, ignore_index=True) A B C X Y 0 A0 B0 C0 NaN NaN 1 A1 B1 C1 NaN NaN 2 A2 B2 C2 NaN NaN 3 A3 B3 C3 NaN NaN 4 1 2 3 4.0 NaN 5 5 6 7 NaN 8.0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28