京公网安备 11010802034615号
经营许可证编号:京B2-20210330
使用R进行数据匹配的方法
R中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能。与Excel不同之处在于merge函数有4种匹配拼接模式,分别为inner,left,right和outer模式。 其中inner为默认的匹配模式。本篇文章我们将介绍merge函数的使用方法和4种拼接模式的区别。
merge函数的使用方法很简单,以下是官方的函数功能介绍和使用说明。merge函数中第一个出现的数据表是拼接后的left部分,第二个出现的数据表是拼接后的right部分。merge默认会按照两个数据表中共有的字段名称进行匹配和拼接。
merge
开始使用merge函数进行数据拼接之前先读取需要进行匹配的两个数据表,并命名为loan_status表和member_info表。
#读取并创建贷款状态数据表
loan_status=data.frame(read.csv('loan_status.csv',header = 1))
#读取并创建用户信息数据表
member_info=data.frame(read.csv('member_info.csv',header = 1))
下面我们分别查看了两个数据表中的内容。这个示例中的两个数据表较小,可以完整显示出来,如果数据量较大的话可以就不能这么直观的查看了。
#查看贷款状态数据表
loan_status
#查看用户信息数据表
member_info
对于较大的数据表,可以使用dim函数查看数据表的维度,下面我们分别查看了贷款状态表和用户信息表的维度。贷款状态表有27行7列,用户信息表有25行4列。
dim(loan_status);dim(member_info)
[1] 27 7
[1] 25 4
使用names函数查看两个数据表的列名称,下面分别显示了代码和列名称。可以发现,两个数据表中有一个共同的列member_id。
#查看两个数据表的列名称
names(loan_status);names(member_info)
[1] "member_id" "loan_amnt" "term""issue_d" "loan_status" "total_pymnt_inv" "total_rec_int"
[1] "member_id" "grade" "emp_length" "annual_inc"
inner匹配
inner模式是merge的默认匹配模式,我们通过下面的文氏图来说明inner的匹配方法。Inner模式提供在loan_status和member_info表中共有字段的匹配结果。也就是对两个的表交集部分进行匹配和拼接。单独只出现在一个表中的字段值不会参与匹配和拼接。从下面的匹配结果中也可以看出,共有22行,包含了loan_status和member_info的交集。
#inner模式匹配
merge(loan_status,member_info,by = 'member_id')
outer模式是两个表的汇总,将loan_status和member_info两个要匹配的两个表汇总在一起,生成一张汇总的唯一值数据表以及匹配结果。从结果中可以看出共包含30行数据,比两个表的行数都要多。并且在grade和其他字段包含Na值,这些是在两个表中匹配不到的内容。
#outer模式匹配
merge(loan_status,member_info,all=TRUE,sort=TRUE)
left模式是左匹配,以左边的数据表loan_status为基础匹配右边的数据表member_info中的内容。匹配不到的内容以NaN值显示。在Excel中就好像将Vlookup公式写在了左边的表中。下面的文氏图说明了left模式的匹配方法。Left模式匹配的结果显示了所有左边数据表的内容,以及和右边数据表共有的内容。
以下为使用left模式匹配并拼接后的结果,loan_status在merge函数中第一个出现,因此为左表,member_grade第二个出现,为右表。匹配模式为all.x=TRUE。从结果中可以看出left匹配模式保留了一张完整的loan_status表,以此为基础对member_info表中的内容进行匹配。loan_status表中有5个member_id值在member_info中无法找到,因此grade字段显示为NA值。
merge(loan_status,member_info,all.x=TRUE,sort=TRUE)
right与left模式正好相反,right模式是右匹配,以右边的数据表member_info为基础匹配左边的数据表loan_status。匹配不到的内容以NA值显示。下面通过文氏图说明right模式的匹配方法。Right模式匹配的结果显示了所有右边数据表的内容,以及和左边数据表共有的内容。
以下为使用right模式匹配拼接的结果,从结果表中可以看出right匹配模式保留了完整的member_info表,以此为基础对loan_status表进行匹配,在loan_status数据表中有3个条目在member_info数据表中无法找到,因此显示为了NA值。
merge(loan_status,member_info,all.y=TRUE,sort=TRUE)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15