京公网安备 11010802034615号
经营许可证编号:京B2-20210330
R语言中apply家族中的系列循环函数总结
R语言中的以apply()函数为首的apply()家族,提供了强大而方便的循环功能,这些函数说起来简单,用起来可能就有点蒙圈儿了。这些函数确实简单,但是可能很多人搞不清这些函数究竟有什么用处与区别呢?R中不是已经有for循环了吗?其实作为一种与Matlab一样的向量化语言,用for循环会把本来速度就慢的R语言的速度拖的更慢,这就要用到apply()家族函数了,下面就对apply()家族中的函数分别做详细的介绍,以便于区别他们。
1、apply函数
apply()是用的最多,也是最好理解的函数了。比如
> x<-cbind(3,c(1:5,4:1))
x是一个9行2列的矩阵
> x
[,1] [,2]
[1,] 3 1
[2,] 3 2
[3,] 3 3
[4,] 3 4
[5,] 3 5
[6,] 3 4
[7,] 3 3
[8,] 3 2
[9,] 3 1
> apply(x,1,mean)
[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0
> apply(x,2,mean)
[1] 3.000000 2.777778
这里第一个参数表示应用的数据为x,第三个参数为应用的函数名(这里是平均值函数),第二个参数取1表示对9行数据求每行均值,取2表示对2列每列求均值。其实对于一个三维数组,第二个参数取3表示对第三维分别应用指定的函数。比如
> x<-array(c(1:24),dim = c(2,3,4))
> x
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12
, , 3
[,1] [,2] [,3]
[1,] 13 15 17
[2,] 14 16 18
, , 4
[,1] [,2] [,3]
[1,] 19 21 23
[2,] 20 22 24
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
这里,由于x的第三维有4个组,因此循环进行了4次,得出了4个值。当然了,这里的指定函数也可以是自定义函数。
2、lapply函数
apply()函数主要是对向量进行循环,而lapply()函数则在对列表元素进行循环时特别有用。
例一
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))
> x
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
> lapply(x,mean)
$a1
[1] 4.5
$a2
[1] 0.6
这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值,这里列表的第二个元素为布尔型,显然将其0~1对待,求出了均值。
例二
> lapply(x,quantile)
$a1
0% 25% 50% 75% 100%
1.00 2.75 4.50 6.25 8.00
$a2
0% 25% 50% 75% 100%
0 0 1 1 1
这里用lapply()函数指定quantile给出了x的分位数。
3、sapply函数
看下面例子
> sapply(x,quantile)
a1 a2
0% 1.00 0
25% 2.75 0
50% 4.50 1
75% 6.25 1
100% 8.00 1
显然,我们发现这里用sapply()函数也指定quantile求出了x的分位数,与lapply()函数不同的是:sapply()函数默认返回的是一个矩阵,而lapply()函数返回的时一个列表。其实,在sapply()函数中如果返回的长度不一样不能生成矩阵时,才会生成一个列表。
> x1
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
这里自定义函数f()返回参数本身,x中两列不一样长,返回类型就为列表。
4、tapply函数
前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单,tapply()函数提供了更强大、更灵活的循环方式,可能也更难以理解。
例一
> a<-as.factor(c(1,1,2,3,3))
> a
[1] 1 1 2 3 3
Levels: 1 2 3
> tapply(a,a,length)
1 2 3
2 1 2
这里tapply()函数有三个参数,第一个参数指定因子类型a为被循环对象,第二个参数指定a为指针参数,第三个参数指定应用的函数为求长度函数length,这里由于a的因子水平为3,故tapply()函数循环了三次,分别求出三个水平的出现次数。
例二
这里以warpbreaks数据集为例
> head(warpbreaks)
breaks wool tension
1 26 A L
2 30 A L
3 54 A L
4 25 A L
5 70 A L
6 52 A L
> summary(warpbreaks[,c(2:3)])
wool tension
A:27 L:18
B:27 M:18
H:18
warpbreaks的wool变量有两个分类,tension有三个分类。
> tapply(warpbreaks$breaks,warpbreaks[-1],sum)
tension
wool L M H
A 401 216 221
B 254 259 169
这里以warpbreaks的breaks变量作为应用对象,除去第一列(warpbreaks[-1])作为指针参数,第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量,tension有三个变量,一共有2x3 = 6种组合。比如wool = A,tension = L时求和所有breaks就是401。我们可以检验一下如下:
> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])
[1] 401
显然,wool = A,tension = L时求和所有breaks就是401。
5、mapply函数
mapply()函数与tapply()函数还是比较相似的,不过与其它apply家族的函数相比,mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。
例一
> mapply(rep,1:4,4:1)
[[1]]
[1] 1 1 1 1
[[2]]
[1] 2 2 2
[[3]]
[1] 3 3
[[4]]
[1] 4
这里mapply()函数有三个参数,第一个指定应用的 函数为rep,就是重复函数;第二个参数指定被应用的对象为序列4:1,第三个参数指定重复的次数分别为1:4,即4要重复一次,3要重复两次等。数据分析师培训
例二
mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))
[[1]]
[1] 11
[[2]]
[1] 21 22
[[3]]
[1] 31 32 33
这里自定义了一个函数seq_len(x)+y,其中seq_len(x)函数作用是生成一个1:X的序列,比如:
> seq_len(3)
[1] 1 2 3
那么对c(1,2,3)就会依次生成1,1:2,1:3的序列,再分别加上10,20,30,就会得到那样的结果了。
可以看出,mapply()函数主要是对中间对象元素与第三个对象元素一一对应,分别应用前面的指定函数。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12