京公网安备 11010802034615号
经营许可证编号:京B2-20210330
R语言中apply家族中的系列循环函数总结
R语言中的以apply()函数为首的apply()家族,提供了强大而方便的循环功能,这些函数说起来简单,用起来可能就有点蒙圈儿了。这些函数确实简单,但是可能很多人搞不清这些函数究竟有什么用处与区别呢?R中不是已经有for循环了吗?其实作为一种与Matlab一样的向量化语言,用for循环会把本来速度就慢的R语言的速度拖的更慢,这就要用到apply()家族函数了,下面就对apply()家族中的函数分别做详细的介绍,以便于区别他们。
1、apply函数
apply()是用的最多,也是最好理解的函数了。比如
> x<-cbind(3,c(1:5,4:1))
x是一个9行2列的矩阵
> x
[,1] [,2]
[1,] 3 1
[2,] 3 2
[3,] 3 3
[4,] 3 4
[5,] 3 5
[6,] 3 4
[7,] 3 3
[8,] 3 2
[9,] 3 1
> apply(x,1,mean)
[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0
> apply(x,2,mean)
[1] 3.000000 2.777778
这里第一个参数表示应用的数据为x,第三个参数为应用的函数名(这里是平均值函数),第二个参数取1表示对9行数据求每行均值,取2表示对2列每列求均值。其实对于一个三维数组,第二个参数取3表示对第三维分别应用指定的函数。比如
> x<-array(c(1:24),dim = c(2,3,4))
> x
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12
, , 3
[,1] [,2] [,3]
[1,] 13 15 17
[2,] 14 16 18
, , 4
[,1] [,2] [,3]
[1,] 19 21 23
[2,] 20 22 24
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
这里,由于x的第三维有4个组,因此循环进行了4次,得出了4个值。当然了,这里的指定函数也可以是自定义函数。
2、lapply函数
apply()函数主要是对向量进行循环,而lapply()函数则在对列表元素进行循环时特别有用。
例一
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))
> x
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
> lapply(x,mean)
$a1
[1] 4.5
$a2
[1] 0.6
这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值,这里列表的第二个元素为布尔型,显然将其0~1对待,求出了均值。
例二
> lapply(x,quantile)
$a1
0% 25% 50% 75% 100%
1.00 2.75 4.50 6.25 8.00
$a2
0% 25% 50% 75% 100%
0 0 1 1 1
这里用lapply()函数指定quantile给出了x的分位数。
3、sapply函数
看下面例子
> sapply(x,quantile)
a1 a2
0% 1.00 0
25% 2.75 0
50% 4.50 1
75% 6.25 1
100% 8.00 1
显然,我们发现这里用sapply()函数也指定quantile求出了x的分位数,与lapply()函数不同的是:sapply()函数默认返回的是一个矩阵,而lapply()函数返回的时一个列表。其实,在sapply()函数中如果返回的长度不一样不能生成矩阵时,才会生成一个列表。
> x1
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
这里自定义函数f()返回参数本身,x中两列不一样长,返回类型就为列表。
4、tapply函数
前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单,tapply()函数提供了更强大、更灵活的循环方式,可能也更难以理解。
例一
> a<-as.factor(c(1,1,2,3,3))
> a
[1] 1 1 2 3 3
Levels: 1 2 3
> tapply(a,a,length)
1 2 3
2 1 2
这里tapply()函数有三个参数,第一个参数指定因子类型a为被循环对象,第二个参数指定a为指针参数,第三个参数指定应用的函数为求长度函数length,这里由于a的因子水平为3,故tapply()函数循环了三次,分别求出三个水平的出现次数。
例二
这里以warpbreaks数据集为例
> head(warpbreaks)
breaks wool tension
1 26 A L
2 30 A L
3 54 A L
4 25 A L
5 70 A L
6 52 A L
> summary(warpbreaks[,c(2:3)])
wool tension
A:27 L:18
B:27 M:18
H:18
warpbreaks的wool变量有两个分类,tension有三个分类。
> tapply(warpbreaks$breaks,warpbreaks[-1],sum)
tension
wool L M H
A 401 216 221
B 254 259 169
这里以warpbreaks的breaks变量作为应用对象,除去第一列(warpbreaks[-1])作为指针参数,第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量,tension有三个变量,一共有2x3 = 6种组合。比如wool = A,tension = L时求和所有breaks就是401。我们可以检验一下如下:
> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])
[1] 401
显然,wool = A,tension = L时求和所有breaks就是401。
5、mapply函数
mapply()函数与tapply()函数还是比较相似的,不过与其它apply家族的函数相比,mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。
例一
> mapply(rep,1:4,4:1)
[[1]]
[1] 1 1 1 1
[[2]]
[1] 2 2 2
[[3]]
[1] 3 3
[[4]]
[1] 4
这里mapply()函数有三个参数,第一个指定应用的 函数为rep,就是重复函数;第二个参数指定被应用的对象为序列4:1,第三个参数指定重复的次数分别为1:4,即4要重复一次,3要重复两次等。数据分析师培训
例二
mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))
[[1]]
[1] 11
[[2]]
[1] 21 22
[[3]]
[1] 31 32 33
这里自定义了一个函数seq_len(x)+y,其中seq_len(x)函数作用是生成一个1:X的序列,比如:
> seq_len(3)
[1] 1 2 3
那么对c(1,2,3)就会依次生成1,1:2,1:3的序列,再分别加上10,20,30,就会得到那样的结果了。
可以看出,mapply()函数主要是对中间对象元素与第三个对象元素一一对应,分别应用前面的指定函数。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28