R语言中apply家族中的系列循环函数总结-CDA数据分析师官网

热线电话：13121318867

R语言中apply家族中的系列循环函数总结

2017-04-08

R语言中apply家族中的系列循环函数总结

R语言中的以apply()函数为首的apply()家族，提供了强大而方便的循环功能，这些函数说起来简单，用起来可能就有点蒙圈儿了。这些函数确实简单，但是可能很多人搞不清这些函数究竟有什么用处与区别呢？R中不是已经有for循环了吗？其实作为一种与Matlab一样的向量化语言，用for循环会把本来速度就慢的R语言的速度拖的更慢，这就要用到apply()家族函数了，下面就对apply()家族中的函数分别做详细的介绍，以便于区别他们。

1、apply函数

apply()是用的最多，也是最好理解的函数了。比如

> x<-cbind(3,c(1:5,4:1))

x是一个9行2列的矩阵

> x

[,1] [,2]

[1,] 3 1

[2,] 3 2

[3,] 3 3

[4,] 3 4

[5,] 3 5

[6,] 3 4

[7,] 3 3

[8,] 3 2

[9,] 3 1

> apply(x,1,mean)

[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0

> apply(x,2,mean)

[1] 3.000000 2.777778

这里第一个参数表示应用的数据为x，第三个参数为应用的函数名（这里是平均值函数），第二个参数取1表示对9行数据求每行均值，取2表示对2列每列求均值。其实对于一个三维数组，第二个参数取3表示对第三维分别应用指定的函数。比如

> x<-array(c(1:24),dim = c(2,3,4))

> x

, , 1

[,1] [,2] [,3]

[1,] 1 3 5

[2,] 2 4 6

, , 2

[,1] [,2] [,3]

[1,] 7 9 11

[2,] 8 10 12

, , 3

[,1] [,2] [,3]

[1,] 13 15 17

[2,] 14 16 18

, , 4

[,1] [,2] [,3]

[1,] 19 21 23

[2,] 20 22 24

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

这里，由于x的第三维有4个组，因此循环进行了4次，得出了4个值。当然了，这里的指定函数也可以是自定义函数。

2、lapply函数

apply()函数主要是对向量进行循环，而lapply()函数则在对列表元素进行循环时特别有用。

例一

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))

> x

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

> lapply(x,mean)

$a1

[1] 4.5

$a2

[1] 0.6

这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值，这里列表的第二个元素为布尔型，显然将其0~1对待，求出了均值。

例二

> lapply(x,quantile)

$a1

0% 25% 50% 75% 100%

1.00 2.75 4.50 6.25 8.00

$a2

0% 25% 50% 75% 100%

0 0 1 1 1

这里用lapply()函数指定quantile给出了x的分位数。

3、sapply函数

看下面例子

> sapply(x,quantile)

a1 a2

0% 1.00 0

25% 2.75 0

50% 4.50 1

75% 6.25 1

100% 8.00 1

显然，我们发现这里用sapply()函数也指定quantile求出了x的分位数，与lapply()函数不同的是：sapply()函数默认返回的是一个矩阵，而lapply()函数返回的时一个列表。其实，在sapply()函数中如果返回的长度不一样不能生成矩阵时，才会生成一个列表。

> x1

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

这里自定义函数f()返回参数本身，x中两列不一样长，返回类型就为列表。

4、tapply函数

前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单，tapply()函数提供了更强大、更灵活的循环方式，可能也更难以理解。

例一

> a<-as.factor(c(1,1,2,3,3))

> a

[1] 1 1 2 3 3

Levels: 1 2 3

> tapply(a,a,length)

1 2 3

2 1 2

这里tapply()函数有三个参数，第一个参数指定因子类型a为被循环对象，第二个参数指定a为指针参数，第三个参数指定应用的函数为求长度函数length，这里由于a的因子水平为3，故tapply()函数循环了三次，分别求出三个水平的出现次数。

例二

这里以warpbreaks数据集为例

> head(warpbreaks)

breaks wool tension

1 26 A L

2 30 A L

3 54 A L

4 25 A L

5 70 A L

6 52 A L

> summary(warpbreaks[,c(2:3)])

wool tension

A:27 L:18

B:27 M:18

H:18

warpbreaks的wool变量有两个分类，tension有三个分类。

> tapply(warpbreaks$breaks,warpbreaks[-1],sum)

tension

wool L M H

A 401 216 221

B 254 259 169

这里以warpbreaks的breaks变量作为应用对象，除去第一列(warpbreaks[-1])作为指针参数，第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量，tension有三个变量，一共有2x3 = 6种组合。比如wool = A，tension = L时求和所有breaks就是401。我们可以检验一下如下：

> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])

[1] 401

显然，wool = A，tension = L时求和所有breaks就是401。

5、mapply函数

mapply()函数与tapply()函数还是比较相似的，不过与其它apply家族的函数相比，mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。

例一

> mapply(rep,1:4,4:1)

[[1]]

[1] 1 1 1 1

[[2]]

[1] 2 2 2

[[3]]

[1] 3 3

[[4]]

[1] 4

这里mapply()函数有三个参数，第一个指定应用的函数为rep，就是重复函数；第二个参数指定被应用的对象为序列4：1，第三个参数指定重复的次数分别为1：4，即4要重复一次，3要重复两次等。数据分析师培训

例二

mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))

[[1]]

[1] 11

[[2]]

[1] 21 22

[[3]]

[1] 31 32 33

这里自定义了一个函数seq_len(x)+y，其中seq_len(x)函数作用是生成一个1：X的序列，比如：

> seq_len(3)

[1] 1 2 3

那么对c(1,2,3)就会依次生成1，1：2，1：3的序列，再分别加上10，20，30，就会得到那样的结果了。

可以看出，mapply()函数主要是对中间对象元素与第三个对象元素一一对应，分别应用前面的指定函数。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言中apply家族中的系列循环函数总结

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载