R语言中的几类高效函数-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言中的几类高效函数

R语言中的几类高效函数

2017-02-21

R语言中的几类高效函数

在执行 R语言任务时，一个提高执行效率的思路就是尽量避免使用循环语句，否则你的工作将变的缓慢低效。事实上，我们是可以有办法使用一些较高级的函数来尽量避免使用循环工作的。下面本文将介绍常见的几种高效函数。

1.apply函数

2.lapply函数

3.sapply函数

4.tapply函数

5.sweep函数

6.column函数和row函数

1）apply函数

apply函数主要应用在一个数组或者矩阵上，通过给定的函数，并根据指定的计算方向(按行或按列)，以该方向的数组为输入对象，反回计算结果，并将结果存储于一个数组或向量中。

apply(array, margin, function, ...)

首先定义一个矩阵data

data <- matrix(rep(seq(4), 4), ncol = 4)

data

[,1] [,2] [,3] [,4]

[1,] 1 1 1 1

[2,] 2 2 2 2

[3,] 3 3 3 3

[4,] 4 4 4 4

#先根据行求和，其中1为指定按行计算(1为行，2为列)，sum为指定的function

apply(data, 1, sum)

[1] 4 8 12 16

#根据列求和，其中2为按列计算

apply(data, 2, sum)

[1] 10 10 10 10

#使用自定义函数，首先定义函数myfun

myfun <- function(x){

+ sum(x) + 2

+ }

#根据自定义函数，使用apply函数计算

apply(data, 1, myfun)

[1] 6 10 14 18

#自定义函数还可以写在apply函数内部，不过需要注意，没有大括号

apply(data, 1, function(x) sum(x) + 2)

[1] 6 10 14 18

#更通用的，可以将函数写出如下形势

apply(data, 1, function(x, y) sum(x) + y, y=2)

[1] 6 10 14 18

2）lapply函数

lapply用于对给定的数据，分别对其中的元素按指定的函数计算，并返回一个list。对于数据框来说，lapply函数显得极为友好，在data.frame中，每个变量可以看做是一个元素，因此lapply应用于data.frame时，可以同时对所有变量按指定函数进行计算。

#首先构造一个数据框

data.df<-data.frame(data)

> data.df

X1 X2 X3 X4

1 1 1 1 1

2 2 2 2 2

3 3 3 3 3

4 4 4 4 4

#对数据框所有变量进行求和，返回每个变量的结果，存储形式为list。

lapply(data.df, sum)

$X1

[1] 10

$X2

[1] 10

$X3

[1] 10

$X4

[1] 10

＃此外，还可以将传入的函数改成自定义的函数。要注意，函数形式没有大括号。

y1 <- lapply(data.df, function(x, y) sum(x) + y, y = 5)

$X1

[1] 15

$X2

[1] 15

$X3

[1] 15

$X4

[1] 15

#使用lappy代替循环函数

unlist(lapply(1:5, function(i) print(i) ))

[1] 1

[1] 2

[1] 3

[1] 4

[1] 5

[1] 1 2 3 4 5

#对比一下for循环结果就算结果，发现是一致的

for(i in 1:5) print(i)

[1] 1

[1] 2

[1] 3

[1] 4

[1] 5

3）sapply函数

sapply函数与lapply函数类似，主要输入的参数都是数据和函数，但sapply与lapply不同的是sapply返回的是向量，而lapply返回的是一个list。并且sapply还存在第三个参数simplify，当silmplify为FALSE时，那么sapply返回的结果和lapply一致；当silmplify为TRUE时，sapply返回的结果为一个向量或者矩阵；此外还可以设定其它格式。

sapply(list, function, ..., simplify)

y <- sapply(data.df, function(x, y) sum(x) + y, y = 5)

X1 X2 X3 X4

15 15 15 15

is.vector(y)

[1] TRUE #返回的结果是一个向量

＃定义simply＝F，此时返回的结果胃list，效果和apply一样。

y <- sapply(data.df, function(x, y) sum(x) + y, y = 5,simplify = F)

$X1

[1] 15

$X2

[1] 15

$X3

[1] 15

$X4

[1] 15

class(y)

[1] "list"

is.list(y)

[1] TRUE#返回结果为list

4）tapply函数

tapply用于对数据进行分组计算，类似于SQL中的group by。tapply需要传入三个参数，第一个是数据，第二个是数据的分组，第三个参数是指定的计算函数。

data.df<-data.frame(x=runif(10),group1=rep(1:5,2),group2=rep(1:2,5))

data.df

x group1 group2

1 0.68180046 1 1

2 0.72726914 2 2

3 0.33735976 3 1

4 0.48212394 4 2

5 0.04234556 5 1

6 0.88701919 1 2

7 0.53946995 2 1

8 0.01295496 3 2

9 0.47062069 4 1

10 0.87079649 5 2

tapply(data.df$x, data.df$group1, mean)

1 2 3 4 5

0.4926077 0.7726152 0.6058755 0.6110971 0.3074988

#此处还可以传入两个分组的计算结果

tapply(data.df$x, list(data.df$group1,data.df$group2), mean)

1 2

1 0.68180046 0.88701919

2 0.53946995 0.72726914

3 0.33735976 0.01295496

4 0.47062069 0.48212394

5 0.04234556 0.87079649

5）sweep函数

sweep函数用于对给定的输入数据做批量的计算，主要参数有数据、统计方向、计算参数、计算函数。其中统计方向可取1或2，取1表示在行的方向上计算，2表示在列的方向上计算。计算函数为加减乘除等算是，默认为减法'－'。

data<-matrix(runif(20),5)

data.df<-data.frame(data)

data.df

X1 X2 X3 X4

1 0.09248257 0.4358975 0.1884430 0.1212183

2 0.83091974 0.2388490 0.8377123 0.6140257

3 0.15849016 0.2286257 0.8577217 0.9877683

4 0.86437393 0.2771434 0.5302898 0.1608113

5 0.43098913 0.5906199 0.1117341 0.2846628

#将数据按行计算，每行分别减去各行的最大值

sweep(data.df,1,apply(data.df,1,max),'-')

X1 X2 X3 X4

1 -0.343414887 0.0000000 -0.2474544 -0.3146792

2 -0.006792557 -0.5988633 0.0000000 -0.2236865

3 -0.829278179 -0.7591426 -0.1300467 0.0000000

4 0.000000000 -0.5872305 -0.3340842 -0.7035627

5 -0.159630747 0.0000000 -0.4788858 -0.3059571

6）column函数和row函数

还有一些函数也是基于行和列进行统计计算的，如对列进行计算的有colMeans和colSums；对行计算的rowMeans和rowSums。

data.df

X1 X2 X3 X4

1 0.09248257 0.4358975 0.1884430 0.1212183

2 0.83091974 0.2388490 0.8377123 0.6140257

3 0.15849016 0.2286257 0.8577217 0.9877683

4 0.86437393 0.2771434 0.5302898 0.1608113

5 0.43098913 0.5906199 0.1117341 0.2846628

#对列求平均

colMeans(data.df)

X1 X2 X3 X4

0.4754511 0.3542271 0.5051802 0.4336973

#对列求和

X1 X2 X3 X4

2.377256 1.771135 2.525901 2.168486

#对行求和

rowSums(data.df)

[1] 0.8380414 2.5215068 2.2326058 1.8326183 1.4180059

#对行求平均

rowMeans(data.df)

[1] 0.2095103 0.6303767 0.5581515 0.4581546 0.3545015

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言统计计算 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言中的几类高效函数

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载