R中的apply族函数-CDA数据分析师官网

热线电话：13121318867

R中的apply族函数

2017-02-19

R中的apply族函数

如果计算涉及到一个单一的向量，而结果也是一个向量， tapply函数是一个可选项，不同于aggregate函数，它返回一个向量或数组，这使得其单个元素很容易被访问。

将组定义为矩阵的行或列，即操作目标为矩阵的每一列或行时， apply函数时最佳选择。该函数通常会返回一个向量或数组，但根据行或列操作的结果维度不同，将返回一个列表。

将组定义为列表中的元素。如果组已经形成列表元素，那么 sapply或lapply函数比较适合，它们的区别是lapply返回一个列表，而sapply可将输出简化为向量或数组。有时可以结合使用split函数，将需要处理的数据创建为一个列表，然后再使用这两个函数。

如果所要计算函数的参数为一个矩阵或数组，可以考虑使用 mapply函数，该函数非常的灵活和简单，其返回的结果一般是列表形式。

先来看一下tapply()、apply()、lapply()、sapply()和mapply()函数的语法规则:

tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

apply(X, MARGIN, FUN, ...)

lapply(X, FUN, ...)

sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)

mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,

USE.NAMES = TRUE)

根据不同的函数，输入数据X可能是向量、数组、矩阵或数据框；INDEX一般为类别变量；MARGIN指定矩阵的维度，1表示矩阵的行，2表示矩阵的列；FUN为参与运算的函数，可以是R自带的函数也可以是自己编写的函数；...为函数FUN指定的参数，紧跟在函数的后面。

接下来看一下各个函数的应用情况

为了处理基于一个或多个分组变量的单个向量，可以使用tapply函数，该函数返回一个数组，其维数与分组向量的维数相同。

注意，该函数的输入数据必须是向量，且分析向量与分组向量的长度必须一致

如果想分析iris数据集中Sepal.Length在各个花种中的最大值，可以通过tapply函数实现，这里的Sepal.Length和Species为两个向量，且各自的长度均相等。

如果想对某个变量(向量)进行多变量的分组分析时，也可以采用tapply函数。

首先构造一个数据框：

接下来想对z变量做分组统计，分组变量为x和y

这里的NA表示x和y的分组中没有对应的z值。

当数据具备数组的特性，可通过 apply函数对数据的每个维度进行运算，该函数需要三个参数：需要计算的数组、运算维度的索引号和使用的函数。

标准化一个矩阵：这里可以直接给参数FUN为scale

当然，如果想统计各个列的均值，为比较显式循环和apply的隐式循环，程序如下，就可以比较出两种方式的效率：

结果显式，通过apply计算矩阵列的均值速度是显式循环的50倍。这说明在R中使用循环的话尽量使用到隐式的向量化计算，否则计算效率非常差。

再来看一个如何使用自编函数应用到apply中：这里显式了前7列的统计量值。

lapply()函数和sapply()函数把一个列表或向量作为其第一个参数，再把需要应用到每个列表元素的函数作为它的第二个参数。其实它也应用到了循环，是一种隐式的循环，对列表的每一个元素做同样的函数计算。

应用：查看字符向量中每一个元素所包含的单词个数

使用sapply函数的另一个重要问题涉及到数据框。当数据框被视为列表时，数据框的每一列看着独立的列表元素。

查看数据集iris和ChickWeight各个字段的模式和类

通过以上的应用，可以提取满足特定条件的数据框的列

接下来使用自编函数加入到sapply函数中，实现循环。该自编函数的目的是计算出1000个100*5的矩阵中最大相关系数的均值。这里很关键的一点是给自编函数传一个虚拟参数i用来循环。

最后再来看一下mapply函数的应用：该函数的第一个参数为指定的函数，第二个参数为指定函数的参数。如果根据某种正则表达式将一个字符向量的对应特征取出来，例如取出'qaws1few4g'中的'1f'和'4g'

最后总结一下：

tapply()的被分析对象必须且只能是向量

apply()的被分析对象必须且只能是矩阵或数组

sapply()的被分析对象必须且只能是向量或列表

lapply()的被分析对象必须且只能是向量或列表

mapply()的被分析对象必须是函数

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征正则表达式字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R中的apply族函数

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载