把数据输入R语言后，如何进行简单的操作(二)-CDA数据分析师官网

热线电话：13121318867

首页大数据时代把数据输入R语言后，如何进行简单的操作(二)

把数据输入R语言后，如何进行简单的操作(二)

2020-09-11

先回忆一下之前用到的例子。

将其输入R语言中：

age <- c(25, 34, 59, 60, 20) #患者年龄

type <- c(1, 2, 2, 2, 1) #糖尿病类型

status <- c("poor", "improved", "excellent", "poor", "excellent") #病情

comorbidity<- c(TRUE, FALSE, FALSE, TRUE, FALSE) #出现并发症

mydata <- data.frame(age, type, status, comorbidity) #将数据框命名为mydata

查看mydata：

mydata

## age type status comorbidity

## 1 25 1 poor TRUE

## 2 34 2 improved FALSE

## 3 59 2 excellent FALSE

## 4 60 2 poor TRUE

## 5 20 1 excellent FALSE

接下来我们就以mydata为例，介绍一下如何对数据框进行简单的操作。

了解一个数据框

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

面对数据，第一步就是要了解它有多少条记录(或多少个case/ observation )，有多少个变量（variable）、分别是哪些。

## 获取数据框的维度（几行、几列）

dim(mydata)

[1] 5 4

## 查看数据框中的所有变量名（列名）

names(mydata)

[1] "age" "type" "status" "comorbidity"

## 查看数据框的整体结构（维度、变量名、数据类型、数据内容）

str(mydata)

'data.frame': 5 obs. of 4 variables:

$ age : num 25 34 59 60 20

$ type : num 1 2 2 2 1

$ status : Factor w/ 3 levels "excellent","improved",..: 3 2 1 3 1

$ comorbidity: logi TRUE FALSE FALSE TRUE FALSE

如何提取数据框中的行和列

2种方法：

1. 数据框后加[ , ]。逗号前是行，逗号后是列。如果没有指定是哪一行或哪一列，默认为所有行/列。

## 提取第一行

mydata[1,]

age type status comorbidity

1 25 1 poor TRUE

## 提取第一列

mydata[,1]

[1] 25 34 59 60 2

## 提取某几行或某几列

## 提取1~3行

mydata[1:3,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

## 提取第1和第5行的1、2、4列

mydata[c(1,5),c(1,2,4)]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

## 变量很多时，用列名来提取更方便

mydata[c(1,5),c('age','type','comorbidity')]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

2. 另一种提取列的方法是，在数据框后加 $，然后再加要提取的列名。

## 提取age这一列

mydata$age

[1] 25 34 59 60 20

获取满足特定条件的数据

1.提取满足某一个条件的数据。

例如，在病情status这个变量中，有poor, improved 和 excellent这三类，现在想获取病情最稳定、恢复最好的患者信息。也就是说，我们希望获得status为excellent的病例，即选择满足mydata$status=='excellent'的行，以及被选中的行的每一列。

mydata[mydata$status=='excellent',]

age type status comorbidity

3 59 2 excellent FALSE

5 20 1 excellent FALSE

此外，还可进一步提取，例如，想获得病情status为excellent的患者中，并发症comorbidity的情况。换句话说，就是，想提取comorbidity的信息，但这些信息必须是病情最稳定的几位患者的。

## 具体操作如下：先提取comorbidity,再设置status的条件

输入语句：mydata$comorbidity[mydata$status=='excellent']

[1] FALSE FALSE

2.提取满足多个条件的数据。

例如，想提取年龄age大于等于20岁，且小于35岁的病例。在R中，用&这个符号表达『并且』。用一个小竖杠 | 表达『或者』。

mydata[mydata$age>=20 & mydata$age<35,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

3.subset()函数，既可用来选择行，也可选择列，当然也可以用来提取满足特定条件的内容。

# 选择行/满足特定条件的行

subset(mydata, mydata$age>=20 & mydata$age<35)

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

# 选择列

subset(mydata, select = c('age','status'))

age status

1 25 poor

2 34 improved

3 59 excellent

4 60 poor

5 20 excellent

有缺失数据怎么办

由于原来的数据框中没有缺失数据，这里我们来构造一个新的记录(observation)，让这个记录中全部都是缺失值。

mydata[6,] <- NA

mydata

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

6 <NA> <NA> <NA> <NA>

1. 只保留无缺失的observations。如果希望将无缺失版本的数据框保存起来，要记得把na.omit(mydata)的结果赋值给新的对象。

mydata_no_NA <- na.omit(mydata)

mydata_no_NA

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

2. 查看哪个数据为缺失值。需要用到2个函数，这里提醒大家，如果R的语句太复杂，那么可以先从最中心的部分读起，一层括号一层括号地向外扩展。

例如，下面的语句，可以先看最中间的is.na(mydata$age)，意思是对age这列中的每个数据进行一次检验，返回『是否为缺失值』的逻辑型结果，即TRUE 或者 FALSE。再看which()这个函数，它返回的是前面这一串TRUE和FALSE中，出现TRUE的顺序号。

从下面的结果我们可以看到，只有第6个数据是TRUE。

which(is.na(mydata$age))

[1] 6

is.na(mydata$age)

[1] FALSE FALSE FALSE FALSE FALSE TRUE

以上就是对数据框的一些简单操作，但是在数据处理中非常实用。下一讲我们继续介绍更多数据处理的内容。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归缺失值数据处理 R语言数据类型

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python新手如何度过小白期，不再当菜鸟程序员？

下一篇突发！CPA或取消北京考区惹争议，曾经“飘香”的证书还香吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

把数据输入R语言后，如何进行简单的操作(二)

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载