热线电话：13121318867

在R中用箱形图做组间比较

2021-09-07

来源：丁点帮你

作者：丁点helper

之前的文章讲了如何用R绘制箱形图，以此来帮助我们了解数据的整体分布情况、是否存在异常值。除此之外，箱形图还可以进行数据的组间比较。

分组变量的数据清理

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

本次我们用到的是学生的课堂调查数据，包括了性别、年级、专业、身高、最喜欢的动物(讲数据清理时用的是这个变量，还记得吗)等变量。数据名：survey.csv，数据链接：

首先导入数据，存入survey这个数据集中：

survey <- read.csv("//Users//Desktop//survey.csv", 
                     header = TRUE) # 获取数据中包含的变量名 names(survey)
 [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" "Exercise" [10] "Coursework" "Web" "TV" "Social" "Econ" "Animal" "Friends" "Pulse"

接下来我们以Gender作为分组依据，先来看看这个变量的情况。

table(survey$Gender) Choose not to answer Female Gender non-conforming Male 1 1 117 1 118

我们发现，除了female和male，有的同学回答了Choose not to answer，Gender non-conforming，还有同学什么都没填，空缺。

今天我们暂时将这三种特殊情况从数据中删去。

# 查看针对Gender这个变量，同学们有几类回答 levels(survey$Gender)
[1] "" "Choose not to answer" "Female" "Gender non-conforming" "Male"

在这五类回答中，我们想保留的是第3、第5类。也就是说，仅保留Gender为"Female" 或 "Male"的记录。

# 把更新后的数据存储在survey2这个对象中 survey2 <- survey[survey$Gender %in% levels(survey$Gender)[c(3,5)],]

这里，a %in%b的作用是，用a中的元素去匹配b中的任意元素，如果匹配成功，则返回结果为TRUE，反之，则结果为FALSE。

此时，上面的语句就简化为如下所示，c()里面是TRUE和FALSE的集合，是a中每个元素与b匹配的结果。

survey2 <- survey[c(),] # 这是为了便于理解写的简化语句，不能够运行的

survey2中仅保留了匹配结果为TRUE的记录：

table(survey2$Gender) Choose not to answer Female Gender non-conforming Male 0 0 117 0 118

哎？虽然记录被删了，但Gender中之前包含的五个类都还在，用下面的droplevels()这个函数删掉那些没有记录的类。

survey2$Gender <- droplevels(survey2$Gender)
table(survey2$Gender)
Female   Male 
   117    118

绘制整体和各组数据的箱形图

数据清理好之后，我们以身高HtCm这个变量为例，先用之前讲过的方法绘制箱形图，了解改变量的整体分布，然后对比性别之间的身高差异。

boxplot(survey2$HtCm, main="Boxplot of Ht in cm",          col='orange', lwd=2)

一目了然，我们调查的是大学学生，却出现了身高小于100厘米的情况，不符合常理。现在去检查一下原始数据。

sort(survey2$HtCm) # 将身高从小到大排序

部分结果截图

实际操作中，大家要尽量核实那些极端身高数据的真实情况，修正数据。这里我们为便于教学，直接把那些小于100厘米的身高值记录为缺失。

然后利用整理后的身高数据绘制箱形图。

survey2$HtCm[survey2$HtCm < 100 ] <- NA
 boxplot(survey2$HtCm, main="Boxplot of Ht in cm", 
          col='orange', lwd=2)

最后绘制不同性别学生的身高箱形图。

boxplot(survey2$HtCm~survey2$Gender, 
         main="Boxplot of Ht in cm", 
         col=c(2,3), lwd=2)

由图可知，男生的身高基本都高于女生。将两个箱形图放在一起，可以清晰地看到两组变量的大致情况，便于给两组做粗略的比较。

但是这男女生身高到底有没有统计学上的差异，肉眼是很难得出结论的，统计学上怎么做呢？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归数据清理异常值数据存储

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇智能“三反”模型开发

下一篇Python字典操作零基础学习，一步到位

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

在R中用箱形图做组间比较

分组变量的数据清理

绘制整体和各组数据的箱形图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载