京公网安备 11010802034615号
经营许可证编号:京B2-20210330
来源 | 伯乐在线
我妹妹正在念大四,主修社会学。她刚刚签了下个学期一份不错的分析员工作,对方告诉她工作中要用到 R 编程语言。她让我在寒假时教教她,我欣然同意了。还有什么比这更好的方式来消磨明尼苏达的冬天呢?[注1]
问题是:在原定教她的那天,我们俩都有空的时间只有一个小时。哎呀!
不过我还是接受了这个挑战,用一个小时向我的社会学家妹妹介绍R。下面就是我所做的事情。我没有预先做功课,而且肯定犯了些错误,忽视了核心思想,纠缠于细枝末节。但妹妹给我的反馈是非常好(我确实对其他人的“一小时学会R”理念非常感兴趣)
(1)下载R和RStudio
我对RStudio的印象不错,对于初学者来说,它既方便又很有帮助,对专业人士也很有用。尤其对于初学者:鼠标指向-点击式(point-and-click)的选项非常棒,工作区面板对于建立起对R环境的概念也非常有用。我甚至都不用再花精力向我妹妹介绍R默认的集成开发环境——我马上就让她下载了RStudio,不过你仍然需要下载普通版的R。下载之后,我意识到r-project.org网站真应该在设计上进行大修整,因为:(a)它不够漂亮(b)如果你不知道什么是“CRAN镜像”,下载R将是一件容易把人搞糊涂的事。
(2)控制台和脚本
准备好之后,我们做的第一件事就是在控制台中键入如下两行代码:
这并非纯粹的“Hello World”,但它阐明了一些概念,比如”赋值”、”变量”和”求值”[注2]。
接着,我让妹妹在一个R脚本文件中保存了上面那两行代码(我认为,在初学者开始使用一门语言时就教会他们如何正确地把代码保存在脚本文件中是非常重要的)。然后,我教她怎么用Cmd-Enter组合键(译者注:这是Mac OS的键位。在PC中,对应的组合键是Ctrl+Enter)在控制台中执行代码。
在解释这些内容的过程中,我意识到”控制台”和”脚本”这类术语比较晦涩,所以我尽可能给出它们的明确的定义。我也不得不小心地使用那些含义确切的词而非”REPL”或”prompt”这类词汇
(3)注释
(4)图形
脚本、注释和控制台可能有点儿枯燥,所以到了这一步,该是从图形中寻找点儿乐趣的时候了!这是我们绘制的一张图:
教我妹妹理解这段代码涉及解释什么是函数(因为rnorm和hist都是函数)、什么是函数的实参,以及为什么你可以通过名字引用实参却不一定非得这样做。
我还教她怎么保存一个图形——借助图形窗口中方便的“Export”按钮,在RStudio中保存图形非常容易。
(5)获得帮助
我认为,“获取帮助”是这类快速入门过程中需要掌握的最重要的概念。显然你不可能在一个小时之内学会一切,所以,你真正需要的是当你用到时可以查找到相应信息的工具。下面是我介绍的语法:
考虑到查函数文档对非程序员来说不太容易,这本来或许不是一个正确的策略。我考虑过强调google技巧的重要性(我在研究生院学到的最有用的东西),或者介绍StackOverFlow和R-help,但最后还是决定讲解官方的文档系统。”在R中我该怎么做X这件事”是初学者最常见的问题之一,我认为这个问题的答案可能应该是”使用函数Y( )”——所以重要的是能够搞清楚如何使用函数Y( )。
在我看来,初学者最常见的另一个问题是”我遇到了出错信息Z,怎么修正它?”。为解决这个问题,我演示一些常见的错误(对象未找到,意外的<X>常量,等等)并解释了它们的含义。
(6)数据类型
查看帮助文档让我想起文档中经常会提及某个函数的实参必须是某个特定的类型,因此我们或许应该讨论一下数据类型。我介绍了:
向量
矩阵
数据框(dataframe)
就这样,我们借助实例讨论了一些数据类型,并顺带着学习了其他一些重要的内容,像怎么确定向量、什么是工作目录,以及怎样读入数据文件。
(7)探索性数据分析
一旦你读入了一个数据集,事情就开始变得有趣了。我们从中学习了一大堆东西,像怎么做基本的表格、遇到缺失数据如何处理,以及怎么拟合一个简单的线性模型。这部分的内容相当有趣,以至于我妹妹开始主导学习过程了:不再是我说“我要教你如何做什么”,而是她主动问“嗯,我们能画一个散点图吗?”或“你觉得我们可以把最优拟合直线放到那个图上吗?”我真为此而感到高兴——我希望这意味着她已全身心投入并乐在其中。
我们还进一步学习了图形,像怎么作出好的直方图,以及怎么在回归直线上叠加散点图。
1 hist(wages$wage, xlab = "hourly wage", main = "wages in our dataset", col = "purple")
2 plot(wages$age, wages$workyr, xlab = "age", ylab="years worked", main = "age vs. years worked")
3 abline(lm(wages$workyr ~ wages$age), col="red", lwd = 2)
好了,时间到。
我遗漏了些什么?哪些事能做得更好?我事后想到的有:
用[]取子集. 这是个关键知识点。它可以应用于我所介绍的所有数据类型,而且极为有用。我真希望当时有时间让我妹妹做一个,比如只包含女性的工资直方图
编程相关的东西:循环、if语句、用户自定义函数,等等。不过我觉得不教这些东西也没问题——考虑到受众,我是把R当作一个数据分析环境而非一种编程语言来教授。
保存.rda文件和/或工作区
安装和载入包
其他数据类(比如列表)
其他(更好的?)帮助资源/提示/技巧
最后一点感想
总的来说,在一小时内介绍R让我收获了乐趣,而且我认为(希望?)我妹妹也是如此。临别时我又给了她一些资料:这个,这个和这个,这些资料我都不是非常熟悉——但我知道,要想能够用R分析实际数据,所需的时间远大于在我这儿的一个小时。我相信我已经覆盖了大部分基础知识,我妹妹也觉得这对她非常有帮助。我很乐意听各位来谈谈你是如何应对”一小时内向非程序员介绍R”这个挑战的。
脚注
注1. 即便对明尼苏达来说,天气也真的太冷了。温度已在华氏0度(译者注:摄氏-17度)左右徘徊了一个月之久。星期一的最高温度是华氏-12度(译者注:摄氏-24度)
注2.你可能注意到了,我用“=”来赋值,而且把这个习惯传给了我妹妹。我考虑过这个问题并坚持这一用法,“<-”要多敲键盘,我发现它唯一有用的地方只是当我在system.time函数调用内进行赋值。
end
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28