
R语言之纵向数据分析:多级增长模
上一次,我们讨论了如何对长型数据转换成长型的数据,同时还是用了一个随机创建的对照实验数据集来对其增长趋势进行可视化。但是,我们是否能够进一步的分析并预测结果的增长趋势与时间之间的关系。
是的,当然可以!我们可以使用多级增长模型(也称之为层次模型或者混合模型)进行估计。
产生一个水平数据集并把它转成宽格式
下面,我们先从我之前的一篇文章的实例进行讲解:
这里有很多R语言包可以帮助你进行多级分析,其中,我发现lme4包是最好的一个,因为它使用比较简单,而且建模能力也很强(尤其是输出二进制结果或者计数结果)。当然,nlme包也是相当不错的,它可以给连续型结果提供了类似的结果(正态/高斯分布)。
如果你之前做过回归分析,你应该对这样的语法结构比较熟悉了。通常来说,它就是lm()函数当中含有额外的随即效应公式。
随即效应,如果你对这个术语不熟悉的话,其实可以这么理解,通常来说,它就是一个实验所无法控制的误差,即变化。因此,比方来说,一个志愿者所收到的治疗效果就是一种混合的效应,因为,假设我们是实验人员,我们会决定哪些人接受A治疗方案,哪些接受B治疗方案。然而,抑郁症评分的基线在治疗的初始阶段会因人而异,一些人可能会更加抑郁,一些其实并没有这么忧郁。由于这是无法控制的,我们会把它看成是随即效应。
尤其是,抑郁评分基线的差异可以看作是一个随机区间(即,不同的志愿者参与不同等级的治疗)。我们也可以在建模的时候,对它们的斜率进行随机设置:例如,如果我们有理由相信尽管大家接受的治疗是一样的,一些参与治疗的人可以收到很好的疗效,而其它人则收效甚微。
结果的随机效应部分陈述了数据的方差结构。在这个模型中,存在两种方差结构:残差(通常用在线性模型)和个体之间的差异(即,每一个主体的id)。量化个体差异程度的一种常用方法就是研究同类相关系数(ICC)。我们可能可以从多级模型那里计算ICC,而且,这意味着,24.3%的抑郁平分变化可以由个体差异程度来解释。
现在,我们把目光转到修正效应。嗯…,那些p值在哪里呢?这,尽管SAS和其它统计软件有给多级模型的修正效应计算提供p值方面的信息,其实,很多统计学家的计算结果并不一致。举个简单的例子,我们对自由度与这些t检验的关联程度了解的不深,而且没有自由度的话,我们比不知道t检验的具体分布,因此,我们无法得到p值方面的信息。SAS和其它软件都有相应的工作区来处理估计值,这时lme4包开发人员感到不舒服的地方。结果,lmer包并没有刻意的汇报p值的信息(所以,不要害怕你得不到p值!或许有其它的方法在显著性的测量上比我们的模型做的还好)。
这么说,如果你绝对需要p值,我们可以使用基于lme4包所产生的lmerTest包来估算p值。
下面大部分的代码和上面的类似,除非我们要使用lmerTest包。
其结果很相似,但现在,我们可以得到自由度和p的估计值。所以,我们可以很自信的说普通RCT参与治疗的人,现在,随着时间的推移,他们的抑郁症得分在下降,其速度为每下降1分,下降的量为2.24。
有时,我们想在单个轨迹的均值进行作图。如果要展示均值里的一些不确定因素,我们需要使用拟合好的模型,利用拟合值进行计算,算出95%置信区间和95%预测区间。
第一行代码指出我们想要求出均值的一个点,它们一般来说是在我们这个案例的前三次预测的时候。第二行代码使用了predict()函数来得到模型的均值,它不考虑条件随机效应(re.form=NA)。第三第四行计算了均值的方差,一般来说是矩阵交叉与随机效应截距相加。第五行计算了单个观测值的方差,它的方差等于方差均值假设残差方差。第六到第九行则按普通方法,并假设它是正态分布来计算95%置信区间和预测区间。最后所给的代码是:
最后,我们要作它的95%置信区间和95%预测区间的图像了。注意,预测区间的图像要宽于置信区间。也就是说,预测均值的结果比用单个值预测要好。
如果你和我一样,对数据也很敏感,你应该能观察到图线的拟合效果并不太好。这里,有两种办法可以得到更好的结果,而这个我们在后面将会讲到。保持关注。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27