
R内存管理与垃圾清理
1.内存查看
memory.limit():查看内存大小
memory.limit(n):申请内存大小
memory.size(NA):查看内存大小
memory.size(T):查看已分配的内存
memory.size(F):查看已使用的内存
2.内存申请
在Windows开始菜单运行:
Rgui -max-mem-size 8GB
与在R GUI中执行:
memory.limit(8000)
都能申请8GB使用内存
3.垃圾清除
rm(x):从workplace中删除变量/文件x
gc():清除内存垃圾
rm(list=ls()):清除workplace中所有变量
4.提升R的性能和突破内存限制的技巧
4.1性能提升的方法
4.1.1 系统升级
升级硬件
使用64位操作系统
利用GPU
租用云计算服务器
4.1.2 开发层面的优化
算法降低算法复杂度
调用C/C++或者Fortran关键的、耗时的计算步骤
缓冲技术减少重复计算
4.1.3 使用层面的优化
充分利用R的内存机制——R的基础优化
增强R的矩阵运算——加速BLAS
并行计算
大规模数据的处理——图片内存限制
使用Revolution R Enterprise(RRE)
4.2 充分利用R的内部机制优化性能
4.2.1向量化
向量化的代码,不要用循环!
利用矩阵运算
利用内置的向量化函数,比如exp、sin、rowMeans、rowSums、colSums、ifelse等
利用Vectorize函数将非向量化的函数改装为向量化的函数
*apply函数族:apply、lapply、sapply、tapply、mapply等
plyr和dplyr包Rstudio发布的data wrangling cheat sheet
##利用矩阵运算
n <- 100000
x1 <- 1:n
x2 <- 1:n
y <- vector()
system.time(
for(i in 1:n){y[i] <- x1[i] + x2[i]}
)
system.time(y <- x1 + x2)
## 利用向量化运算
## 内置的向量化函数
v <- 1:100000
result <- rep(1:100000)
system.time(
for(i in 1:100000){result[i] <- sin(v[i])}
)
system.time(result <- sin(v))
## 利用rowMeans、rowSums、colSums、colMeans等函数对矩阵或数据库做整体处理
colSums(iris[,1:4])
利用R内置的向量化函数,自定义向量化函数,只要在函数定义时每个运算是向量化的。但是在函数定义时用了逻辑判断语句,就会破坏的向量化特征。
func <- function(x){
if(x %% 2 == 0){
ret <- TRUE
}else{
ret <- FALSE}
return(ret)
}
func(34)
func(c(1,2,3,4))
## Warning message:
## In if (x%%2 == 0) { :
## the condition has length > 1 and only the first element will be used
## 在函数的定义中有if语句,不能接受向量作为判断的条件,否则判断第一个元素。
## 利用ifelse函数做向量化的判断
myfunc <- function(x){
ifelse(x %% 2 == 0,TRUE,FALSE)
}
myfunc(c(1,2,3,4))
##利用Vectorize函数将非向量化的函数改装为向量化的函数
funcv <- Vectorize(func)
funcv(c(1,2,3,4))
##利用sapply函数向量化运算
sapply(c(1,2,3,4),func)
4.2.2预先给对象分配内存
R为解释性语言,也是动态语言,如果不事先指定对象的类型和长度,在运算过程会动态分配内存,提高灵活性,但降低了效率。
尽量减少cbind、rbind的使用
## 求出10000个斐波那契数
x <- c(1,1)
i <- 2
system.time(
while(i<10000){
new <- x[i] + x[i-1]
x <- cbind(x,new)
i <- i + 1
}
)
## 指定类型和长度
x <- vector(mode="numeric",100000)
x[1] <- 1
x[2] <- 1
system.time(
while(i<10000){
i <- i + 1
x[i] <- x[i-1] + x[i-2]
}
)
4.2.3避免内存拷贝
假设我们有许多彼此不相关的向量,但因为一些其他的原因,我们希望将每个向量的第三个元素设为8,既然它们是互不相关的,甚至可能具有不同的长度,我们也许会考虑将它们放在一个列表中:
m <- 5000
n <- 1000
z <- list()
for(i in 1:m) z[[i]] <- sample(1:10, n, replace = T)
system.time(for(i in 1:m) z[[i]][3] <- 8)
## 把这些向量一起放到矩阵中
z <- matrix(sample(1:10, m * n, replace = T),nrow = m)
system.time(z[,3] <- 8)
4.2.4删除临时对象和不再用的对象
rm()删除对象
rm(object)删除指定对象,rm(list = ls())可以删除内存中的所有对象
gc()内存垃圾回收
使用rm(object)删除变量,要使用gc()做垃圾回收,否则内存是不会自动释放的。invisible(gc())不显示垃圾回收的结果
4.2.5分析内存的函数
ls()列出特定环境中的对象
object.size()返回R对象的大小(近似的)
memory.profile()分析cons单元的使用情况
memory.size()监测全部内存的使用情况(仅Windows下可用)
memory.size(max=T)返回历史占用过的最大内存;memory.size(max=F)返回目前占用的内存。未做垃圾清理时,已使用内存和已分配内存同步增加,但在垃圾清理后rm(list=ls());gc(),已使用内存会减少,而已分配给R的内存不会改变。
memory.limit()系统可分配的内存上限(仅Windows下可用)
memory.limit(newLimit)更改到一个新的上限。 注意,在32位的R中,封顶上限为4G,你无法在一个程序上使用超过4G (数位上限)。这种时候,可以考虑使用64位的版本。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关键 ...
2025-06-092025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27