R语言实用小技巧-CDA数据分析师官网

热线电话：13121318867

R语言实用小技巧

2018-03-09

R语言实用小技巧

这篇文章介绍的是我平时写程序遇到的各种小问题，以及解决他们的小技巧
1.R语言读取EXCEL
用 R语言读取EXCEL时，可以使用readxl包的read_excel函数，不要使用xlsx这个包，因为xlsx它要加载JAVA，很麻烦，而使用readxl不需要加载JAVA。

2.如何在R中构造一个hash函数
这在R中或许有许多包能够实现，但是，其实我们自己来实现也是很简单的，要知道environment的原理也是一个hash函数，我们只需要利用environment，来负责存储我们所需要的映射列表就可以了。接下来我们可以利用digest包的散列函数digest(),这个函数可以将任意的R对象映射为一个md5值，或者sha1等，他的md5值就是我们所需要的key，以下是使用例子：
有如下这样的数据
> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
假设我想将x,y映射到z，将y,z映射为k，先定义两个函数，一个是SetKeyValue，负责设置key,value对，第二个是GetValue，输入一个key，返回key对应的value。
library(digest)
SetKeyValue<-function(envir,key,value){
envir[[digest(key)]]<-value
return(envir)
}
GetValue<-function(envir,key){
return(envir[[digest(key)]])
}

hash<-new.env()
for(i in 1:nrow(df)){
hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}

这样我们就得到了一个由environment构造的hash函数了，我们可以这样去得到值：

> GetValue(hash,df[1,1:2]) #得到当x=1 y=2时的z值
[1] 3

当然，如果想要更快的速度，可以使用fastdigest这个包，里面的散列函数比digest包要快，只需将digest()替换成fastdigest()就可以了。
3.如何用最快最简单的方法加快R的执行速度？

答案是使用compiler包，这个包的作用就是将R代码编译成字节码，这在很多情况下都能加快运行的速度，当然也会有一些时候作用没有那么大，使用非常简单，以下是一个使用例子：

> library(microbenchmark)
> library(compiler)
> f1<-function(){
+   x=1:100
+   for(i in 1:100){
+     x[i]=x[i]+1
+   }
+ }
> f2<-function(){
+   x=1:100
+   x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+   f1(),
+   f2(),
+   f3(),
+   f4()
+ )
Unit: nanoseconds
expr    min     lq      mean median     uq    max neval cld
f1() 170077 175453 178277.64 177652 179363 227746   100   c
f2()    978   1467   2028.94   1956   2444   5865   100 a
f3() 11730 12219 12873.79 12708 13196 20039   100 b
f4()    978   1466   1564.65   1467   1955   2933   100 a

可以看到编译后的f3,f4跟编译前的f1,f2,快了将近2倍到10倍，这么简单就能提升运行速度，何乐而不为呢？
我写的一个小代码，可以批量地把环境变量中所有的函数都编译一次：

funlist<-c(lsf.str())
for(f in funlist){
assign(f,cmpfun(get(f)))
}

如何想要更快，可以参考Windows使用OpenBLAS加速R语言计算速度
4.如何读取一个文件夹所有的文件？

我们可以利用list.files进行匹配，通过其中参数pattern可以填写正则表达式，用来匹配文件夹下满足条件的文件名。然后再利用lapply来导入文件。

filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt")

datalist <- lapply(filenames, function(name) {
read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T)
})

5.如何把data.frame按照行来对应生成列表

> set.seed(1)
> df <- data.frame(i=3:1, y = runif(3))
> df
i         y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534

我想把这个data.frame变成一个list 并且i要与list中的序号对应。
解决方法如下：

> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534

[[2]]
[1] 0.3721239

[[3]]
[1] 0.2655087

6.如何标记每个组别中出现的次数，他们出现的顺序。

有这么个数据：

> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
group
1     1
2     1
3     2
4     2
5     3
6     3
7     3
现在想添加一列，标记的id列，让它变成：
   group id
1:     1 1
2:     1 2
3:     2 1
4:     2 2
5:     3 1
6:     3 2
7:     3 3
可以利用data.table实现：
> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
   group id
1:     1 1
2:     1 2
3:     2 1
4:     2 2
5:     3 1
6:     3 2
7:     3 3
7.R语言读取SPSS格式文件
可以使用library(memisc)这个包，虽然foreign也能做到，但是有的时候格式会很混乱，而memisc就可以完美读取。
8.R语言for循环的小贴士
看一个例子，这个例子是一个简单的for循环，它在大部分情况下是没有任何问题的。
n=nrow(x)
for(i in 1:n){
x[i]
}
但是如果当x是一个空值时，这就会出问题了，当x是空值时，我们并不希望这个for循环会执行，但是在这里n=0，那么i in 1:0 就会产生1和0，这就会导致出现各种各样的错误，而且这些错误并不固定，它会随着你的for循环里面的内容改变而改变，从而很难定位bug的所在。一个解决的方法是，我们可以使用seq.int(length.out = n)循环来代替1:n

n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}

这样当n=0的时候，这个循环就不会执行了。
9.使用foreach包并行计算时看到里面print的方法
在linux的时候，我们可以在makeCluster上加上outfile="" 使用""就会默认输出到控制台，不过这个功能在windows好像不能用，在windows的时候建议输出到文件里，outfile="d:/log.txt"，这样就可以了。
library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
print(i)
sqrt(i)
}
stopCluster(cl)