R读写Excel文件中数据的方法-CDA数据分析师官网

热线电话：13121318867

R读写Excel文件中数据的方法

2018-06-26

R读写Excel文件中数据的方法

用R语言读写Excel的方法有很多，但每种方法都有让人头疼的地方，如xlsx包的代码复杂，只支持Excel2007；RODBC不易理解，限制太多，程序不稳定，会出各种怪毛病。另存为csv格式的方法倒是比较通用比较稳定，但又存在操作麻烦，无法程序化处理多个文件的问题。提取xml也是个办法，但步骤太多代码太复杂，令人望而生畏。用剪贴板转换也不好，这同样需要人工参与，还不如存为csv。

相比之下，用gdata包来读取，配合WriteXLS写入Excel则可以很好的避开上述麻烦。这两个包都支持Excel2003和Excel2007，运行稳定，代码简单直观，也不需要人工参与。下面用一个例子来说明这两个函数包读写Excel的方法。

目标：

ordersData目录下有多个结构相同的Excel文件，有些是Excel2007格式，有些是Excel2003格式，这些文件存储着历年来的销售订单。请读取这些文件，并统计出每个客户的总销售额，最后将结果写入result.xlsx。下面是2011.xlsx的部分数据：

代码：

library(gdata)
library(WriteXLS)
setwd("E: /ordersData")
fileList<-dir()
orders<-read.xls(fileList[1])
for (file in fileList[2:length(fileList)]){
orders<-rbind(orders,read.xls(file))
}
result<-aggregate(orders[,4], orders[c(2)],sum)
WriteXLS("result","result.xlsx")

result.xlsx中的部分数据如下：

代码解读
1、library(gdata)和library(WriteXLS)这两句代码用来引入第三方函数包，这两个包具有read.xls和WriteXLS函数，可以分别执行读取和写入Excel的动作。
2、fileList<-dir()这句代码列出了目录内的所有文件，之后的for语句则是循环读取文件，并将数据拼合到数据框orders中。如果目录内有其他文件，则应当用通配符来过滤。
3、result<-aggregate(orders[,4], orders[c(2)],sum)，这句代码用来执行分组汇总，其中orders[,4]代表汇总列（即Amount），orders[c(2)]代表分组列（即Client）。
4、read.xls和WriteXLS虽然来自于不同的包，但都支持data.frame数据类型，因此可以很好的配合起来。另外，read.xls函数可以自动识别Excel2003和Excel2007格式，使用起来非常方便。
5整段代码都很简洁，初学者可以轻松掌握。

注意事项：
1.版本
gdata和WriteXLS不是R语言自带的库函数，而是第三方包，因此需要额外下载安装。另外，这两个函数包都会用到Perl环境，因此挑选合适版本的Perl尤为重要。经过尝试，当R语言的版本是2.15.0时，gdata最匹配的版本是2.13.3，WriteXLS的版本号则是3.5.0，但用最新的Perl环境与之配合时会出问题，需要使用旧一点的5.14.2版本才行，否则会报以下错误：
Error in xls2sep(xls, sheet, verbose = verbose, ..., method = method, :
Intermediate file 'C:\Users\Thim\AppData\Local\Temp\RtmpMHvLZS\file224060624738.csv' missing!
2.性能
读写小文件没问题，但读写稍大些的文件时会发现gdata和WriteXLS的性能极差（这也许是Perl的原因）,比如读一个8列20万行的Excel就需要8到10分钟。如果特别关注性能，可以使用xlsx函数包。当然，这样一来就无法支持Excel2003了。事实上，xlsx的性能并不比gdata强太多，真正要解决性能问题，还是应当将所有的Excel文件都转为2007格式，并解压出里面的xml文件，通过解析xml文件来读取数据。
替代方案
对于R语言中存在的版本冲突和性能问题，我们也可以使用Python、集算器、Perl等语言来解决。和R语言一样，它们都可以读写Excel文件并进行数据计算。下面简单介绍集算器和Python的解决方案。
集算器已将访问EXCEL的功能打入安装包，无需单独下载第三方包，支持读写Excel2003和Excel2007，对更老的版本以及Excel2010也支持。代码如下：

集算器的性能也不错，读一个8列20万行的Excel只需20到30秒。
Python的性能相当优异，但和R类似的是也要用第三方包。本来使用pandas包应当能很简单地完成xls文件的读写任务，但在windows下一直没有安装成功（毕竟xls文件主要在windows下产生），最后用xlrd和xlwt3这两个包配合才实现本算法，这两个包只支持Excel2003，代码也复杂了许多：
import xlwt3
import xlrd
from itertools import groupby
from operator import itemgetter
import os
dir="E:/ ordersData/"
fileList =os.listdir(dir)
rowList = []
for f in fileList:
book=xlrd.open_workbook(dir+f)#循环打开只读的workbook
sheet=book.sheet_by_index(0)
nrows = sheet.nrows
ncols = sheet.ncols
for i in range(1,nrows):
row_data = sheet.row_values(i)
rowList.append(row_data)#所有的记录都追加到rowList里
rowList=sorted(rowList,key=lambda x:(x[1]))#分组前的排序
result=[]
for key, items in groupby(rowList, itemgetter(1)):#使用groupby函数分组
value1=0
for subItem in items:value1+=subItem[3]
result.append([key,value1])#最后把汇总结果拼成二维数组
wBook=xlwt3.Workbook()#新建可写的workbook
wSheet=wBook.add_sheet("sheet 1")
wSheet.write(0,0,"Client")
wSheet.write(0,1,"Sum")
for row in range(len(result)):#循环写入数据
wSheet.write(row+1,0,result[row][0])
wSheet.write(row+1,1,result[row][1])
wBook.save(dir+"result.xls")#保存文件

这个方案要比R语言难用多了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言 pandas

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Python将多个excel表格合并为一个表格

下一篇SPSS中各种参数意思

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R读写Excel文件中数据的方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

R读写Excel文件中数据的方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章 业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章 战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...