R语言解析JSON格式数据文件-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言解析JSON格式数据文件

R语言解析JSON格式数据文件

2018-06-03

R语言解析JSON格式数据文件

由于分析的数据格式为JSON格式，既占空间，而且分析时也非常的不方便，所以，我们需要对JSON格式

的数据进行解析，使其符合R语言分析所需要的数据格式，如data.frame,list等。

在 R语言的包库中，已经有人对JSON格式的解析做了完整的包jsonlite，这极大地减轻了分析人员的工作压力。

jsonlite包中有以下几个函数

1、flatten

其中flatten函数是用来处理JSON中含有内嵌表格的情况，这种JSON文件解析为data.frame时，会在data.frame中

的某一列或多个列中另外包含一个data.frame。flatten函数可以将这种data.frame转换为一个2维的列表结构。通俗

点讲，就是讲内嵌表格的属性作为外置大表格的属性，组成一个维数变大了的表格。例如

上图的x表格，stats为一个内嵌表格，具有3个属性。

经过flatten（x）函数转化后，变为一个表格

2、prettify，minify

prettify是一个美化函数，对json密集的json格式，通过增加空白，对格式进行标准化，这样我们在观察json数据时会比较方便。

例如：

minify是一个压缩函数，与prettify做的事情正好相反，其效果如下

这两个函数使用都非常简单，仅需要一个JSON对象即可，可以从toJSON函数获得

3、rbind.pages

这是一个合并函数，根据官方文档的说法，它可以将多个data.frame合并为1个data.frame。

这个函数非常只能，可以自动识别多个data.frame的属性是否相同，若相同，则按行合并，若不同，则将相同的地方按行合并，不同的属性按列合并

例如：

x <- data.frame(foo = rnorm(3), bar = c(TRUE, FALSE, TRUE))
y <- data.frame(foo = rnorm(2), bar = c("blue", "red"))
rbind.pages(list(x, y))

直接按行合并了。

x <- data.frame(foo = rnorm(3), bar = c(TRUE, FALSE, TRUE))
y <- data.frame(foo = rnorm(2), col = c("blue", "red"))
rbind.pages(list(x, y))

对foo按行合并了，而col属性是按照列合并的，没有的部分用NA代替。

4、serializeJSON

将一个R的对象序列化为一个JSON数据集。

5、stream_in，stream_out

利用流文件来处理JSON格式的数据解析任务。这种方法可以针对数据量非常大的情况。

stream_in(con, handler, pagesize = 500, verbose = TRUE, ...)

其中con为一个连接对象，可以是一个网络ur，也可以是一个文件路径

handler是一个自定义函数，pagesize用来指定我们从文件中要读取的文件行数。

verbose=T，设置是否打印出处理行数

stream_out(x, con = stdout(), pagesize = 500, verbose = TRUE, ...)

x为一个需要输出为json数据集的对象，目前只支持data.frame

5、toJSON，fromJSON

与stream_in和stream_out的功能类似，toJSON是转化为JSON格式，fromJSON是将JSON格式数据集转化为

R中的格式，一般为list.

具体使用方法可以查帮助文档。

其中fromJSON在读取多行JSON数据时会报错，只能单行读取数据。

总结

进行JSON格式数据解析时，没有特殊要求，建议使用stream_in函数。如果希望按照自己的想法来解析，可以使用fromJSON

按行解析，然后对字符串按照自己的想法处理，如加密，解密等。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言表结构

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇横向对比分析Python解析XML的四种方式

下一篇区块链目前面临的挑战有哪些

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言解析JSON格式数据文件

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载