使用R语言进行中文分词-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读使用R语言进行中文分词

使用R语言进行中文分词

2017-07-10

使用R语言进行中文分词

1.准备包

①rJava包

② Rwordseg包

③Java环境

④搜狗词库（此为扩展词库）

Rwordseg包依赖于rJava包。由于Rwordseg包并没有托管在CRAN上面，而是在R-Forge上面，因此在在R软件上面直接输入install.packages("Rwordseg")会提示错误。因此，我们需要在软件菜单栏点击程序包

选择软件库在选择R-Forge 即可，然后输入install.packages("Rwordseg")应该就OK了。或者输入下面代码：

[plain]view plaincopy

install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")

一切准备工作做好了我们就可以进行分词了。首先加载我们所需要的包。然后对“ 我非常喜欢《跟着菜鸟一起学R语言》这个微信公众号 ”这句话进行分词。

[plain]view plaincopy

library(Rwordseg)

library(rJava)

text<-"我非常喜欢《跟着菜鸟一起学R语言》这个微信公众号"

segmentCN(text)

分词结果为：

[1] "我" "非常" "喜欢" "跟" "着" "菜" "鸟" "一起" "学" "R语言" "这个" "微信" "公众" "号"

我们可以发现这个分词有问题，比如说 “菜鸟”和“公众号”是一个词，但这里却分开了。我们该怎么处理呢？Rwordseg包里面提供了一个insertWords函数，具体如下

[plain]view plaincopy

insertWords(strwords,

analyzer = get("Analyzer", envir = .RwordsegEnv),

strtype = rep("userDefine", length(strwords)),

numfreq = rep(1000, length(strwords)), save = FALSE)
这就是insertWords函数，其中save参数是指是否把这个词保存到词典里面。

[plain]view plaincopy

insertWords(c("菜鸟","公众号"),save=TRUE)

这样的话，菜鸟和公众号就成两个词了。再次运行

[plain]view plaincopy

text<-"我非常喜欢《跟着菜鸟一起学R语言》这个微信公众号"

segmentCN(text)

结果为

[1] "我" "非常" "喜欢" "跟" "着" "菜鸟" "一起" "学" "R语言" "这个" "微信" "公众号"

但是如果我们不需要“菜鸟”这个分词了怎么办，这个时候我们就可以使用deleteWords（）函数来从词典中删除这个分词。

[plain]view plaincopy

deleteWords(c("菜鸟","公众号"),save=TRUE)

这次我们在看看结果。

[1] "我" "非常" "喜欢" "跟" "着" "菜" "鸟" "一起" "学" "R语言" "这个" "微信" "公众" "号"

接下来我们使用一下搜狗的扩展词库，由于电影跟新速度较快，我这里下载了搜狗的热门电影大全词库，如何加载使用搜狗词库，点击可以查看我的另一篇博客。

[plain]view plaincopy

installDict("热门电影大全.scel","movie")

59391 words were loaded! ... New dictionary 'movie' was installed!

我把下载的词库放在了当前的工作目录下面了，所以直接输入词典名，没有添加地址。加载了该词典。如果出现上面的句子则表示这个词典加载成功了，我们命名为movie。

现在我们来测试一下面这个句子：你喜欢看最后的巫师猎人吗

[plain]view plaincopy

text2<-"你喜欢看最后的巫师猎人吗"

segmentCN(text2)

"你" "喜欢" "看" "最后的巫师猎人" "吗"

可以看到“最后的巫师猎人”是一个词，如何我们把movie这个词典删除点会怎么样呢？

[plain]view plaincopy

uninstallDict("movie")

text2<-"你喜欢看最后的巫师猎人吗"

segmentCN(text2)

[1] "你" "喜欢" "看" "最后" "的" "巫师" "猎人" "吗"

其实加载搜狗词典的话我们就不用自己定义词典，就比如前面我们往词典里面插入“菜鸟”和“微信公众号”一样。这样可以很方便的分词，也省去了自己新建词典的时间。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

使用R语言进行中文分词

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载