R语言中的情感分析与机器学习-CDA数据分析师官网

热线电话：13121318867

登录

首页精彩阅读R语言中的情感分析与机器学习

R语言中的情感分析与机器学习

2016-02-14

收藏

来源 | 雪晴数据网

利用机器学习可以很方便的做情感分析。本篇文章将介绍在R语言中如何利用机器学习方法来做情感分析。在R语言中，由Timothy P.Jurka开发的情感分析以及更一般的文本挖掘包已经得到了很好的发展。你可以查看下sentiment包以及梦幻般的RTextTools包。实际上，Timothy还写了一个针对低内存下多元Logistic回归（也称最大熵）的R包maxtent。

然而，RTextTools包中不包含朴素贝叶斯方法。e1071包可以很好的执行朴素贝叶斯方法。e1071是TU Wien(维也纳科技大学)统计系的一门课程。这个包的主要开发者是David Meyer。

我们仍然有必要了解文本分析方面的知识。用R语言来处理文本分析已经是公认的事实（详见R语言中的自然语言处理）。tm包算是其中成功的一部分：它是R语言在文本挖掘应用中的一个框架。它在文本清洗（词干提取，删除停用词等）以及将文本转换为词条-文档矩阵(dtm)方面做得很好。这里是对它的一个介绍。文本分析最重要的部分就是得到每个文档的特征向量，其中词语特征最重要的。当然，你也可以将单个词语特征扩展为双词组，三连词，n-连词等。在本篇文章，我们以单个词语特征为例做演示。

注意，在R中用ngram包来处理n-连词。在过去，Rweka包提供了函数来处理它，感兴趣的可以查看这个案例。现在，你可以设置RTextTools包中create_matrix函数的参数ngramLength来实现它。

第一步是读取数据：

创建词条-文档矩阵：

现在，我们可以用这个数据集来训练朴素贝叶斯模型。注意，e1071要求响应变量是数值型或因子型的。我们用下面的方法将字符串型数据转换成因子型：

测试结果准确度：

显然，这个结果跟python得到的结果是相同的（这篇文章是用python得到的结果）。

其它机器学习方法怎样呢？

下面我们使用RTextTools包来处理它。

首先，指定相应的数据：

其次，用多种机器学习算法训练模型：

现在，我们可以使用训练过的模型做测试集分类：

准确性如何呢？

得到模型的结果摘要（特别是结果的有效性）：

结果的交叉验证：

结果可在我的Rpub页面找到。可以看到，maxent的准确性跟朴素贝叶斯是一样的，其它方法的结果准确性更差。这是可以理解的，因为我们给的是一个非常小的数据集。扩大训练集后，利用更复杂的方法我们对推文做的情感分析可以得到一个更好的结果。示例演示如下：

推文情感分析

数据来自victornep。victorneo展示的是用python对推文做情感分析。这里，我们用R来处理它：

读取数据：

首先，尝试下朴素贝叶斯

然后，尝试其他方法：

这里，我们也希望得到正式的测试结果。包括：

1.analytics@algorithm_summary：包括精确度，召回率，准确率，F-scores的摘要

2.analytics@label_summary：类标签摘要

3.analytics@document_summary：所有数据和得分的原摘要

4.analytics@ensemble_summary：所有精确度/覆盖度比值的摘要

现在让我们看看结果：

与朴素贝叶斯方法相比，其它算法的结果更好，召回精度高于0.95。结果可在Rpub查看

原文链接：http：//www.xueqing.cc/cms/article/107

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

朴素贝叶斯特征机器学习 python 文本挖掘特征向量召回率

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

更多

Copyright © 2015-2021, www.cda.cn All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有京ICP备11001960号-9

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

OK

客服在线

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册