热线电话：13121318867

教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

2022-02-09

作者：Python进阶者

来源：Python爬虫与数据挖掘

前言

前几天有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题。

他要构建语料库，目前通过Python网络爬虫抓到的数据存在一个csv文件里边，现在要把数据放进txt里，表示不会，然后还有后面的词云可视化，分词，语义分析等，都不太会。

一、思路

内容稍微有点多，大体思路如下，先将csv中的文本取出，之后使用停用词做分词处理，再做词云图，之后做情感分析。

1、将csv文件中的文本逐行取出，存新的txt文件，这里运行代码《读取csv文件中文本并存txt文档.py》进行实现，得到文件《职位表述文本.txt》

2、运行代码《使用停用词获取最后的文本内容.py》，得到使用停用词获取最后的文本内容，生成文件《职位表述文本分词后_outputs.txt》

3、运行代码《指定txt词云图.py》，可以得到词云图；

4、运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》，得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件，将《分词结果.txt》中的统计值可以去除，生成《情感分析用词.txt》，给第五步情感分析做准备

5、运行代码《情感分析.py》，得到情感分析的统计值，取平均值可以大致确认情感是正还是负。

二、实现过程

1.将csv文件中的文本逐行取出，存新的txt文件

这里运行代码《读取csv文件中文本并存txt文档.py》进行实现，得到文件《职位表述文本.txt》，代码如下。

# coding: utf-8

import pandas as pd

df = pd.read_csv('./职位描述.csv', encoding='gbk')

# print(df.head())

for text in df['Job_Description']:

# print(text)

if text is not None:

with open('职位表述文本.txt', mode='a', encoding='utf-8') as file:

file.write(str(text))

print('写入完成')

2.使用停用词获取最后的文本内容

运行代码《使用停用词获取最后的文本内容.py》，得到使用停用词获取最后的文本内容，生成文件《职位表述文本分词后_outputs.txt》，代码如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

import jieba

# jieba.load_userdict('userdict.txt')

# 创建停用词list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

return stopwords

# 对句子进行分词

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('stop_word.txt') # 这里加载停用词的路径

outstr = ''

for word in sentence_seged:

if word not in stopwords:

if word != 't':

outstr += word

outstr += " "

return outstr

inputs = open('职位表述文本.txt', 'r', encoding='utf-8')

outputs = open('职位表述文本分词后_outputs.txt', 'w', encoding='utf-8')

for line in inputs:

line_seg = seg_sentence(line) # 这里的返回值是字符串

outputs.write(line_seg + 'n')

outputs.close()

inputs.close()

关键节点，都有相应的注释，你只需要替换对应的txt文件即可，如果有遇到编码问题，将utf-8改为gbk即可解决。

3.制作词云图

运行代码《指定txt词云图.py》，可以得到词云图，代码如下：

from wordcloud import WordCloud

import jieba

import numpy

import PIL.Image as Image

def cut(text):

wordlist_jieba=jieba.cut(text)

space_wordlist=" ".join(wordlist_jieba)

return space_wordlist

with open(r"C:UserspdcfiDesktopxiaoming职位表述文本.txt" ,encoding="utf-8")as file:

text=file.read()

text=cut(text)

mask_pic=numpy.array(Image.open(r"C:UserspdcfiDesktopxiaomingpython.png"))

wordcloud = WordCloud(font_path=r"C:/Windows/Fonts/simfang.ttf",

collocations=False,

max_words= 100,

min_font_size=10,

max_font_size=500,

mask=mask_pic).generate(text)

image=wordcloud.to_image()

# image.show()

wordcloud.to_file('词云图.png') # 把词云保存下来

如果想用你自己的图片，只需要替换原始图片即可。这里使用Python底图做演示，得到的效果如下：

4.分词统计

运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》，得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件，将《分词结果.txt》中的统计值可以去除，生成《情感分析用词.txt》，给第五步情感分析做准备，代码如下：

#!/usr/bin/env python3

# -*- coding:utf-8 -*-

import sys

import jieba

import jieba.analyse

import xlwt # 写入Excel表的库

# reload(sys)

# sys.setdefaultencoding('utf-8')

if __name__ == "__main__":

wbk = xlwt.Workbook(encoding='ascii')

sheet = wbk.add_sheet("wordCount") # Excel单元格名字

word_lst = []

key_list = []

for line in open('职位表述文本.txt', encoding='utf-8'): # 需要分词统计的原始目标文档

item = line.strip('nr').split('t') # 制表格切分

# print item

tags = jieba.analyse.extract_tags(item[0]) # jieba分词

for t in tags:

word_lst.append(t)

word_dict = {}

with open("分词结果.txt", 'w') as wf2: # 指定生成文件的名称

for item in word_lst:

if item not in word_dict: # 统计数量

word_dict[item] = 1

else:

word_dict[item] += 1

orderList = list(word_dict.values())

orderList.sort(reverse=True)

# print orderList

for i in range(len(orderList)):

for key in word_dict:

if word_dict[key] == orderList[i]:

wf2.write(key + ' ' + str(word_dict[key]) + 'n') # 写入txt文档

key_list.append(key)

word_dict[key] = 0

for i in range(len(key_list)):

sheet.write(i, 1, label=orderList[i])

sheet.write(i, 0, label=key_list[i])

wbk.save('wordCount_all_lyrics.xls') # 保存为 wordCount.xls文件

得到的txt和excel文件如下所示：

5.情感分析的统计值

运行代码《情感分析.py》，得到情感分析的统计值，取平均值可以大致确认情感是正还是负，代码如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

from snownlp import SnowNLP

# 积极/消极

# print(s.sentiments) # 0.9769551298267365 positive的概率

def get_word():

with open("情感分析用词.txt", encoding='utf-8') as f:

line = f.readline()

word_list = []

while line:

line = f.readline()

word_list.append(line.strip('rn'))

f.close()

return word_list

def get_sentiment(word):

text = u'{}'.format(word)

s = SnowNLP(text)

print(s.sentiments)

if __name__ == '__main__':

words = get_word()

for word in words:

get_sentiment(word)

# text = u'''

# 也许

# '''

# s = SnowNLP(text)

# print(s.sentiments)

# with open('lyric_sentiments.txt', 'a', encoding='utf-8') as fp:

# fp.write(str(s.sentiments)+'n')

# print('happy end')

基于NLP 语义分析，程序运行之后，得到的情感得分值如下图所示：

将得数取平均值，一般满足0.5分以上，说明情感是积极的，这里经过统计之后，发现整体是积极的。

四、总结

我是Python进阶者。本文基于粉丝提问，针对一次文本处理，手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析，算是完成了一个小项目了。下次再遇到类似这种问题或者小的课堂作业，不妨拿本项目练练手，说不定有妙用噢，拿个高分不在话下！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

情感分析词云图 NLP python 语义分析 numpy pandas 网络爬虫

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇干货 | 全网最新最全Pyecharts可视化教程

下一篇遇到100万行的 Excel，还没打开，电脑和我都崩溃了，该怎么办？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

前言

一、思路

二、实现过程

四、总结

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】转置卷积后需要激活函数吗？深度学习实 ...

【CDA干货】搞懂算术平均与几何平均：什么时候用？ ...

CDA数据分析师：锚定数据治理驱动因素，筑牢数据价 ...

【CDA干货】Excel表外引用数据透视表数据：4种方法+ ...

【CDA干货】Excel相关性分析：从操作到解读，小白也 ...

CDA数据分析师必备：用应用效应分解法，解锁时间序 ...

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载