热门推荐
手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析
2024-10-31 19:54

点击上方“Python爬虫与数据挖掘,进行关注

手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

回复“书籍”即可获赠Python从入门到进阶共10本电子书

苍苍竹林寺,杳杳钟声晚。

大家好,我是Python进阶者。

前几天星耀群有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题,如下图所示。

71ed77aa25070cf782fee9b5655bc4be.png他要构建语料库,目前通过Python网络爬虫抓到的数据存在一个csv文件里边,现在要把数据放进txt里,表示不会,然后还有后面的词云可视化,分词,语义分析等,都不太会。

关于词云的文章,历史文章已经写了十几篇了,感兴趣的话可以在公众号历史文章搜索关键字“词云”前往,但是关于分词和语义分析的文章,就分享过一篇,这个我在读研的时候写的,虽然有些时日,但是内容依旧精彩,欢迎前往查探:Python大佬分析了15万歌词,告诉你民谣歌手们到底在唱什么。

内容稍微有点多,大体思路如下,先将csv中的文本取出,之后使用停用词做分词处理,再做词云图,之后做情感分析。

1、将csv文件中的文本逐行取出,存新的txt文件,这里运行代码《读取csv文件中文本并存txt文档.py》进行实现,得到文件《职位表述文本.txt》

2、运行代码《使用停用词获取最后的文本内容.py》,得到使用停用词获取最后的文本内容,生成文件《职位表述文本分词后_outputs.txt》

3、运行代码《指定txt词云图.py》,可以得到词云图

4、运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》,得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件,将《分词结果.txt》中的统计值可以去除,生成《情感分析用词.txt》,给第五步情感分析做准备

5、运行代码《情感分析.py》,得到情感分析的统计值,取平均值可以大致确认情感是正还是负。

35e0a7dcea52ad8b9abc7a3406238cd6.png
1.将csv文件中的文本逐行取出,存新的txt文件

这里运行代码《读取csv文件中文本并存txt文档.py》进行实现,得到文件《职位表述文本.txt》,代码如下。

2.使用停用词获取最后的文本内容

运行代码《使用停用词获取最后的文本内容.py》,得到使用停用词获取最后的文本内容,生成文件《职位表述文本分词后_outputs.txt》,代码如下

关键节点,都有相应的注释,你只需要替换对应的txt文件即可,如果有遇到编码问题,将utf-8改为gbk即可解决。

3.制作词云图

运行代码《指定txt词云图.py》,可以得到词云图,代码如下

如果想用你自己的图片,只需要替换原始图片即可。这里使用Python底图做演示,得到的效果如下

80284b55fbf7ae818e52057fae826fbe.png
4.分词统计

运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》,得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件,将《分词结果.txt》中的统计值可以去除,生成《情感分析用词.txt》,给第五步情感分析做准备,代码如下

得到的txt和excel文件如下所示

eb7213b372ee028a9d4858169817e585.png
5.情感分析的统计值

运行代码《情感分析.py》,得到情感分析的统计值,取平均值可以大致确认情感是正还是负,代码如下

基于NLP语义分析,程序运行之后,得到的情感得分值如下图所示

9cb53138b7c614b5d4e6f278df842c04.png将得数取平均值,一般满足0.5分以上,说明情感是积极的,这里经过统计之后,发现整体是积极的。

我是Python进阶者。本文基于粉丝提问,针对一次文本处理,手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析,算是完成了一个小项目了。下次再遇到类似这种问题或者小的课堂作业,不妨拿本项目练练手,说不定有妙用噢,拿个高分不在话下

最后感谢粉丝【小明】提问,感谢【🌑(这是月亮的背面)】、【Python进阶者】大佬解惑,感谢【冫马讠成】大佬提供积极参与。

78d40bff7a3cec8f615f1d651fb698c3.png

    小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

f88cc7a609abf78995d829876deab958.png

------------------- End -------------------

往期精彩文章推荐

  • 手把手教你JS逆向搞定字体反爬并获取某招聘网站信息

  • Python处理超强反爬(TSec防火墙+CSS图片背景偏移定位)

  • 如何用Python下载百度指数的数据

  • 分享一次实用的爬虫经验

4b3a586c84d31fb6493233923ae043d1.png

欢迎大家点赞留言转发转载感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

    以上就是本篇文章【手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/646.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多