点击上方“Python爬虫与数据挖掘”,进行关注
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
苍苍竹林寺,杳杳钟声晚。
大家好,我是Python进阶者。
前几天星耀群有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题,如下图所示。
他要构建语料库,目前通过Python网络爬虫抓到的数据存在一个csv文件里边,现在要把数据放进txt里,表示不会,然后还有后面的词云可视化,分词,语义分析等,都不太会。
关于词云的文章,历史文章已经写了十几篇了,感兴趣的话可以在公众号历史文章搜索关键字“词云”前往,但是关于分词和语义分析的文章,就分享过一篇,这个我在读研的时候写的,虽然有些时日,但是内容依旧精彩,欢迎前往查探:Python大佬分析了15万歌词,告诉你民谣歌手们到底在唱什么。
内容稍微有点多,大体思路如下,先将csv中的文本取出,之后使用停用词做分词处理,再做词云图,之后做情感分析。
1、将csv文件中的文本逐行取出,存新的txt文件,这里运行代码《读取csv文件中文本并存txt文档.py》进行实现,得到文件《职位表述文本.txt》
2、运行代码《使用停用词获取最后的文本内容.py》,得到使用停用词获取最后的文本内容,生成文件《职位表述文本分词后_outputs.txt》
3、运行代码《指定txt词云图.py》,可以得到词云图;
4、运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》,得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件,将《分词结果.txt》中的统计值可以去除,生成《情感分析用词.txt》,给第五步情感分析做准备
5、运行代码《情感分析.py》,得到情感分析的统计值,取平均值可以大致确认情感是正还是负。
1.将csv文件中的文本逐行取出,存新的txt文件
这里运行代码《读取csv文件中文本并存txt文档.py》进行实现,得到文件《职位表述文本.txt》,代码如下。
2.使用停用词获取最后的文本内容
运行代码《使用停用词获取最后的文本内容.py》,得到使用停用词获取最后的文本内容,生成文件《职位表述文本分词后_outputs.txt》,代码如下:
关键节点,都有相应的注释,你只需要替换对应的txt文件即可,如果有遇到编码问题,将utf-8改为gbk即可解决。
3.制作词云图
运行代码《指定txt词云图.py》,可以得到词云图,代码如下:
如果想用你自己的图片,只需要替换原始图片即可。这里使用Python底图做演示,得到的效果如下:
4.分词统计
运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》,得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件,将《分词结果.txt》中的统计值可以去除,生成《情感分析用词.txt》,给第五步情感分析做准备,代码如下:
得到的txt和excel文件如下所示:
5.情感分析的统计值
运行代码《情感分析.py》,得到情感分析的统计值,取平均值可以大致确认情感是正还是负,代码如下:
基于NLP语义分析,程序运行之后,得到的情感得分值如下图所示:
将得数取平均值,一般满足0.5分以上,说明情感是积极的,这里经过统计之后,发现整体是积极的。
我是Python进阶者。本文基于粉丝提问,针对一次文本处理,手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析,算是完成了一个小项目了。下次再遇到类似这种问题或者小的课堂作业,不妨拿本项目练练手,说不定有妙用噢,拿个高分不在话下!
最后感谢粉丝【小明】提问,感谢【🌑(这是月亮的背面)】、【Python进阶者】大佬解惑,感谢【冫马讠成】大佬提供积极参与。
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。
------------------- End -------------------
往期精彩文章推荐:
手把手教你JS逆向搞定字体反爬并获取某招聘网站信息
Python处理超强反爬(TSec防火墙+CSS图片背景偏移定位)
如何用Python下载百度指数的数据
分享一次实用的爬虫经验
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
以上就是本篇文章【手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/646.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多