遍历一遍
普通分词结果
注意:自定义词典文本文件,如果使用Windows记事本编辑,读入Python列表时会带有文件头BOM,应该用高级编辑器去除
删除jieba自带的词(不同于去停用词,不是删除词,而是重新分词)
增加jieba的词,和自定义词典相比它可以动态增加词
调整的词以字符串形式输入
恢复jieba到原始状态
原始代码
普通分词
先载入停用词
特殊字符恢复成功
python使用jieba实现中文分词去停用词方法示例
1 精确模式,试图将句子最精确地切开,适合文本分析;
2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
输出的值由于是cut方法,需要列表化输出
抽取文档关键词用于在一篇文章中获取其核心内容(描述了什么?),又叫 生成摘要、打标签、关键词提取等
源数据
载入文本数据
6.2.1 方式1:使用词频方式提取关键词
TF-IDF算法 Text-Rank算法 注:TF-IDF和Text-Rank算法运行都不需要手动去停用词,可以用内置函数自动去停用词
6.2.2 方式2:使用TF-IDF权重算法提取关键词(注重信息量)
TF-IDF权重:
在本文章出现的次数多,在通用文档库出现的次数少,就是重要词
-不需要手动分词,方法会自动分词后抽取关键字
6.2.3 方式3:Text-Rank算法(注重文本)
安装 WordCloud库
如系统未安装C++编译库,WordCloud库需要下载whl再使用pip安装
http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
命令行本地安装:pip install e:/wordcloud‑1.8.0‑cp37‑cp37m‑win_amd64.whl
需要用的库
比较稳妥的写法:
使用的背景
导入可能需要的库
8.4.1 百度指数 数据手动录入后生成表格
8.4.2 百度新闻 内容数据抓取
时间从 2018-1-15到2018-2-18日
测试一下目标网址页数和pn值的关系是否对应
是有一定数量关系的
需要注意的小问题
- 抓取的数据本身如果有空格,在编译的时候会输出字符xa0 ,使用join和split的组合方法去掉
- 使用过beautifulsoup模块下的select方法会输出特定标签下的所用文本
- select方法会输出特定标签下的所用文本,而且输出的是列表值,如果要对select后找到的标签继续查找,可以将“这个列表”的元素抽出来继续查找
- 有时候匹配找到的标签下面没有值,但代码依然是命令赋值给对象,但原本就已经找不到,还赋值的话就会报错,如:
- 抓取数据写法1(不建议):将所有特定标签找出来,放在对应的列表,但可能会出现标签与标签之间数据量不一样的情况,如:
由于方法存在缺陷,有些值并没有抓取。。。。。 这里仅展示部分完成的代码 - 爬取方法2(推荐):匹配每一个文章块标签(包含了每个部分想找的东西的标签),同时创建的空字典中,如果键值为空,先赋值一个空列表,如: 以上就是本篇文章【python使用jieba模块进行文本分析和搜索引擎推广“旅行青蛙”数据分析实战】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/4461.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多
想要的输出的结果:
例如该标签下的所有文本中,仍然有标签,而且标签内还有文本,也会一个输出
输出的效果:时间和摘要连在了一起
例如:
在列表后面命令输出第0个值
解决方法是增加try except语句,如果报错就添加特定字符,如:
得到的数据其实并不相等,而且随着页数的增加,更难去手动添加,对于这个问题,推荐使用方法2