热门推荐
python使用jieba模块进行文本分析和搜索引擎推广“旅行青蛙”数据分析实战
2024-10-31 22:10
  • cut() 切割
  • 在这里插入图片描述
    遍历一遍

    python使用jieba模块进行文本分析和搜索引擎推广“旅行青蛙”数据分析实战

    在这里插入图片描述

  • lcut() 切割并列表化
  • 在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述
    普通分词结果

    在这里插入图片描述
    注意:自定义词典文本文件,如果使用Windows记事本编辑,读入Python列表时会带有文件头BOM,应该用高级编辑器去除

    在这里插入图片描述

    在这里插入图片描述

  • 方法2升级:输入路径直接应用自定义词典
  • 在这里插入图片描述

    在这里插入图片描述

  • 两个词错误的分为1个词,删除词实现正确分词
  • 删除jieba自带的词(不同于去停用词,不是删除词,而是重新分词)

    在这里插入图片描述

  • 增加jieba的词
  • 增加jieba的词,和自定义词典相比它可以动态增加词

    在这里插入图片描述

  • 恢复原状
  • 在这里插入图片描述

  • 调节词的词频
  • 在这里插入图片描述
    调整的词以字符串形式输入

    在这里插入图片描述
    恢复jieba到原始状态

    在这里插入图片描述

  • 与上面相反,当一个字符串不是词,jieba误将其分为词,或者我们不想将某些不重要的词分出来(想删掉某些分出的词)可以自定义停用词词典
  • 停用词就是要从分词结果删掉的垃圾无用词
  • 词典中的词不会出现在分词结果中
  • 停用词词典的内容可以根据项目不断增加
  • 原始代码

    普通分词

    在这里插入图片描述

  • 去停用词功能jieba不带,需自行实现。下面是实现
  • 先载入停用词

    特殊字符恢复成功
    在这里插入图片描述

  • 去停用词,第一步,求差集
  • 在这里插入图片描述

  • 第二步:去掉1个字以下的词
  • 在这里插入图片描述

    python使用jieba实现中文分词去停用词方法示例

    1 精确模式,试图将句子最精确地切开,适合文本分析;

    2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

    3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    输出的值由于是cut方法,需要列表化输出

    在这里插入图片描述

    抽取文档关键词用于在一篇文章中获取其核心内容(描述了什么?),又叫 生成摘要、打标签、关键词提取等

  • 词在文本中出现的次数(频次),某种程度上能当做文本的标签,表示文本内容
  • 不是很精准
  • 统计前最好先去完成自定义词典和去停用词的前期操作
  • 源数据

    在这里插入图片描述

  • 方法1 : 转换为Series结构
  • 在这里插入图片描述

  • 方法2:转换成Dataframe结构
  • 载入文本数据

    在这里插入图片描述

    6.2.1 方式1:使用词频方式提取关键词

  • 按3,4,5步骤走一遍
  • 在这里插入图片描述

  • 统计词频
  • 在这里插入图片描述

  • 保存结果
  • 在这里插入图片描述

  • 局限性:统计词频作为文档关键字的准确性不高,还可使用下面的方式
  • TF-IDF算法 Text-Rank算法 注:TF-IDF和Text-Rank算法运行都不需要手动去停用词,可以用内置函数自动去停用词

    6.2.2 方式2:使用TF-IDF权重算法提取关键词(注重信息量)

    TF-IDF权重:

  • 一个词信息量大小的衡量
  • 在本文章出现的次数多,在通用文档库出现的次数少,就是重要词

  • 首先,应用自定义词典
  • 然后,去除停用词,系统自带,给抽取关键字用
  • 在这里插入图片描述
    -不需要手动分词,方法会自动分词后抽取关键字

    在这里插入图片描述

  • 查看详细参数
  • 在这里插入图片描述

    6.2.3 方式3:Text-Rank算法(注重文本)

  • 词性标注
  • 在这里插入图片描述

    在这里插入图片描述

    安装 WordCloud库

    如系统未安装C++编译库,WordCloud库需要下载whl再使用pip安装
    http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
    命令行本地安装:pip install e:/wordcloud‑1.8.0‑cp37‑cp37m‑win_amd64.whl

    需要用的库

  • 数据载入、分词并转化成文本
  • 注意:不用print输出会看见换行符“ ”,例如这样
  • 在这里插入图片描述
    比较稳妥的写法:

    在这里插入图片描述

  • 载入停用词
  • 在这里插入图片描述

  • 基本版词云
  • 在这里插入图片描述

  • 词云优化
  • 在这里插入图片描述

    使用的背景

    在这里插入图片描述

  • 插入背景
  • 在这里插入图片描述

  • 根据百度指数热门程度判断游戏流行时间和流行度
  • 数据获取:抓取百度新闻 旅行青蛙 (按标题或内容查询)关键字的文字标题和相关信息
  • 百度指数:http://index.baidu.com/
  • 百度新闻:http://news.baidu.com/
  • 数据获取
  • 爬虫:抓取内容,百度新闻
  • 标题
  • 来源
  • 时间,精确到日
  • 数据清洗:先抓取数据保存,然后再进行清洗
  • 字符串清理规整建议使用Python原生字符串处理函数实现
  • 例如:join(),replace(),split(),remove(),append()等等
  • 非结构化数据分析
  • 分词
  • 词云
  • 结构化数据分析
  • Pandas数据预处理和数据分析
  • 分组聚合
  • 可视化
  • 导入可能需要的库

    8.4.1 百度指数 数据手动录入后生成表格

  • 在百度指数中输入关键词,卡特定的时间,手动输入数据
  • 生产dataframe结构
  • 在这里插入图片描述

  • 保存数据
  • 在这里插入图片描述

  • 读取数据
  • 在这里插入图片描述

  • 检查数据类型
  • 在这里插入图片描述

    在这里插入图片描述

    8.4.2 百度新闻 内容数据抓取

  • 具体实施:
  • 根据百度指数热门程度直观分析,抓取百度新闻 旅行青蛙 (按时间排序,媒体网站)关键字的文字标题和相关信息,
    时间从 2018-1-15到2018-2-18日
  • 目前是(临时使用):新闻页码1-11,每页10条,一共11页(页码pn参数值为0-100)
  • 随着时间变化,新闻增加,抓取页码也应该跟着变化
  • 测试一下目标网址页数和pn值的关系是否对应

    是有一定数量关系的
    在这里插入图片描述
    在这里插入图片描述

  • 锁定目标抓取数据
  • 需要注意的小问题

    1. 抓取的数据本身如果有空格,在编译的时候会输出字符xa0 ,使用join和split的组合方法去掉
    2. 在这里插入图片描述
      想要的输出的结果:
      在这里插入图片描述

      1. 使用过beautifulsoup模块下的select方法会输出特定标签下的所用文本
      2. 例如该标签下的所有文本中,仍然有标签,而且标签内还有文本,也会一个输出
        在这里插入图片描述
        输出的效果:时间和摘要连在了一起
        在这里插入图片描述

        1. select方法会输出特定标签下的所用文本,而且输出的是列表值,如果要对select后找到的标签继续查找,可以将“这个列表”的元素抽出来继续查找
        2. 例如:
          在列表后面命令输出第0个值

          在这里插入图片描述

          1. 有时候匹配找到的标签下面没有值,但代码依然是命令赋值给对象,但原本就已经找不到,还赋值的话就会报错,如:
          2. 解决方法是增加try except语句,如果报错就添加特定字符,如:

          3. 抓取数据写法1(不建议):将所有特定标签找出来,放在对应的列表,但可能会出现标签与标签之间数据量不一样的情况,如:
            在这里插入图片描述
            由于方法存在缺陷,有些值并没有抓取。。。。。 这里仅展示部分完成的代码
          4. 得到的数据其实并不相等,而且随着页数的增加,更难去手动添加,对于这个问题,推荐使用方法2
            在这里插入图片描述

          5. 爬取方法2(推荐):匹配每一个文章块标签(包含了每个部分想找的东西的标签),同时创建的空字典中,如果键值为空,先赋值一个空列表,如:
          6.     以上就是本篇文章【python使用jieba模块进行文本分析和搜索引擎推广“旅行青蛙”数据分析实战】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/4461.html 
                 行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多