商务服务
基于 jieba 和 word_cloud 生成《人民的名义》小说词云
2024-10-31 22:14
基于 jieba 和 word_cloud 生成《人民的名义》小说词云

       由于词云在反映文本关键信息上的显著优势,在本文中,我选择结合实例为大家介绍一下 Python 中专门用来生成词云的一个库——word_cloud 。
       实例中的分析对象就选择为最近大火的电视剧《人民的名义》小说原著,通过词云来分析一下小说各具魅力的人物中,究竟谁的出场率最高,谁是真正的主角。
       考虑到 Word_Cloud 的默认处理对象是英文,对中文的分词效果不够理想,所以在实例中还用到了一个强大的中文分词组件——jieba ,在文章中也会给大家进行简单介绍。

基于 jieba 和 word_cloud 生成《人民的名义》小说词云

一、准备工作

1.1 word_cloud 介绍

       首先,为大家介绍一下 word_cloud 库的基本信息。word_cloud 是哥伦比亚大学的Andreas Müller 开发的基于 Python 的词云生成器,同时支持Python2 和 Python3 。 word_cloud 使用的词云生成算法简洁高效,支持任意形状的图片模板,可以自动生成配色。也可以对词云中单词的数量、配色、尺寸、排列方式等一系列参数进行自定义的设定。

       在word_cloud 库里,最重要的一个类是 WordCloud 。这个类中的属性包含了词云生成过程中的各项相关参数,方法中则包含了文本分词、词云的生成、绘制等一系列函数。首先,我们来看一下 WordCLoud 的属性

       可以看到,WordCloud这个函数有22个参数,能够设置词云生成过程中各个方面的参数,我们可以通过设定这些参数的取值来实现我们想要的效果。当然,这么多参数,我们只需要设置我们最关心的几个参数,其余参数取默认值就可以了。这里,简单介绍一下我们将要用到的几个重要参数

  • 第一个参数是 font_path,字体路径。这个参数用来选择生成词云中文字使用的字体。在Linux环境中,字体默认的是DroidSansMono,如果没有这个字体或者使用的是其他操作系统,都需要下载字体文件,对这个参数赋予字体所在路径。需要注意的是,由于默认字体是英文字体,我们在处理中文文本时,建议使用自己选择的汉字字体。在选择字体的过程中,最好选择字库比较完整的经典字体,如黑体、宋体等字体。若使用一些字库不够完整的特殊字体,容易出现词云中一些汉字无法显示的情况,影响效果。

  • 第二个参数是 mask ,模板图片。这个参数用来选择词云生成形状的模板。默认不设置情况下,生成词云会是一个矩形。选作模板的图片需要是一副二值图像。模板图像矩阵中,白色(#FF 或 #FFFFFF) 的元素位置会被排除,其余的元素位置会被单词填满。也就是说,使用一副黑白图像作为模板时,生成的词云是黑色部分的形状。输入的模板图片的格式支持常用格式如png、jpeg等。

  • 第三个参数是 max_words,最大单词数。顾名思义,这个参数决定了词云中显示的单词的总数上限,我们可以根据具体应用需求来设置这个参数的大小。类似的还有max_font_size(最大字体尺寸)、min_font_size(最小字体尺寸)、backgroud_color(背景颜色)等一系列功能明确的参数,可以根据需要自由设置,没有特殊的限制。

       关于 WordCloud 类的属性,以上的介绍已经可以满足我们的基本使用需要,接下来我们来了解一下 WordCloud 类中的主要方法。WordCloud 类中包含的方法如下所示

方法简介fit_words(frequencies)Create a word_cloud from words and frequenciesgenerate(text)Generate wordcloud from textgenerate_from_frequencies(frequencies[, …])Create a word_cloud from words and frequenciesgenerate_from_text(text)Generate wordcloud from textprocess_text(text)Splits a long text into words, eliminates the stopwordsrecolor([random_state, color_func, colormap])Recolor existing layoutto_array()Convert to numpy arrayto_file(filename)Export to image fileto_html()Export to html fileto_image()Export to image

       在这些方法函数中,本篇将会用到的函数主要是从文本中生成词云的函数 generate(text) 。函数的输入是txt格式的文本文件,输出最终的词云数据。这里需要注意的是,函数输入的文本文件对内容格式是有要求的。文本必须由一个个独立分隔开的词语构成,这样函数才可以对每个词语的出现频率进行统计,生成词云。

       在本篇的实例中,我们处理的对象是《人民的名义》小说文本,文本全部由句子构成,不能直接作为 generate 函数的输入值。因此,我们需要对由句子构成的文本进行”分词“的预处理。顾名思义,分词就是将句子分解成若干个独立的词汇。在上表中可以看到,WordCloud 类中提供了实现分词功能的函数 process_text(text)。但是这个函数的设计是主要面向英文文本的分词的,所以对中文的分词效果不能令人满意。

       为了解决分词的问题,本篇选择了中文分词工具库 jieba,下面就介绍一下jieba 相关的基本知识。

1.2 Jieba 介绍

       Jieba,也就是“结巴”中文分词,是一个非常强大且完善的中文分词组件。Jieba 库有很多语言的实现版本, Python 版本同时支持 Python2 和 Python3。

       Jieba的主要功能特性有以下几点

  • 支持三种分词模式

    • 精确模式,试图将句子最精确地切开,适合文本分析
    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  • 支持繁体分词

  • 支持自定义词典
  • MIT 授权协议

       Jieba能够实现分词、添加自定义词典、关键词提取、词性标注、并行分词、Tokenize返回词语在原文的起止位置、ChineseAnalyzer for Whoosh 搜索引擎、命令行分词等一系列非常丰富功能。在本篇当中,我们主要会用到分词、添加自定义词典和关键词提取的功能,下面分别介绍一下这三个功能的基本实现。

1.2.1 分词功能
  • jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
  • jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
  • 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
  • jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

代码示例


	
1.2.2 添加自定义词典功能
  • 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率
  • 用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
  • 词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略,用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
  • 词频省略时使用自动计算的能保证分出该词的词频。
1.3.3 关键词提取功能

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

  • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
  • sentence 为待提取的文本
  • topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
  • withWeight 为是否一并返回关键词权重值,默认值为 False
  • allowPOS 仅包括指定词性的词,默认值为空,即不筛选
  • jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

基于 TextRank 算法的关键词抽取

  • jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用,接口相同,注意默认过滤词性。
  • jieba.analyse.TextRank() 新建自定义 TextRank 实例
1.3 环境搭建

       在对 word_cloud 和 jieba 两个库有了基本的了解之后,我们来学习一下两个库的安装和相关环境的搭建。

1.3.1 word_cloud 的安装
  • 快速安装(使用pip指令):

    pip install wordcloud

  • 使用anaconda安装:

    conda install -c https://conda.anaconda.org/amueller wordcloud

  • 手动安装-软件包获取:

    wget https://github.com/amueller/word_cloud/archive/master.zip
    unzip master.zip
    rm master.zip
    cd word_cloud-master

  • 软件包安装:

    python setup.py install

1.3.2 jieba 的安装
  • 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba
    • 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
    • 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
    • 通过 import jieba 来引用
1.3.3 Anaconda 的使用

       个人在这里推荐使用 Anaconda 来配置 Python 开发环境。
Anaconda是专注于数据分析的Python发行版本,包含了conda、Python等190多个科学包及其依赖项。而conda 是开源包(packages)和虚拟环境(environment)的管理系统。

  • packages 管理: 可以使用 conda 来安装、更新 、卸载工具包 ,并且它更关注于数据科学相关的工具包。在安装 anaconda 时就预先集成了像 Numpy、Scipy、 pandas、Scikit-learn 这些在数据分析中常用的包。另外值得一提的是,conda 并不仅仅管理Python的工具包,它也能安装非python的包。比如在新版的 Anaconda 中就可以安装R语言的集成开发环境 Rstudio。
  • 虚拟环境管理: 在conda中可以建立多个虚拟环境,用于隔离不同项目所需的不同版本的工具包,以防止版本上的冲突。对纠结于 Python 版本的同学们,我们也可以建立 Python2 和 Python3 两个环境,来分别运行不同版本的 Python 代码。

       Anaconda通过管理工具包、开发环境、Python版本,大大简化了工作流程。不仅可以方便地安装、更新、卸载工具包,而且安装时能自动安装相应的依赖包,同时还能使用不同的虚拟环境隔离不同要求的项目。

       如果想要安装Anaconda的话,可以通过官网下载页面下载 Anaconda 的安装程序以及查看安装说明,在这里就不再赘述了。

1.4 实现思路

       在完成基础知识了解和环境配置后,我们可以来思考一下具体的实现过程了。


       我们的目标是生成《人民的名义》小说词云,我们希望词云中的词汇只有角色的名字,没有其他无关词汇,这样才能更好地反映出角色的比重。


       我们的处理对象是从网络获得的《人民的名义》小说 txt 文件,编码格式为 utf-8 ,字符数为268375。


       根据之前的基础知识,我们不难获得整个程序的实现思路

  1. 分词
    • 小说文本整体分词
    • 构建自定义人名词典
    • 筛选关键词
  2. 生成词云,绘制图片

       因此,我们只需要设计两个函数。第一个函数是分词函数,用来实现小说的整体分词和人名筛选等功能,获得只包含人名的分词结果。第二个函数就是词云生成函数,使用分词函数的分词结果作为输入,对词云的模板、词量等参数进行设置,输出最终的词云结果,并保存为图片文件。

二、程序设计

2.1 库的导入

       首先,程序的开始我们要声明编码方式,并导入需要用到的库文件,代码如下

       可以看到,我们引入了 codecs,是为了使用 codecs.open() 函数打开文本文件,引用了jieba.analyse 是为了调用其中的 extract_tags 函数来实现关键词的筛选。值得注意的是,在这里,我加载了自定义字典文件 “namedict.txt”。在这个字典文件中,依照温暖的文档要求的格式,记录了21个小说中人物角色的姓名,并标注词性为”nr“,代表名字。下面是部分示例。

侯亮平 nr

沙瑞金 nr

祁同伟 nr

李达康 nr

高育良 nr

       通过这个自定义词典的加载,我们可以保证分词过程中,角色名字可以正确完整地被分割出来,并且可以根据词性”nr“,将所有名字筛选出来。

2.2 分词函数的实现
2.3 词云生成函数的实现
2.4 函数的调用

       两个主要函数定义完成后,就可以设置小说文本路径,直接调用词云生成函数生成词云了。

       这里需要的代码也很简单,如下所示

三、实践结果

将上述代码编写到一个Python文件txtwc.py中,如下所示:

运行文件,得到结果如下图所示


    以上就是本篇文章【基于 jieba 和 word_cloud 生成《人民的名义》小说词云】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/4616.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
【百度移动推广
  移动互联网时代:百度为您创造新的营销价值  CNNIC发布的第31次统计报告显示:截至2012年12月底,我国有4.2亿的移动网民,
Nginx重写功能和反向代理的用法详解
1.1 if 指令用于条件匹配判断,并根据条件判断结果选择不同的Nginx配置,可以配置在server或location块中进行配置,Nginx的if语
上门预约服务APP+H5+小程序平台搭建
构建一站式健康理疗平台:深度解析多元化服务、源码交付与智能预约的APP+H5+小程序综合解决方案随着健康意识的不断提高,人们对
qq聊天的搞笑段子
  超有幽默感的段子,经典内涵搞笑段子大全能笑死人的,我们通过交流说话来使用这些段子。接下来就是学习啦小编为你精心准备的
PHP REST API 极光推送
极光自年成立以来专注于为app提供稳定的开发者服务。 极光产品覆盖了中国国内90%的移动终端。 基于积累的海量数据,拓展了
word标题大纲级别_论文标题目录和图表自动生成的方法!
目录作为论文的导读图,与文章内容一一对应,一篇论文,通常会有各级各类标题,当内容的层次较多时
中国人导致死亡的10大原因
中国人导致死亡的10大原因 常见食物对常见病的影响 十字花科蔬菜包含花菜、西兰花(青花菜)、小洋白菜、白菜、卷心菜等,具有最强
一款简易大众点评项目实战——解决Session不一致、缓存问题
黑马点评是⼀个大量使用Redis的项目,该项目的功能类似大众点评 前端界面: 数据库表: 后端代码:conf
不忘初心 牢记使命
  1.《共产党员如何不忘初心牢记使命》  党的十九大报告指出:“不忘初心,方得始终。中国共产党人的初心和使命,就是为中国
Neutron 理解 (1): Neutron 所实现的网络虚拟化
特别说明:本文于2015年基于OpenStack M版本发表于本人博客,现转发到公众号。因为时间关系,本文部分内容可能已过时甚至不正确
本企业新闻

点击拨打: