最新动态
Python中怎么使用Jieba进行词频统计与关键词提取
2024-10-31 23:44

1.1 简单词频统计

1.导入jieba库并定义文本

Python中怎么使用Jieba进行词频统计与关键词提取

2.对文本进行分词

这一步会将文本分成若干个词语,并返回一个生成器对象words,可以使用for循环遍历所有的词语。

3. 统计词频

这一步通过遍历所有的词语,统计每个词语出现的次数,并保存到一个字典word_count中。在统计词频时,可以通过去除停用词等方式进行优化,这里只是简单地过滤了长度小于2的词语。

立即学习“Python免费学习笔记(深入)”;

4. 结果输出

Python中怎么使用Jieba进行词频统计与关键词提取

1.2 加入停用词

为了更准确地统计词频,我们可以在词频统计中加入停用词,以去除一些常见但无实际意义的词语。具体步骤如下:

定义停用词列表

对文本进行分词,并过滤停用词

统计词频并输出结果

加入停用词后,输出的结果是:

Python中怎么使用Jieba进行词频统计与关键词提取

可以看到,被停用的一种这个词并没有显示出来。

2.1 关键词提取原理

与对词语进行单纯计数的词频统计不同,jieba提取关键字的原理是基于TF-IDF(Term Frequency-Inverse document Frequency)算法。TF-IDF算法是一种常用的文本特征提取方法,可以衡量一个词语在文本中的重要程度。

具体来说,TF-IDF算法包含两个部分:

TF-IDF算法通过综合考虑词频和逆文档频率,计算出每个词在文本中的重要程度,从而提取关键字。在jieba中,关键字提取的具体实现包括以下步骤:

举个例子:F(Term Frequency)指的是某个单词在一篇文档中出现的频率。计算公式如下:T F = ( 单词在文档中出现的次数 ) / ( 文档中的总单词数 ) 例如,在一篇包含100个单词的文档中,某个单词出现了10次,则该单词的TF为10 / 100 = 0.1 IDF(Inverse document Frequency)指的是在文档集合中出现某个单词的文档数的倒数。计算公式如下:I D F = l o g ( 文档集合中的文档总数 / 包含该单词的文档数 ) 例如,在一个包含1000篇文档的文档集合中,某个单词在100篇文档中出现过,则该单词的IDF为 l o g ( 1000 / 100 ) = 1.0TFIDF是将TF和IDF相乘得到的结果,计算公式如下:T F I D F = T F ∗ I D F

需要注意的是,TF-IDF算法只考虑了词语在文本中的出现情况,而忽略了词语之间的关联性。因此,在一些特定的应用场景中,需要使用其他的文本特征提取方法,例如词向量、主题模型等。

2.2 关键词提取代码

在这个示例中,我们首先导入了jieba.analyse模块,然后定义了一个待提取关键字的文本text。接着,我们使用jieba.analyse.extract_tags()函数提取关键字,其中topK参数表示需要提取的关键字个数,withWeight参数表示是否返回关键字的权重值。最后,我们遍历关键字列表,输出每个关键字和对应的权重值。
这段函数的输出结果为:

Python中怎么使用Jieba进行词频统计与关键词提取

    以上就是本篇文章【Python中怎么使用Jieba进行词频统计与关键词提取】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/5738.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多