NLP基本工具之jieba：关键词提取、词性标注 - 迅博思语资讯移动站

业界动态

NLP基本工具之jieba：关键词提取、词性标注

2024-11-01 00:56

jieba除了上一篇介绍的基本功能--分词之外，还可以进行关键词提取以及词性标注。

NLP基本工具之jieba：关键词提取、词性标注

使用：

importjieba # 导入 jieba

importjieba.analyse as anls #关键词提取

importjieba.posseg as pseg #词性标注

其中，关键词提取有两种算法：

第一种是TF-IDF算法（Term Frequency-Inverse document Frequency, 词频-逆文件频率），其基本思想为：一个词语在一篇文章中出现次数越多，同时在所有文档中出现次数越少，越说明该词语能够代表该文章。

第二种是TextRank算法，基本思想：

代码：

TF-IDF: jieba.analyse.extract_tags(sentence,topK=20, withWeight=True, allowPOS=())

TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=True)

其中，topK是输出多少个关键词，withWeight是否输出每个关键词的权重。

输入语句“jieba除了最重要的功能--分词之外，还可以进行关键词提取以及词性标注”：

TF-IDF输出的关键词:

词性 0.91

jieba0.85

-- 0.85

分词 0.84

标注 0.66

关键词 0.64

提取 0.54

之外 0.42

功能 0.39

除了 0.37

重要 0.29

以及 0.29

进行 0.27

可以 0.25

TextRank输出的关键词:

词性 1.00

提取 0.99

关键词 0.99

功能 0.90

分词 0.90

进行 0.76

标注 0.75

相对而言，TextRank输出的关键词更规整一些。

词性标注

使用jieba.posseg进行词性的标注。

代码：

importjieba.posseg

words =jieba.posseg.cut("我来到北京清华大学")

for x, win words:

print('%s %s' % (x, w))

输出：

我 r

来到 v

以上就是本篇文章【NLP基本工具之jieba：关键词提取、词性标注】的全部内容了，欢迎阅览！文章地址：http://dfvalve.xrbh.cn/news/8764.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多

最新新闻

“撒旦”人血鞋？碰瓷新疆棉花的耐克，又开始喊冤了？

继主动碰瓷新疆棉花把自己搞得股价大跌之后耐克秉承着“no zuo no die”的精神又开始暗搓搓搞“阴间操作”限量发售含人血的“撒

tiktok怎么搭建外网详细教程及步骤

TikTok怎么搭建外网（详细教程及步骤）TikTok是一款非常流行的短视频社交应用程序，它在全球范围内拥有数亿用户。在使用TikTok的

《以案释法》步数越多，收益越高？别被“走路也能赚钱”的理财广告忽悠了

　　走路也能赚到钱的理财　　“丑的人还在睡觉，美的人已经跑出一杯星巴克了。”2016年的一天，一个女孩晒出的朋友圈截图引起了

如何用生意参谋算出同行店铺真实销售额

怎么经过生意顾问算出同行店肆实在销售额?大多数在淘宝天猫工作过的人都知道，他们的背景显现了同行商铺的买卖数据，这被称为买

一款最近比较火的网站统计分析系统，易分析具有什么样的功能呢？

一、产品简介北京普艾斯科技有限公司成立于2009年，服务客户1000+，包括电商、金融、保险、政务服务等行业。私有化部署，全渠道

向佐快乐大本营2024年精彩回顾：四年时光共欢笑

张大大谢娜力捧下的综艺新星张大大一位在娱乐圈中颇具人气的主持人他的成名之路离不开谢娜的提携回顾张大大的成名之路可以说谢娜

PingTools app

《PingTools app》是一款非常好用的实用工具软件，软件内拥有丰富的功能，包含了包括浏览器扫描等。使用非常简单，直接下载安装

抖音能看到谁搜索过自己吗？

尊敬的用户，您好。针对抖音平台是否能够查看谁搜索过自己的问题，我们需要做一些详细说明。首先，根据我们了解到的情况，在抖音

什么是人工智能“语料库”？为什么每个人都在谈论它？

编者按：比尔盖茨（Bill Gates）、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”，现在是时候了解它是“何方神圣”

LED行业词语中英对应

1、led 灯具构成英文led 球泡灯：led bulbLed 贴片灯珠：SMD LEDLed驱动电源：led driver隔离电源：isolated driver非隔离电源：

本企业新闻

推荐企业新闻

信息检索的技术趋势：如何利用深度学习和大数据

四年级作文推荐一个好地方400字左右桂林7篇

《汉字找茬王》嘚找出20个字通关攻略

Elasticsearch(ES)的用法

1、intitle：关键词包含在标题中（左：未加限定词右：加了限定词）

Nginx配置入门(四)：用HTTP代理模块配置反向代理服务器

干货｜最科学的跑步计划表，具体到每天怎么跑，初跑者看完立马变成老司机

httpd反向代理实践（二）

军事体能测评项目成绩标准（暂行）进入阅读模式

人物百度百科怎么创建？创建人物百科需要准备什么？

点击拨打：