1.TF-IDF提取关键词
2.摘要提取
2.1 基于关键词匹配的摘要提取
2.2基于关键词评分的摘要提取
TF-IDF是Term Frequency - Inverse document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。TF为词频,即某个词在文章中出现的次数。
IDF为逆文档频率:
TF-IDF的计算为:
TF_IDF提取关键词的步骤就是,对文本先进行分词处理,再对每一个词计算TF-IDF值,然后按降序排序,取排在最前面的几个词。
参考文献:TF-IDF与余弦相似性的应用(一):自动提取关键词 阮一峰
算法思想来自于阮一峰 TF-IDF与余弦相似性的应用(三):自动摘要
我们要做的是对对话文本进行摘要提取。
对话文本实例:
(1)文本预处理
文本预处理时将比较短的文本过滤掉,我们设置的字符个数为7,然后每一个对话句子作为一个sentence.
(2)TF-IDF提取关键词
我们直接调用的结巴的接口,提取了6个关键词
(3)匹配句子
根据关键词去匹配每一个sentence,并且只考虑关键词首先出现的句子。最多提取5个句子。
运行结果:
以上就是本篇文章【自动提取摘要】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/3716.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多