最新动态
论文阅读上
2024-10-31 19:41

2021SC@SDUSC

论文阅读上


提出无监督的关键词提取模型,能够将文章的主题信息编码到多部图的结构当中。这个模型将候选关键词和主题(keyphrase candidates and topics)表示到一个简单图当中,并且利用它们之间的相互加强关系来提高候选词的排名(rank)。并且更进一步的,模型融入了一种新的机制,能够将首选关键词(keyphrase selection preferences)融入到模型当中。在三个广泛使用的数据集上进行的实验表明,与最先进的基于图形的模型相比,有显著的改进。

已有的对于自动关键词提取的方法中,基于图的方法很具有吸引力,因为能够在保持完全无监督的情况下提供强大的性能。
通常这种方法有两个步骤
1、构建文档的图形表示,其中节点是词汇单元(通常是单词), 边是它们的语义关系
2、使用图论的方法对节点进行排序,从排名靠前的节点中形成关键词

以往的方法关注点
将排名函数偏向于主题分布(biasing the ranking function towards topic distributions
1、集中于测量节点之间的语义关联性
2、设计节点的排序函数

局限性
1、时间复杂度问题。先前的工作汇总多个偏向主题(topic-biased)的排名,对于长文档该方法难以使用
2、难以获得单词的主题分布。需要一个大型数据集来估计单词的主题分布,但这些分布并不总是可用或容易获得的。
3、前提是假设主题彼此独立的,很难确保主题的多样性。

先前的模型实例
topicRank graph
从排名靠前的里面选择关键短语(keyphrase)
主题之间的关系是他们实例化的关键词之间的语义关联性
在这里插入图片描述
优点:被证明可以提高总体排名并最大化主题覆盖率
不足:属于单个主题的候选关键词被视为是同等重要的,所以需要用post-ranking heuristics方法去选择出最具代表性的关键词。

目前,很少有人注意使用不同类型的图形。然而,关键词提取的一个关键挑战是确保主题覆盖率和多样性,而这并不是自然地由词图表示来处理的。

在该模型的基础上,提出新的模型。基于多部图的无监督关键词提取模型。

基于多部图,将文档表示为紧密连接的相关主题候选集。

在这里插入图片描述
功能
1、对任何主题分解都能无缝集成
2、排序算法能够充分利用到主题和候选关键词词之间的关系(mutually reinforcing relation
3、将主题内 intra-topic keyphrase selection preferences 融入到模型中的机制
4、允许排名算法通过利用额外的显著性特征来超越语义相关性。

具体而言,具有某些属性的关键词候选词(比如,与同义词库条目匹配或出现在文档的特定部分)通过边缘权重调整在排名中得到提升。

我们通过引入对文档中首先出现的关键词来体现这种机制的有效性。

  • 模型实现步骤
    1、构建文档的图形表示
    2、应用排序算法为每个关键词分配相关性得分
    3、调整边权重来获得capture 位置信息
  • 具体实现
    1、关键词选择:关键候选词(Keyphrase candidates) 从具有一个或多个前置形容词的相邻名词序列中选择出来
    2、根据它们共享的单词词干形式,使用具有平均链接的层次聚合聚类将他们分组到主题中。

1、建立一个完整的有向多部图,其中的节点是候选关键词(keyphrase candidates), 只有当他们属于不同的主题(topics)时才是连接的。
2、根据两个候选关键词词(keyphrase condidates)在文档中的距离为它们之间的边加权。
公式(从节点i到节点j的权重wij被计算为候选ci和cj的出现之间的逆距离之和
在这里插入图片描述
3、k-分块图
得到的是一个完整的k-分块图,其中节点被划分为k个不同的独立集,k是主题数。
将候选节点划分为未连接的节点集,而不是包含在单个节点当中。
边是定向的,可以进一步控制在整体排名中单个候选词的影响程度。

4、主题分解
允许使用任何主题分解
通过控制主题内推荐(intra-topic recommendation,提升了所选关键短语中涵盖的主题数量,并且得到主题和关键短语候选词(keyphrase candidates)之间的关系(mutually reinforcing relationship
删除属于单个主题的候选词之间的边可以确保每个主题的总体推荐分布在整个图中。
此外,对与主题相关的候选词进行差异编码的一个好处是,模型直接给出了支持每个主题的最佳候选对象。

1、为每个主题选择最具代表性的关键候选词(keyphrase candidates),仅仅依靠关键词在文档中的重要性是还不够的,候选词在文档中的位置是可以考虑的(most reliable,为了实现这一点,我们调整每个主题的第一个候选节点对应的传入边缘权重。
2、文档开头出现的候选词将根据属于同一主题的其他候选词进行提升。要提升的候选人的选择,即选择启发式,可以进行调整,以适应其他需求,例如从同义词表中对候选人进行优先级排序。

示例:图表权重调整机构的图示
在这里插入图片描述
通过根据节点4和5的输出边缘权重增加其输入边缘的权重来提升节点3。

每个主题的第一个候选对象的传入边权重 修改公式
在这里插入图片描述
α是控制权重调整强度的超参数。
pi是候选ci第一次出现的位置

TextRank algorithm
在构建图之后,通过基于图的排序算法对候选关键短语进行排序,并选择前N个作为关键短语。在这里,我们采用广泛使用的TextRank算法。
在这里插入图片描述

我们介绍了一种基于多部图结构的无监督关键词提取模型,并在三个公共数据集上证明了其有效性。

遵循常规做法,根据前N个关键短语的fmeasure(F1)来评估模型的性能,并应用词干分析来减少不匹配的数量。
我们还报告了关键短语排名列表的平均精确度(MAP)分数。

在实验中将该模型的性能从其他三个模型的性能进行了比较。
第一个是TopicRank, 这个模型与我们的模型最为接近。
第二个是Single Topical PageRank,是一个改进的版本,能够使排名函数偏向于潜在狄利克雷分配(LDA)推断的主题分布。
第三个是 PositionRank,这个模型也是利用了附加特征(additional features(例如,单词的位置和单词的频率)来提高排名的准确性。

过度生成错误
当一个模型是因为该关键词短语中包含一个重要的单词从而正确的输出一个,同时它也会因为其他关键词短语中包含相同的单词时,将不是关键词短语的也同时错误的预测出来。

在根据组成词权重总和对关键词短语进行排序的模型中,过度生成错误是很常见的。我们通过按长度对候选词分数进行标准化,部分解决了这个问题。

总的来说,我们的模型取得了最佳结果,并且在大多数指标上显著优于其他三个模型。

在这里插入图片描述该表详细的展示了我们的实验结果
其中:在前5、10个提取的关键短语和平均平均精度(MAP)分数处计算的F1分数。†使用Student t检验表明0.05水平的显著性。

关于数据集
Hulth-2003和Marujo-2012数据集的相对改进较小,因为它们由短文档组成,产生的搜索空间小得多。

  • 结果分析
    TopicRank在基线中获得了最高的精确度,这表明它的策略——每个主题一个关键短语——成功地过滤掉了主题冗余候选词。但与此同时TopicRank直接受到主题聚类错误的影响,如最低MAP分数所示,这支持了支持隐式实施主题多样性的论点。
    就MAP而言,性能最好的基线是PositionRank,它突出了利用多种功能的积极效果。
  • 我们的模型在不应用重量调整机制的情况下的性能
    实验结果显示我们的模型在不应用重量调整机制的情况下,结果更高或与使用主题信息的模型相当,并且表明我们的模型很好地利用了主题和它们实例化的候选对象之间的加强关系。
    从实验结果还可以注意到F1@5在Semeval-2010数据集上,从最佳性能到最差性能。性能的下降在该情况下显得更严重,目前认为是我们的模型难以使用TextRank作为独特的特征从每个主题中选择最具代表性的候选词语,具体原因还需进一步探索。
  • 计算模型提取关键短语集(the sets of keyphrases)的主题覆盖率
    我们的模型将92%以上的前10个关键短语分配给不同的主题,从而成功地促进了多样性,而无需硬约束。
    对主题冗余关键短语的手动检查表明,其中很大一部分实际上是聚类错误,也就是说,它们被错误地分配到同一主题(例如“学生”和“学生态度”)。
  • 引入参数 α , 用于控制图权重调整的强度。
    使用作者为每个模型建议的参数,并估计每个数据集的训练集上的LDA主题分布。该参数在Semeval-2010数据集的训练集上进行调整,并在我们的所有实验中设置为α=1.1。

通过ppt形式,更清晰化系统有条理的展示了这篇论文的模型原理以及实验结果。

在这里插入图片描述

    以上就是本篇文章【论文阅读上】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/301.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多