商务服务
爱奇艺在文本舆情挖掘上的技术探索和实践
2024-10-31 23:28

作为以科技创新为驱动的娱乐公司,爱奇艺努力为用户提供丰富、高品质和智能化的专业服务。舆情分析是理解用户的一个重要方面。用户在观看视频或使用产品后,通过各种方式表达着自己的情感和观点。如对电视综艺节目内容本身的热议、对演员角色的喜爱和吐槽、对产品的意见都是舆情的内容。针对这些舆情的挖掘和分析可以更直观更清晰的显示用户的关注点和主观感受。

爱奇艺在文本舆情挖掘上的技术探索和实践

整个舆情分析的内容可以包括文本、图片、音频等多种形式,数据的来源也多种多样。要想从多维度全面深入的分析,就要结合技术和经验的许多知识是个系统性工程。我们只关注文本评论,讨论一些利用 NLP 技术进行舆情分析的探索和实践。

主要内容会集中在利用词法和句法分析技术、提取用户观点(包括用户评论对象和相关评价词)、情感、聚焦点等反映用户关注焦点和主观感受的特征。如,电视剧《你和我的倾城时光》中部分用户评论会作为示例,并展示具体分析过程。

image

图 1 单句文本中观点和情感的识别

爱奇艺有着大量的影视剧、综艺和动漫资源。我们观看的同时也会产生大量弹幕、剧集和泡泡圈评论等语料。每一条用户的评论都可以看做文本舆情分析的基本单位。虽然文本评论属于非结构化数据, 用户的表达也比较随意,但是我们通过 NLP 技术可以转化为结构化有效信息,提取出用户对某个评价对象的观点意见和情感表达。

以用户的单句评论为示例,我们的舆情分析可以提取和归纳出下面多种信息:如图 1 中 电视剧《你和我的倾城时光》中一条示例评论, “颖宝的演技一直都有进步!期待你和我的倾城时光”。 我们可以得到的结构化信息包括

  1. 这条评论的整句情感倾向“正向”
  2. 用户评论的评价对象,“颖宝的演技” 和《你和我的倾城时光》
  3. 针对评价对象的评价词,“有进步”评价颖宝的演技和“期待”评价《你和我的倾城时光》
  4. 用户对评价对象的情感倾向, 在正向评价颖宝的演技和《你和我们的倾城时光》
  5. 划分用户评价的观点到预先设定的类别,”颖宝的演技“属于演员类和《你和我的倾城时光》属于整体评价类。

image

图 2 整体文本信息的分类观点 (本示例为“你和我的倾城时光”中演员,剧情,视觉音效三个维度的分类观点

image

图 3 《你和我的倾城时光》每日的情感分布

上述只是单句级别的观点分析和情感识别,表达了单个用户的态度和感受。影视剧集的舆情分析中还需要用户群体整体感受的归纳。尤其是用户群体对特定方面的感受聚合。比如用户喜欢哪个演员、喜欢演员的哪个方面、剧集本身的情节如何等等。

我们的舆情分析在单句分析的基础上, 也包括了观点和情感归纳的功能。 如图 3 中,展示了利用大量评论语料,从《你和我的倾城时光》中演员、剧情、视觉音效三个特定维度的观点总结。分析的语料中,大多数的用户表达了对演员和剧集的喜爱。

如图 4,是另外一种用户整体情感态度的归纳,是《你和我的倾城时光》在某段日期上的情感分布。这是在单句情感分析的基础上合并统计后的结果,同时也反映了用户对剧集的喜爱程度。

image

图 4 文本舆情分析中观点提取和情感分析的流程图

从图 1 到图 3 中的分析过程中主要会用到 NLP 技术中词语和句子级别的语义理解,具体会涉及到多个基于机器学习和深度学习的 NLP 模型。 图 1,是我们这里讨论的文本舆情分析的整体框架图。从每个用户的评论语料的输入到分析结果的输出,是通过管道串联的方式连接在一起。其中包括词法分析、观点识别、关系提取、情感分析、文本分类等多个模块。输出的分析结果可以归结为用户单句的观点和情感 (如上面图 1 所示的分析结果)以及用户整体观点和情感的分类 (如图 2 和图 3 所示的分析结果)。

整个文本分析流程中词法分析是第一步, 也是后续分析中最重要的基础。爱奇艺的词法分析服务已经广泛应用在公司多个亿级流量的业务线。它包括基于 CRF 的分词服务实体识别、词权重、实体链接等多种服务。我们的这里重点介绍的观点提取和情感分析也主要基于这个服务的分词功能。

词法分析之外,流程中重要的部分包括

1) 观点的提取, 即用户评价对象、评价词的提取和评价词与评价对象之间关系的确定

image

图 5 评价对象的提取和评价词评价对象关系的确定

评价对象的提取是寻找用户想要表达观点的对象。评价词的提取是确定用户具体想表达的观点内容。如图 5(同图 1 的示例)绿色字体的词语或者短语展示了观点,提取模型提取出的用户评价对象和可能对应的评价词。为简化任务,我们可以仅考虑显式表达的提取。我们采用了 NLP 中序列标注的方式提取评价词和评价对象。通过数据集中分别标注评价词和评价对象,从而训练模型推断单个评论中对应观点和评价词的位置。 基于双向 LSTM 与 CRF 的模型 [1] 在我们自建的数据集中表现较好。

评价对象和评价词之间关系的确定是用户观点理解的另外一个重要组成部分。 见图 5, 我们会通过关系提取的方式确定绿色关键词或者短语之间的关系,比如在示例中,“有进步”在描述“颖宝的演技”, ”期待”在描述《你和我的倾城时光》,而不是在描述”颖宝的演技“。这样的方式不光可以处理示例中评价词和评价对象之间一对一的关系提取,还可以处理评价词和评价对象之间多对多的情况。

我们关系提取的模型经历了规则为主、简单模型和优化词语特征,到引入注意力机制等迭代,目前采用了基于双向 GRU 与注意力机制的分类模型。其中注意力机制部分是一种基于词和句子级别的自注意力机制 [2,3]。通过词和句子级别注意力机制的引入,在我们的数据集上解决了加权重点词和解决部分标注噪音的问题。

2) 整句和对特定评价对象的情感分析

用户情感的解析是舆情分析中比较重要的部分。用户单句评论往往会表达一个明显的情感倾向。这个可以参照图 1 中的结果 1。我们这里跟大多数场景中一样,归纳情感为正中负三种。整句情感体现了用户整体的情感表达,这是句子或者段落级别的文本情感分析。 但是用户表达比较复杂,含有多种情感的时候需要对用户每个观点对象进行情感分析,即对用户的每个观点分别给予正中负三种情感倾向。这个可以参照图 1 中的结果 4。具体的算法我们在判断整句情感和对特定评价对象的细粒度情感时,都采用了基于双向 LSTM 的模型,并在其中引入注意力或者门的机制 [4,5],用于强化特定评价词对评价对象的作用。

3) 观点的聚合

单句级别的观点分析和情感识别,只是单个用户的态度和感受。作为用户群体,我们需要某些特定维度上的观点总结。 参考图 2 中的示例, 我们再算法上利用了单句的观点分析结果,再加上基于 CNN 的分类模型 [6],在事先设定好的维度下聚合所有用户的观点。

    以上就是本篇文章【爱奇艺在文本舆情挖掘上的技术探索和实践】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/5212.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
云南网络营销软件哪个好?权威推荐助您快速选择
在数字化时代,网络营销软件成为了许多企业实现营销目标的重要工具。然而,市面上网络营销软件琳琅满目,选择一个适合自己的并不
宫崎骏的时代结束了
在《你想活出怎样的人生》之前,宫崎骏一直是著名的退休诈骗犯。七次退休又七次复出,年过八旬,创作欲还是旺盛到令人害怕。然而
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用,个人大数据信用查询平台市面上还是比较多的
小红书关键词热度查询!国风大潮下,品牌怎么玩出花样、玩出水平?
国风,是当下年轻人钟爱的潮流。汉服穿搭、文物手办、国潮仿妆……频频出圈。“民族的就是世界的”,国风的影响力可谓深远,一说
app推广接单发布平台哪个好?怎么领取任务赚钱?
最近几年,随着互联网的快速发展,利用网络兼职的赚钱方式也呈现越来越火,非常受大众欢迎的趋势。而且其种类也非常多:微商、社
【可打印】文学常识常考100题汇总,初中生练一练!(部编版初中语文)
关注本公众号,私信发送数字:2493,领取电子打印版文学常识1、成语“万事俱备,只欠东风”是根据《三国演义》________ (战役)
“迎旅发大会 游美丽望城”望城首届文旅短视频大赛,最高3万奖励等你来拿!
湘江水浩浩奔腾,流淌沧桑巨变。铜官窑静穆肃然,在这里诉说着望城的厚重历史,流传着“君生我未生,我生君已老”凄美爱情故事;落日
mysql导入大txt文件怎么打开_mysql怎么导入txt文件?
有时候我们在使用mysql数据库的时候,想导入txt文本文档,要怎么操作呢?下面本篇文章就来给大家介绍一下方法
寸头抖音短视频教程_人开始衰老的迹象是什么
岁月不饶人,我才50出头,可是许多衰老迹象已经越来越明显,惹得中医闺蜜笑话这样的我。1、觉得右后背和肩膀疼,出现“五十肩”
什么是网站页脚:以及最佳页脚设计示例
主体内容外,网站还包括页眉和页脚,用于帮助访问者的特定目的。由于我们认为网站页脚设计同样重要,我们整理了10个最佳免费网站
本企业新闻

点击拨打: