基本公式:
热度 = 初始热度 + 互动热度 – 随时间衰减的热度
文章的热度我认为应该由以下因素影响
初始热度
(1)创作者,即创作这个内容的人,也可以是组织。
我们就会考虑是否让一些认证用户发表的新内容更先一步的进入热榜。
当然,其它产品就算不像微博那样对用户有明确的归类,也可以利用一些基础的用户数据,比如:
- 注册时长:是否激励新用户,还是优待老用户?
- 活跃程度:一个投入更多时间精力的常驻用户是不是更大概率会创作出优秀内容?
这里,我觉得我们可以让活跃用户发的帖更容易获得热度,针对用户连续发帖超过3条,我们会减少帖子的热度推荐。这也防止了灌水/打广告等.
(2)内容属性,则是从内容本身出发,根据它的分类、字数长度、是否有图片/视频、关键词等有所侧重。
具体哪些内容该赋予更高的热度,哪些内容又该冷处理。我们可以通过后台系统去人为干预,比如如果涉及到少量敏感词汇,我们可以对其进行减少曝光度。
互动热度
文章浏览量、文章点赞数、文章收藏数、文章评论数、文章分享数
以上五种都是文章互动热度,与最后的推荐指数呈正相关(注意不是成正比),用户行为数据是决定一篇文章是否热门的重要因素,通过对这些数据评级来进行调整行为分:
比如: 浏览+1分,点赞+5分,评论+8分,收藏+10分,分享+10分。
此处我想我们可以通过定时任务。一定时间内去统计文章的热度指数。因为用户的互动量是不断变化的,可能有新用户的浏览点赞也有可能有之前点赞的用户取消了点赞等。
我们还需要根据用户规模、周期效应不断调整用户的行为分,同时考虑如何反作弊。
时间衰减
与最后的推荐指数呈负相关(注意不是成反比)
大部分内容属于一次性消费品,用户看过也就过了,若推荐榜单总是那么几条, 可能很快就觉得乏味 ,从而转向别的产品。所以我们自然希望内容能不断更新,而若只看初始热度+互动热度,那么后来者必定很难超越前者。
所以还必须考虑一个因素就是时间衰减,通常这个也不是线性衰减,往往是一个指数函数:即过了一定时间后,持续衰减,热度直到无限趋于0。
比如一条新闻过了24小时,那么我们就可以加重时间衰减的因素,尽量不让用户看到昨天的新闻。这也可以通过定时任务来调度。
平台推荐
我们可以将权重这一因素,扩展到热度算法中,如:
热度 = 初始热度 + 互动热度 – 随时间衰减的热度 +/- 权重
然后在运营后台中,开放对内容进行加权、降权的功能。人为的增加文章的热度值。平台通过发放流量券来增加用户文章的曝光率。
权重调整其实另一方面也可以弥补热度算法的不足,因为通过传播去获取热度总是需要一定时间,可能没办法应对突发的大热点,而也有某些内容明明在被持续关注着,但却不得不随着时间衰减退出热榜。
其实,除了上述我们预先规定好的因素外,还会有一些偶然的元素可能会影响到热度算法。
比如,一条内容在产品往往不止在热榜中可见,我们还会通过其它的方式去传播它,比如轮播图展示、推荐等,这些都会带来巨量的热度提升,而不是它自身在热榜里竞争所得,若不剔除这些偶然因素,则热榜的前几名很有可能就充满了运营导向的味道。
而且,在设计热度算法时,需要多考虑极端情况,比如若在网站流量不大的情况下,一条初始热度最高的内容,是不是可能永久无法被初始热量最低的内容超越?
所以我们对时间衰减的热度值可以按级进行衰减。我们可以对热门帖子定义活跃帖子和不活跃帖子,活跃帖子需要每天热度达到一定值(比如需要热度50),不活跃帖子就是热度不达标的帖子。比如不活跃持续1天以上的帖子,热度每天自动-5(不影响互动热度的增加等),不活跃持续3天以上的帖子,热度每天自动-20.当然,减到一定值就不减了,当做一个普通帖子去推荐。如果哪天帖子又火了,就重新用热门帖子定义来计算。
注意:此处只有热门帖子(比如上过文章热度排行榜的)才可以被定义活跃帖子和不活跃帖子!
热门榜单往往伴随着数据造假,如果我们不能有效的反作弊,那么所谓热榜则相当于名存死亡,成了营销者的聚集之地。
当项目人流量足够大的时候,我们再采用反作弊进行规划。
将不同用户对互动热度的贡献再次分级
前文提到了我们需要对用户的不同行为分级,贡献不同的互动热度;现在考虑到许多刷数据者使用都是批量小号,具有一些区别于正常用户的特征,比如注册时长慢,活跃度低。
那我们就可以对用户进行分群,比如新用户/不活跃用户的点赞+0.3分,正常用户的点赞+1分,从而抬高了数据造假的难度和成本。
实时监控异常数据,若发现违规,将人工降权
因为数据造假是很难模拟出像优秀内容那样的热度上升曲线,所以可以通过监控数据波动,来判断这条内容是否为自然增长,若察觉存在违规现象,则后台的管理员可以通过降权进行处罚。
抖音的推荐算法机制是著名的信息流漏斗算法,也是今日头条的核心算法。
首先,抖音有一个流量池的概念,不论新人还是网红,当用户新发一条视频后,抖音都会将它推荐给一定的人,即启动流量,可能是300-1000人。
然后根据这条视频在流量池内的数据表现,比如完播率、点赞率、评论数、转发率等,再来决定是否要将这条视频推荐给更多人。
而在数据达标之后,抖音会再将这条视频引向更大的流量池,让新的1W-10W人看到,即叠加推荐,以此类推,数据越好,叠加越多的流量。
同时,上述所说的流量池是有区间的,决定具体数值,则就是上述影响因素的概念。
抖音里的影响因素是哪些呢?
- 从创作者来看,比如注册信息、粉丝数、历史视频数、以往成绩等。
- 从内容来看,比如视频画质、是否原创、是否独特等。
总结下,热度算法运用到具体产品中,并非要死板的照搬公式,而且要结合运营模式,也可以多点变通,就比如抖音,它将内容推荐设计成了阶段性的热度试探,这种做法别出心裁,效果也很不错。
抖音的推荐算法是遥遥领先的,并且因为大数据的支持,更能增强推荐准确率。我们不可能按照抖音一样做一个庞大的热度推荐体系,但是我们可以学习它的推荐思想,比如叠加推荐、流量池等。后续项目人流量大后再选择性的完善推荐算法吧。
关于抖音推荐算法的详细内容可以看参考文档5、6、7。
1.[抖音推荐算法总结通俗易懂]-腾讯云开发者社区-腾讯云 (tencent.com)
2.热度算法的陷阱 | 人人都是产品经理 (woshipm.com)
3.基于Hacker News的内容热度推荐算法 - 知乎 (zhihu.com)
4.深入理解热度算法:如何做好内容推荐? | 人人都是产品经理 (woshipm.com)
5.热度算法和个性化推荐示例分享-腾讯云开发者社区-腾讯云 (tencent.com)
以上就是本篇文章【文章的热度推荐】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/2555.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多