商务服务
小红书搜索团队提出新解码策略,降低大模型推理成本
2024-10-31 19:58

如何让大语言模型(LLMs)“智能涌现”?关键技术之一是思维链(Chain of Thought,CoT),它通过引导大模型,一步一步模拟人类思考过程,可有效增强大模型的逻辑推理能力。

小红书搜索团队提出新解码策略,降低大模型推理成本

而自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略。SC 通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。尽管在各种多步推理任务中带来了显著的性能提升,但它是一种高成本的方法,需要进行预设大小的多次采样。


‍‌‌‎‎在 ICLR 2024 上,小红书搜索算法团队提出一种简单且可扩展的采样过程——即早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低 SC 的成本。‍‌‌‎‎在此基础上,团队进一步推导出一种 ESC 控制方案,以动态选择不同任务和模型的性能-成本平衡。


随后,小红书和北理工的研究者们选择了三种主流推理任务(数学,常识和符号推理),并利用不同规模的语言模型进行实验。实验结果显示,ESC 在六个基准测试中显著降低了平均采样次数,包括 MATH(-33.8%),GSM8K(-80.1%),StrategyQA(-76.8%),CommonsenseQA(-78.5%),Coin Flip(-84.2%)和 Last Letters(-67.4%),同时几乎保持原有性能。


这说明了 ESC 的有效性和创新性,它能够在保证推理性能的同时显著减少采样次数,从而降低计算成本。这一点对于大语言模型非常重要,因为这些模型的推理过程通常需要大量的计算资源。

在思维链(CoT)提示的帮助下,大语言模型(LLMs)展现出强大的推理能力。基于此,由于复杂推理任务通常允许有多条推理路径指向正确答案,先前的研究者引入了一种称为自洽性(Self-Consistency,SC)的解码策略,以进一步提高推理性能。


与传统只生成单一路径(greedy search)的标准思维链提示相比,SC 方法会根据预设的样本规模采样多条推理路径,并通过投票机制确定最终答案。尽管这种方法有效,但它会产生与采样数量成正比的显著开销。以 GPT-4 为例,若采样量为 40,在 MATH 数据集测试一次,成本需要高达 2000 美元,这迫切需要一种降低 SC 成本的改进方法。


在 SC 中,生成多个样本的过程可以被视为近似 LLM 预测的真实答案分布。通过选择出现频率最高的结果作为最终答案,可以减少单一采样策略带来的随机性。然而,考虑到 SC 只需要最置信的答案,并不要求整个答案分布完美匹配。因此,我们认为没有必要直接为每个输入生成与预设采样大小对齐的所有推理路径。相反,生成过程可以被序列化为较小的部分,每个部分被命名为一个采样窗口。考虑到小窗口和大量的采样输出都源自同一预测答案分布,采样窗口可以被视为一个探针,仅通过少量的采样数就可以揭示真实分布的一些信息。

对于答案分布,一个猜想是正确答案的候选分布通常较为集中,而错误答案则相对分散。我们使用熵作为答案分布形状的表示。上图分别展示了窗口内正确和错误投票答案分布的平均熵值,结果表明,具有较高概率的正确答案通常伴随着较低的熵值,因此熵值可以作为一个指标来确定是否继续采样。


基于此,我们提出了‍‌‌‎‎早停自洽性方法(Early-Stopping Self-Consistency,ESC)‍‌‌‎‎,即在低熵窗口截断采样过程。为了尽可能地保持性能,我们设置最严格的阈值:熵等于零,即窗口内生成的所有样本都有相同的答案。发生这种情况时停止采样,既能减少采样消耗,同时将性能影响降至最低。


早停止(Early-Stopping)是一种被广泛用于训练模型时的技术,以防止过拟合现象发生。在本文中,我们引入早停止策略,应用于减少多次采样过程的成本。与原始的 SC 相同,ESC 是完全无监督且与模型无关,无需任何人工注释或额外训练。我们推导出了在 SC 中有或无早停止方法的结果不一致概率的理论上限,结果表明 ESC 有极大的概率保持性能。此外,我们还提出一个 ESC 动态控制方案:通过选择窗口大小和最大采样次数,动态地为不同任务和模型找到最佳的性能-成本平衡点,以满足实际需求。

‍‌‌‎‎

如图展示 ESC 与原始 SC 的完整过程对比。我们将大采样量(在本例中等于 20)分成几个连续的小窗口(在本例中为 5),当一个窗口内的答案都相同时停止采样,即预测答案分布的熵值为零。 


                

         

                             

根据以上结果,可以得出以下三点结论:       

              

本项工作引入了一个简单而有效的采样过程,称为早停自洽性(ESC)。通过在高置信度窗口停止解码过程,ESC 在不牺牲性能的情况下大大降低了 SC 的成本。我们进一步推导出 ESC 的控制方案,以动态选择不同任务和模型的性能-成本平衡,不需要额外的模型能力和任务难度的先验知识。


实验结果显示,ESC 在六个主流的基准测试中显著减少了自洽性推理的实际样本数量,同时达到了类似的性能,这对于大模型推理非常重要,可以显著节省大模型推理成本。我们还展示了 ESC 的控制方案可以准确预测各种任务和模型的性能-成本权衡,可以更好的满足实际的预算与性能需求。分析实验结果表明,考虑到不同的解码设置和示例,甚至在开放式生成任务上,ESC 都可以鲁棒地大幅节省成本。


‍‌‌‎‎论文地址:‍‌‌‎‎https://arxiv.org/abs/2401.10480‍‌‌‎‎


小红书社区搜索算法工程师(全职 / 实习)


岗位职责: 

1、对小红书搜索效果进行优化,包括搜索算法和策略的调研、设计、开发、评估等环节,提升用户体验;

2、发现并解决搜索场景中在查询分析、意图识别、向量召回、排序模型、去重等方向的问题; 

3、解决小红书搜索实际问题,更好地满足用户的搜索需求; 

4、跟进业内搜索相关模型和算法的前沿进展,并在实际业务中进行合理应用。


任职资格: 

1、本科及以上学历,计算机相关专业背景; 

2、有搜索、推荐、广告、图像识别等相关背景优先;

3、熟悉机器学习、NLP、数据挖掘、知识工程的经典算法,并能在业务中灵活解决实际问题; 

4、在国际顶级会议(KDD、SIGIR、WSDM、ICLR、NeurIPS、ICML、ACL、EMNLP 等)以第一作者发表过高水平论文者、知名数据挖掘比赛(例如 KDD Cup 等)中取得领先名次者优先; 

5、积极向上,踏实勤奋,自我驱动,善于沟通,解决问题优先。


欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 luyun2@xiaohongshu.com、fengshaoxiong@xiaohongshu.com。

    以上就是本篇文章【小红书搜索团队提出新解码策略,降低大模型推理成本】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/826.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
云南网络营销软件哪个好?权威推荐助您快速选择
在数字化时代,网络营销软件成为了许多企业实现营销目标的重要工具。然而,市面上网络营销软件琳琅满目,选择一个适合自己的并不
宫崎骏的时代结束了
在《你想活出怎样的人生》之前,宫崎骏一直是著名的退休诈骗犯。七次退休又七次复出,年过八旬,创作欲还是旺盛到令人害怕。然而
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用,个人大数据信用查询平台市面上还是比较多的
小红书关键词热度查询!国风大潮下,品牌怎么玩出花样、玩出水平?
国风,是当下年轻人钟爱的潮流。汉服穿搭、文物手办、国潮仿妆……频频出圈。“民族的就是世界的”,国风的影响力可谓深远,一说
app推广接单发布平台哪个好?怎么领取任务赚钱?
最近几年,随着互联网的快速发展,利用网络兼职的赚钱方式也呈现越来越火,非常受大众欢迎的趋势。而且其种类也非常多:微商、社
【可打印】文学常识常考100题汇总,初中生练一练!(部编版初中语文)
关注本公众号,私信发送数字:2493,领取电子打印版文学常识1、成语“万事俱备,只欠东风”是根据《三国演义》________ (战役)
“迎旅发大会 游美丽望城”望城首届文旅短视频大赛,最高3万奖励等你来拿!
湘江水浩浩奔腾,流淌沧桑巨变。铜官窑静穆肃然,在这里诉说着望城的厚重历史,流传着“君生我未生,我生君已老”凄美爱情故事;落日
mysql导入大txt文件怎么打开_mysql怎么导入txt文件?
有时候我们在使用mysql数据库的时候,想导入txt文本文档,要怎么操作呢?下面本篇文章就来给大家介绍一下方法
寸头抖音短视频教程_人开始衰老的迹象是什么
岁月不饶人,我才50出头,可是许多衰老迹象已经越来越明显,惹得中医闺蜜笑话这样的我。1、觉得右后背和肩膀疼,出现“五十肩”
什么是网站页脚:以及最佳页脚设计示例
主体内容外,网站还包括页眉和页脚,用于帮助访问者的特定目的。由于我们认为网站页脚设计同样重要,我们整理了10个最佳免费网站
本企业新闻

点击拨打: