小红书搜索团队提出新解码策略，降低大模型推理成本

小红书搜索团队提出新解码策略，降低大模型推理成本

2024-10-31 19:58

如何让大语言模型（LLMs）“智能涌现”？关键技术之一是思维链（Chain of Thought，CoT），它通过引导大模型，一步一步模拟人类思考过程，可有效增强大模型的逻辑推理能力。

而自洽性方法（Self-Consistency，SC）一直是思维链推理中广泛使用的解码策略。SC 通过生成多个思维链并取多数答案作为最终答案，来提高模型的性能。尽管在各种多步推理任务中带来了显著的性能提升，但它是一种高成本的方法，需要进行预设大小的多次采样。

‍‌‌‎‎在 ICLR 2024 上，小红书搜索算法团队提出一种简单且可扩展的采样过程——即早停自洽性方法（Early-Stopping Self-Consistency，ESC），它能在不牺牲性能的情况下，大幅度降低 SC 的成本。‍‌‌‎‎在此基础上，团队进一步推导出一种 ESC 控制方案，以动态选择不同任务和模型的性能-成本平衡。

随后，小红书和北理工的研究者们选择了三种主流推理任务（数学，常识和符号推理），并利用不同规模的语言模型进行实验。实验结果显示，ESC 在六个基准测试中显著降低了平均采样次数，包括 MATH（-33.8％），GSM8K（-80.1％），StrategyQA（-76.8％），CommonsenseQA（-78.5％），Coin Flip（-84.2％）和 Last Letters（-67.4％），同时几乎保持原有性能。

这说明了 ESC 的有效性和创新性，它能够在保证推理性能的同时显著减少采样次数，从而降低计算成本。这一点对于大语言模型非常重要，因为这些模型的推理过程通常需要大量的计算资源。

在思维链（CoT）提示的帮助下，大语言模型（LLMs）展现出强大的推理能力。基于此，由于复杂推理任务通常允许有多条推理路径指向正确答案，先前的研究者引入了一种称为自洽性（Self-Consistency，SC）的解码策略，以进一步提高推理性能。

与传统只生成单一路径（greedy search）的标准思维链提示相比，SC 方法会根据预设的样本规模采样多条推理路径，并通过投票机制确定最终答案。尽管这种方法有效，但它会产生与采样数量成正比的显著开销。以 GPT-4 为例，若采样量为 40，在 MATH 数据集测试一次，成本需要高达 2000 美元，这迫切需要一种降低 SC 成本的改进方法。

在 SC 中，生成多个样本的过程可以被视为近似 LLM 预测的真实答案分布。通过选择出现频率最高的结果作为最终答案，可以减少单一采样策略带来的随机性。然而，考虑到 SC 只需要最置信的答案，并不要求整个答案分布完美匹配。因此，我们认为没有必要直接为每个输入生成与预设采样大小对齐的所有推理路径。相反，生成过程可以被序列化为较小的部分，每个部分被命名为一个采样窗口。考虑到小窗口和大量的采样输出都源自同一预测答案分布，采样窗口可以被视为一个探针，仅通过少量的采样数就可以揭示真实分布的一些信息。

对于答案分布，一个猜想是正确答案的候选分布通常较为集中，而错误答案则相对分散。我们使用熵作为答案分布形状的表示。上图分别展示了窗口内正确和错误投票答案分布的平均熵值，结果表明，具有较高概率的正确答案通常伴随着较低的熵值，因此熵值可以作为一个指标来确定是否继续采样。

基于此，我们提出了‍‌‌‎‎早停自洽性方法（Early-Stopping Self-Consistency，ESC）‍‌‌‎‎，即在低熵窗口截断采样过程。为了尽可能地保持性能，我们设置最严格的阈值：熵等于零，即窗口内生成的所有样本都有相同的答案。发生这种情况时停止采样，既能减少采样消耗，同时将性能影响降至最低。

早停止（Early-Stopping）是一种被广泛用于训练模型时的技术，以防止过拟合现象发生。在本文中，我们引入早停止策略，应用于减少多次采样过程的成本。与原始的 SC 相同，ESC 是完全无监督且与模型无关，无需任何人工注释或额外训练。我们推导出了在 SC 中有或无早停止方法的结果不一致概率的理论上限，结果表明 ESC 有极大的概率保持性能。此外，我们还提出一个 ESC 动态控制方案：通过选择窗口大小和最大采样次数，动态地为不同任务和模型找到最佳的性能-成本平衡点，以满足实际需求。

‍‌‌‎‎

如图展示 ESC 与原始 SC 的完整过程对比。我们将大采样量（在本例中等于 20）分成几个连续的小窗口（在本例中为 5），当一个窗口内的答案都相同时停止采样，即预测答案分布的熵值为零。

根据以上结果，可以得出以下三点结论：

本项工作引入了一个简单而有效的采样过程，称为早停自洽性（ESC）。通过在高置信度窗口停止解码过程，ESC 在不牺牲性能的情况下大大降低了 SC 的成本。我们进一步推导出 ESC 的控制方案，以动态选择不同任务和模型的性能-成本平衡，不需要额外的模型能力和任务难度的先验知识。

实验结果显示，ESC 在六个主流的基准测试中显著减少了自洽性推理的实际样本数量，同时达到了类似的性能，这对于大模型推理非常重要，可以显著节省大模型推理成本。我们还展示了 ESC 的控制方案可以准确预测各种任务和模型的性能-成本权衡，可以更好的满足实际的预算与性能需求。分析实验结果表明，考虑到不同的解码设置和示例，甚至在开放式生成任务上，ESC 都可以鲁棒地大幅节省成本。

‍‌‌‎‎论文地址：‍‌‌‎‎https://arxiv.org/abs/2401.10480‍‌‌‎‎

小红书社区搜索算法工程师（全职 / 实习）

岗位职责：
1、对小红书搜索效果进行优化，包括搜索算法和策略的调研、设计、开发、评估等环节，提升用户体验；
2、发现并解决搜索场景中在查询分析、意图识别、向量召回、排序模型、去重等方向的问题；
3、解决小红书搜索实际问题，更好地满足用户的搜索需求；
4、跟进业内搜索相关模型和算法的前沿进展，并在实际业务中进行合理应用。

任职资格：
1、本科及以上学历，计算机相关专业背景；
2、有搜索、推荐、广告、图像识别等相关背景优先；
3、熟悉机器学习、NLP、数据挖掘、知识工程的经典算法，并能在业务中灵活解决实际问题；
4、在国际顶级会议（KDD、SIGIR、WSDM、ICLR、NeurIPS、ICML、ACL、EMNLP 等）以第一作者发表过高水平论文者、知名数据挖掘比赛（例如 KDD Cup 等）中取得领先名次者优先；
5、积极向上，踏实勤奋，自我驱动，善于沟通，解决问题优先。

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com，并抄送至 luyun2@xiaohongshu.com、fengshaoxiong@xiaohongshu.com。

以上就是本篇文章【小红书搜索团队提出新解码策略，降低大模型推理成本】的全部内容了，欢迎阅览！文章地址：http://dfvalve.xrbh.cn/news/826.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多