谷歌 DeepMind 推出 GenRM 技术 通过生成式验证器提升 AI 推理能力

2024-09-03 09:41:09   |   探索者   |   1648

近日,谷歌 DeepMind 团队在 arxiv 上发表了一篇重要论文,介绍了其最新研发的 GenRM(生成式验证器)技术。这一技术通过创新的奖励模型来增强生成式 AI 的推理能力,为提升大语言模型(LLMs)的性能带来了新的可能性。

在目前的 AI 行业内,提高大语言模型性能的主流方法是使用 Best-of-N 模式。该方法让 LLM 生成 N 个候选解决方案,然后由验证器对这些方案进行排序,选择出最佳答案。然而,传统的基于 LLM 的验证器通常被训练成判别分类器,这种方式主要是给每个解决方案打分,但却不能充分利用预训练 LLMs 的文本生成能力,从而限制了验证器在复杂推理任务中的表现。

为了突破这一局限,DeepMind 团队开发了 GenRM 技术。这种生成式验证器采用了一种新的训练方式,通过使用下一个 token 预测目标来训练验证器,使其不仅能验证候选方案,还能参与生成新的解决方案。这样的设计让 GenRM 在处理推理任务时具有了以下显著优势:

1. 无缝集成指令调整:GenRM 可以根据给定的指令生成更符合预期的答案,从而提高了生成结果的准确性和相关性。

2. 支持思维链推理:该技术可以更有效地处理链式推理问题,使得在复杂任务中的推理过程更加自然和连贯。

3. 利用额外的推理时间计算:通过多数投票机制,GenRM 能够利用额外的推理时间来进一步优化结果,确保最终答案的质量。

在算法和小学数学推理任务中,使用基于 Gemma(GenRM 的一个实现)的验证器测试时,GenRM 的表现明显优于传统的判别式验证器和 LLM-as-a-Judge 验证器。通过使用 Best-of-N 方法解决问题,GenRM 的解决成功率提高了 16% 到 64%。这一结果表明,GenRM 在复杂推理任务中的优势显著。

谷歌 DeepMind 的团队指出,GenRM 的出现标志着 AI 奖励系统的一次重要演化。传统的分类奖励模型存在被操纵的风险,而 GenRM 的生成式奖励机制能够更好地防止模型出现欺诈行为。这一进步突显了在 AI 系统中建立负责任奖励模型的重要性,确保 AI 的输出符合社会责任标准。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

谷歌 DeepMind 推出 GenRM 技术 通过生成式验证器提升 AI 推理能力

2024-09-03 09:41:09 浏览量: 1648 作者: 探索者

近日,谷歌 DeepMind 团队在 arxiv 上发表了一篇重要论文,介绍了其最新研发的 GenRM(生成式验证器)技术。这一技术通过创新的奖励模型来增强生成式 AI 的推理能力,为提升大语言模型(LLMs)的性能带来了新的可能性。

在目前的 AI 行业内,提高大语言模型性能的主流方法是使用 Best-of-N 模式。该方法让 LLM 生成 N 个候选解决方案,然后由验证器对这些方案进行排序,选择出最佳答案。然而,传统的基于 LLM 的验证器通常被训练成判别分类器,这种方式主要是给每个解决方案打分,但却不能充分利用预训练 LLMs 的文本生成能力,从而限制了验证器在复杂推理任务中的表现。

为了突破这一局限,DeepMind 团队开发了 GenRM 技术。这种生成式验证器采用了一种新的训练方式,通过使用下一个 token 预测目标来训练验证器,使其不仅能验证候选方案,还能参与生成新的解决方案。这样的设计让 GenRM 在处理推理任务时具有了以下显著优势:

1. 无缝集成指令调整:GenRM 可以根据给定的指令生成更符合预期的答案,从而提高了生成结果的准确性和相关性。

2. 支持思维链推理:该技术可以更有效地处理链式推理问题,使得在复杂任务中的推理过程更加自然和连贯。

3. 利用额外的推理时间计算:通过多数投票机制,GenRM 能够利用额外的推理时间来进一步优化结果,确保最终答案的质量。

在算法和小学数学推理任务中,使用基于 Gemma(GenRM 的一个实现)的验证器测试时,GenRM 的表现明显优于传统的判别式验证器和 LLM-as-a-Judge 验证器。通过使用 Best-of-N 方法解决问题,GenRM 的解决成功率提高了 16% 到 64%。这一结果表明,GenRM 在复杂推理任务中的优势显著。

谷歌 DeepMind 的团队指出,GenRM 的出现标志着 AI 奖励系统的一次重要演化。传统的分类奖励模型存在被操纵的风险,而 GenRM 的生成式奖励机制能够更好地防止模型出现欺诈行为。这一进步突显了在 AI 系统中建立负责任奖励模型的重要性,确保 AI 的输出符合社会责任标准。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号