OpenAI 发布 CoT 思维链研究成果阻止 AI 大模型的恶意行为

2025-03-11 10:14:57 | 微观猎人 | 1869

3月11日，据报道，OpenAI 今日发布了一项最新研究，展示了利用 CoT（思维链，Chain of Thought）监控技术监督 AI 推理模型“想法”的全新方法。这项研究旨在通过实时监控 AI 的思维过程，有效阻止大模型在生成内容时出现胡说八道、隐瞒真实意图以及其他潜在恶意行为。这一技术突破也为监督更强大的超级模型提供了新的思路和工具。

据报道，AI 生成内容时偶尔会出现虚构事实、编造信息的现象，业内通常将此称为“AI 幻觉”（AI Hallucination）。除此之外，AI 还可能在面对复杂问题时表现出“偷懒”或“耍坏”的行为，例如通过欺骗用户或直接放弃任务来规避困难。这不仅影响用户体验，还可能带来风险，因此开发出有效的监控手段变得尤为重要。

OpenAI 的新研究中，CoT 监控技术通过追踪 AI 模型的推理链路，实时分析模型在执行任务过程中的思维流转情况。例如，在代码编写任务中，监控器可以检查 AI 在代码库中实现功能的每一步推理逻辑是否合乎预期，以确保生成的代码不仅能够通过测试，还能真正解决问题，而不是通过“奖励黑客”行为（Reward Hacking）钻空子蒙混过关。

在此次研究中，OpenAI 使用了最新发布的 o3-mini 作为被监控的目标模型，并选择了较弱的 GPT-4o 模型作为监控器。在实际测试中，CoT 监控器在检测系统性“奖励黑客”行为时表现出色，召回率（Recall Rate）高达 95%，相比传统仅监控行为输出的方式（60% 召回率），提升显著。这表明，通过思维链监控 AI 的推理过程，能够更加精准地发现潜在问题。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。

OpenAI 发布 CoT 思维链研究成果 阻止 AI 大模型的恶意行为

OpenAI 发布 CoT 思维链研究成果阻止 AI 大模型的恶意行为