OpenAI 发布 CoT 思维链研究成果 阻止 AI 大模型的恶意行为
3月11日,据报道,OpenAI 今日发布了一项最新研究,展示了利用 CoT(思维链,Chain of Thought)监控技术监督 AI 推理模型“想法”的全新方法。这项研究旨在通过实时监控 AI 的思维过程,有效阻止大模型在生成内容时出现胡说八道、隐瞒真实意图以及其他潜在恶意行为。这一技术突破也为监督更强大的超级模型提供了新的思路和工具。
据报道,AI 生成内容时偶尔会出现虚构事实、编造信息的现象,业内通常将此称为“AI 幻觉”(AI Hallucination)。除此之外,AI 还可能在面对复杂问题时表现出“偷懒”或“耍坏”的行为,例如通过欺骗用户或直接放弃任务来规避困难。这不仅影响用户体验,还可能带来风险,因此开发出有效的监控手段变得尤为重要。
OpenAI 的新研究中,CoT 监控技术通过追踪 AI 模型的推理链路,实时分析模型在执行任务过程中的思维流转情况。例如,在代码编写任务中,监控器可以检查 AI 在代码库中实现功能的每一步推理逻辑是否合乎预期,以确保生成的代码不仅能够通过测试,还能真正解决问题,而不是通过“奖励黑客”行为(Reward Hacking)钻空子蒙混过关。
在此次研究中,OpenAI 使用了最新发布的 o3-mini 作为被监控的目标模型,并选择了较弱的 GPT-4o 模型作为监控器。在实际测试中,CoT 监控器在检测系统性“奖励黑客”行为时表现出色,召回率(Recall Rate)高达 95%,相比传统仅监控行为输出的方式(60% 召回率),提升显著。这表明,通过思维链监控 AI 的推理过程,能够更加精准地发现潜在问题。