研究发现，人工智能有少许“内省”能力

作者： CBISMB

责任编辑：邹大斌

来源： ISMB

时间： 2025-11-05 08:21

关键字： Anthropic,AI,自省

点赞： 21

收藏： 3

人类不仅能思考，还能意识到自己正在思考。这种内省能力使我们能够审视、反思并重新评估自己的想法。

Anthropic 的研究人员指出，人工智能或许也具备类似能力。在一篇尚未经过同行评审的研究论文《大型语言模型中涌现的内省意识》（Emergent Introspective Awareness in Large Language Models）中（发表于公司内部期刊），他们提出，最先进的 Claude Opus 4 和 4.1 模型展现出“某种程度”的内省能力，能够引用过去的行动，并推理自己为何得出某些结论。

然而，研究人员强调，这种内省能力目前仍十分有限且“极不可靠”。至少现阶段，AI 还无法像人类那样进行深度、可靠的内省。

检查自身的意图

Anthropic 的研究人员希望了解：Claude 是否仅凭内部信息就能准确描述其内部状态？为此，他们将 Claude 自述的“想法”与其内部处理过程进行比对——类似于将人类连接到脑部扫描仪，提问后分析大脑激活区域，从而将思维映射到具体神经活动。

研究人员通过“概念注入”（concept injection）来测试模型的内省能力。这种方法本质上是在模型思考某件事时，强行插入一个完全无关的概念（以 AI 向量形式）。随后，模型被要求回溯识别这个“闯入”的想法，并准确描述它。研究人员称，若模型能做到这一点，就说明它在“内省”。

例如，他们通过对比提示词 “HI! HOW ARE YOU?” 和 “Hi! How are you?” 引发的内部响应，识别出一个代表“全大写”的向量。随后，他们在 Claude 正在进行另一场对话时，将该向量注入其内部状态。当被问及是否察觉到某个“想法”及其内容时，Claude 回应称，它注意到一个与“大声”或“喊叫”相关的概念。值得注意的是，模型在实际输出中提及该词之前，就已识别出这一概念。

在另一项实验中，研究团队利用了 Claude API 的“预填充响应”（prefill）功能。该功能通常用于强制模型以特定格式（如 JSON）输出，或在角色扮演中保持人设，但也可能被用于“越狱”（jailbreaking），诱导模型生成不安全内容。在此次实验中，研究人员在要求 Claude 回应一句关于歪斜画作的句子时，预先在响应中填入一个无关词汇——比如“面包”（bread）。

当模型输出“bread”后，研究人员问它：这是有意为之还是失误？Claude 回答：“这是个意外……我脑海中实际浮现的是‘扶正’或‘调整’这类与修复歪斜画作相关的词。我不确定为什么说了‘bread’，它似乎和句子完全无关。”

研究人员好奇：模型是如何得出这一结论的？它是察觉到了提示与回应之间的不匹配，还是真的识别出了自己先前的意图？于是，他们回溯性地将代表“bread”的向量注入模型的内部状态，并重新使用之前的提示，使其看起来仿佛模型确实曾思考过“面包”。结果，Claude 对原始问题的回答发生了变化，称其回应是“真实的，但可能放错了地方”。

简言之：当回应被预填充了无关词汇时，Claude 会将其视为意外；但当这些词汇在预填充前就被注入内部状态，模型则会将其视为有意为之，甚至能编造出看似合理的解释。

这表明，模型并非只是复述自己的输出，而是在参考其神经活动的基础上，对自身先前的想法做出判断，并反思回应是否合理。

不过，研究人员强调，Claude Opus 4.1 仅在约 20% 的情况下展现出“这种意识”。但他们预计，未来这种能力将“变得更加成熟”。

内省能力的意义

过去人们普遍认为 AI 无法内省。但如果 Claude 确实具备这一能力，Anthropic 研究人员指出，这将有助于我们理解其推理过程，并调试其不良行为——因为我们或许可以直接询问它：“你是怎么想的？” 此外，Claude 甚至可能自行发现错误。

西北人工智能咨询公司（Northwest AI Consulting）的怀亚特·梅汉姆（Wyatt Mayham）表示：“这是解决‘黑箱问题’的真正一步。过去十年，我们只能从外部逆向推断模型行为。而 Anthropic 展示了一条新路径：让模型自己告诉你内部发生了什么。”

然而，研究人员也警告：必须“极其谨慎”地验证这些内省陈述，确保模型不会选择性地歪曲或隐藏其真实想法。

正因如此，梅汉姆称这项技术既是“透明度的突破”，也是“新的风险向量”——因为具备内省能力的模型也可能学会隐瞒或误述。“真实内部状态与高明的虚构之间的界限仍然非常模糊，”他说，“我们目前处于‘看似合理但尚未证实’的阶段。”

对开发者和构建者的启示

梅汉姆指出，我们正进入一个新时代：最强大的调试工具，可能就是与模型就其自身认知进行真实对话。这可能带来“生产力的突破”，将原本需要数天的可解释性工作缩短至几分钟。

但风险也随之而来——即“专家型说谎者”（expert liar）问题：一个能洞察自身内部状态的模型，也可能学会哪些内部状态更受人类青睐。最坏的情况是，模型学会选择性地报告或隐藏其推理过程。

因此，梅汉姆强调：“必须立即建立持续的能力监控机制，而不是等到将来。” 这些能力并非线性增长，而是会突然跃升。今天测试中安全的模型，六周后可能就不再安全。持续监控可避免意外发生。

他建议监控体系应包含以下组件：

行为层：定期使用提示词，强制模型在已知基准任务上解释其推理；
激活层：部署探针，追踪与特定推理模式相关的神经激活模式；
因果干预层：进行“引导测试”，衡量模型对其内部状态描述的诚实度。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

研究发现，人工智能有少许“内省”能力

相关推荐

智库专家

解决方案