研究发现,人工智能有少许“内省”能力

作者: CBISMB

责任编辑: 邹大斌

来源: ISMB

时间: 2025-11-05 08:21

关键字: Anthropic,AI,自省

浏览: 475

点赞: 21

收藏: 3

人类不仅能思考,还能意识到自己正在思考。这种内省能力使我们能够审视、反思并重新评估自己的想法。

Anthropic 的研究人员指出,人工智能或许也具备类似能力。在一篇尚未经过同行评审的研究论文《大型语言模型中涌现的内省意识》(Emergent Introspective Awareness in Large Language Models)中(发表于公司内部期刊),他们提出,最先进的 Claude Opus 4 和 4.1 模型展现出“某种程度”的内省能力,能够引用过去的行动,并推理自己为何得出某些结论。

然而,研究人员强调,这种内省能力目前仍十分有限且“极不可靠”。至少现阶段,AI 还无法像人类那样进行深度、可靠的内省。

检查自身的意图

Anthropic 的研究人员希望了解:Claude 是否仅凭内部信息就能准确描述其内部状态?为此,他们将 Claude 自述的“想法”与其内部处理过程进行比对——类似于将人类连接到脑部扫描仪,提问后分析大脑激活区域,从而将思维映射到具体神经活动。

研究人员通过“概念注入”(concept injection)来测试模型的内省能力。这种方法本质上是在模型思考某件事时,强行插入一个完全无关的概念(以 AI 向量形式)。随后,模型被要求回溯识别这个“闯入”的想法,并准确描述它。研究人员称,若模型能做到这一点,就说明它在“内省”。

例如,他们通过对比提示词 “HI! HOW ARE YOU?” 和 “Hi! How are you?” 引发的内部响应,识别出一个代表“全大写”的向量。随后,他们在 Claude 正在进行另一场对话时,将该向量注入其内部状态。当被问及是否察觉到某个“想法”及其内容时,Claude 回应称,它注意到一个与“大声”或“喊叫”相关的概念。值得注意的是,模型在实际输出中提及该词之前,就已识别出这一概念。

在另一项实验中,研究团队利用了 Claude API 的“预填充响应”(prefill)功能。该功能通常用于强制模型以特定格式(如 JSON)输出,或在角色扮演中保持人设,但也可能被用于“越狱”(jailbreaking),诱导模型生成不安全内容。在此次实验中,研究人员在要求 Claude 回应一句关于歪斜画作的句子时,预先在响应中填入一个无关词汇——比如“面包”(bread)。

当模型输出“bread”后,研究人员问它:这是有意为之还是失误?Claude 回答:“这是个意外……我脑海中实际浮现的是‘扶正’或‘调整’这类与修复歪斜画作相关的词。我不确定为什么说了‘bread’,它似乎和句子完全无关。”

研究人员好奇:模型是如何得出这一结论的?它是察觉到了提示与回应之间的不匹配,还是真的识别出了自己先前的意图?于是,他们回溯性地将代表“bread”的向量注入模型的内部状态,并重新使用之前的提示,使其看起来仿佛模型确实曾思考过“面包”。结果,Claude 对原始问题的回答发生了变化,称其回应是“真实的,但可能放错了地方”。

简言之:当回应被预填充了无关词汇时,Claude 会将其视为意外;但当这些词汇在预填充前就被注入内部状态,模型则会将其视为有意为之,甚至能编造出看似合理的解释。

这表明,模型并非只是复述自己的输出,而是在参考其神经活动的基础上,对自身先前的想法做出判断,并反思回应是否合理。

不过,研究人员强调,Claude Opus 4.1 仅在约 20% 的情况下展现出“这种意识”。但他们预计,未来这种能力将“变得更加成熟”。

内省能力的意义

过去人们普遍认为 AI 无法内省。但如果 Claude 确实具备这一能力,Anthropic 研究人员指出,这将有助于我们理解其推理过程,并调试其不良行为——因为我们或许可以直接询问它:“你是怎么想的?” 此外,Claude 甚至可能自行发现错误。

西北人工智能咨询公司(Northwest AI Consulting)的怀亚特·梅汉姆(Wyatt Mayham)表示:“这是解决‘黑箱问题’的真正一步。过去十年,我们只能从外部逆向推断模型行为。而 Anthropic 展示了一条新路径:让模型自己告诉你内部发生了什么。”

然而,研究人员也警告:必须“极其谨慎”地验证这些内省陈述,确保模型不会选择性地歪曲或隐藏其真实想法。

正因如此,梅汉姆称这项技术既是“透明度的突破”,也是“新的风险向量”——因为具备内省能力的模型也可能学会隐瞒或误述。“真实内部状态与高明的虚构之间的界限仍然非常模糊,”他说,“我们目前处于‘看似合理但尚未证实’的阶段。”

对开发者和构建者的启示

梅汉姆指出,我们正进入一个新时代:最强大的调试工具,可能就是与模型就其自身认知进行真实对话。这可能带来“生产力的突破”,将原本需要数天的可解释性工作缩短至几分钟。

但风险也随之而来——即“专家型说谎者”(expert liar)问题:一个能洞察自身内部状态的模型,也可能学会哪些内部状态更受人类青睐。最坏的情况是,模型学会选择性地报告或隐藏其推理过程。

因此,梅汉姆强调:“必须立即建立持续的能力监控机制,而不是等到将来。” 这些能力并非线性增长,而是会突然跃升。今天测试中安全的模型,六周后可能就不再安全。持续监控可避免意外发生。

他建议监控体系应包含以下组件:

  • 行为层:定期使用提示词,强制模型在已知基准任务上解释其推理;
  • 激活层:部署探针,追踪与特定推理模式相关的神经激活模式;
  • 因果干预层:进行“引导测试”,衡量模型对其内部状态描述的诚实度。
©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。