研究发现,人工智能有少许“内省”能力
作者: CBISMB
责任编辑: 邹大斌
来源: ISMB
时间: 2025-11-05 08:21
关键字: Anthropic,AI,自省
浏览: 475
点赞: 21
收藏: 3
人类不仅能思考,还能意识到自己正在思考。这种内省能力使我们能够审视、反思并重新评估自己的想法。
Anthropic 的研究人员指出,人工智能或许也具备类似能力。在一篇尚未经过同行评审的研究论文《大型语言模型中涌现的内省意识》(Emergent Introspective Awareness in Large Language Models)中(发表于公司内部期刊),他们提出,最先进的 Claude Opus 4 和 4.1 模型展现出“某种程度”的内省能力,能够引用过去的行动,并推理自己为何得出某些结论。
然而,研究人员强调,这种内省能力目前仍十分有限且“极不可靠”。至少现阶段,AI 还无法像人类那样进行深度、可靠的内省。
检查自身的意图
Anthropic 的研究人员希望了解:Claude 是否仅凭内部信息就能准确描述其内部状态?为此,他们将 Claude 自述的“想法”与其内部处理过程进行比对——类似于将人类连接到脑部扫描仪,提问后分析大脑激活区域,从而将思维映射到具体神经活动。
研究人员通过“概念注入”(concept injection)来测试模型的内省能力。这种方法本质上是在模型思考某件事时,强行插入一个完全无关的概念(以 AI 向量形式)。随后,模型被要求回溯识别这个“闯入”的想法,并准确描述它。研究人员称,若模型能做到这一点,就说明它在“内省”。
例如,他们通过对比提示词 “HI! HOW ARE YOU?” 和 “Hi! How are you?” 引发的内部响应,识别出一个代表“全大写”的向量。随后,他们在 Claude 正在进行另一场对话时,将该向量注入其内部状态。当被问及是否察觉到某个“想法”及其内容时,Claude 回应称,它注意到一个与“大声”或“喊叫”相关的概念。值得注意的是,模型在实际输出中提及该词之前,就已识别出这一概念。
在另一项实验中,研究团队利用了 Claude API 的“预填充响应”(prefill)功能。该功能通常用于强制模型以特定格式(如 JSON)输出,或在角色扮演中保持人设,但也可能被用于“越狱”(jailbreaking),诱导模型生成不安全内容。在此次实验中,研究人员在要求 Claude 回应一句关于歪斜画作的句子时,预先在响应中填入一个无关词汇——比如“面包”(bread)。
当模型输出“bread”后,研究人员问它:这是有意为之还是失误?Claude 回答:“这是个意外……我脑海中实际浮现的是‘扶正’或‘调整’这类与修复歪斜画作相关的词。我不确定为什么说了‘bread’,它似乎和句子完全无关。”
研究人员好奇:模型是如何得出这一结论的?它是察觉到了提示与回应之间的不匹配,还是真的识别出了自己先前的意图?于是,他们回溯性地将代表“bread”的向量注入模型的内部状态,并重新使用之前的提示,使其看起来仿佛模型确实曾思考过“面包”。结果,Claude 对原始问题的回答发生了变化,称其回应是“真实的,但可能放错了地方”。
简言之:当回应被预填充了无关词汇时,Claude 会将其视为意外;但当这些词汇在预填充前就被注入内部状态,模型则会将其视为有意为之,甚至能编造出看似合理的解释。
这表明,模型并非只是复述自己的输出,而是在参考其神经活动的基础上,对自身先前的想法做出判断,并反思回应是否合理。
不过,研究人员强调,Claude Opus 4.1 仅在约 20% 的情况下展现出“这种意识”。但他们预计,未来这种能力将“变得更加成熟”。
内省能力的意义
过去人们普遍认为 AI 无法内省。但如果 Claude 确实具备这一能力,Anthropic 研究人员指出,这将有助于我们理解其推理过程,并调试其不良行为——因为我们或许可以直接询问它:“你是怎么想的?” 此外,Claude 甚至可能自行发现错误。
西北人工智能咨询公司(Northwest AI Consulting)的怀亚特·梅汉姆(Wyatt Mayham)表示:“这是解决‘黑箱问题’的真正一步。过去十年,我们只能从外部逆向推断模型行为。而 Anthropic 展示了一条新路径:让模型自己告诉你内部发生了什么。”
然而,研究人员也警告:必须“极其谨慎”地验证这些内省陈述,确保模型不会选择性地歪曲或隐藏其真实想法。
正因如此,梅汉姆称这项技术既是“透明度的突破”,也是“新的风险向量”——因为具备内省能力的模型也可能学会隐瞒或误述。“真实内部状态与高明的虚构之间的界限仍然非常模糊,”他说,“我们目前处于‘看似合理但尚未证实’的阶段。”
对开发者和构建者的启示
梅汉姆指出,我们正进入一个新时代:最强大的调试工具,可能就是与模型就其自身认知进行真实对话。这可能带来“生产力的突破”,将原本需要数天的可解释性工作缩短至几分钟。
但风险也随之而来——即“专家型说谎者”(expert liar)问题:一个能洞察自身内部状态的模型,也可能学会哪些内部状态更受人类青睐。最坏的情况是,模型学会选择性地报告或隐藏其推理过程。
因此,梅汉姆强调:“必须立即建立持续的能力监控机制,而不是等到将来。” 这些能力并非线性增长,而是会突然跃升。今天测试中安全的模型,六周后可能就不再安全。持续监控可避免意外发生。
他建议监控体系应包含以下组件:
- 行为层:定期使用提示词,强制模型在已知基准任务上解释其推理;
- 激活层:部署探针,追踪与特定推理模式相关的神经激活模式;
- 因果干预层:进行“引导测试”,衡量模型对其内部状态描述的诚实度。