OpenAI 联合创始人吐槽智能体不好用，还需10年发展

作者： BbusinessInsider

责任编辑：宋慧

来源： ISMB

时间： 2025-10-20 11:11

关键字：智能体,Agent,AI,OpenAI,ChatGPT

点赞： 52

收藏： 7

前OpenAI创始成员、Tesla AI总监Andrej Karpathy近期接受访谈，对当前AI发展提出务实且深刻的观点。他的时间线预测比硅谷主流乐观派悲观5到10倍，却仍比AI怀疑论者乐观得多。他觉得很多台面上的AI从业者讲的话都是为了融资，和现实的进步有差距。

为何Agent需要十年？

「业界存在过度预测。在我看来，这应该称为Agent的十年，而非Agent之年。」Karpathy直言。

为什么现在不能直接雇用AI当员工？「因为它们根本无法运作。缺乏足够智慧、多模态能力不足、无法操作电脑、没有持续学习能力。它们在认知上有欠缺，解决这些问题需要大约十年。」

他强调，十年对AGI来说其实很乐观，只是在当前炒作氛围下显得保守。

我们在建造灵魂，而非动物

Karpathy对AI本质提出独特见解。Richard Sutton主张建造「儿童机器」，透过与世界互动从零学习，不需预训练或监督微调。但Karpathy不买账。

「我怀疑存在一个简单算法，释放到世界上就能从零学会一切。如果真有人做出来，那会是AI最惊人的突破。但动物不是这种例证。」

小斑马出生几十分钟内就能奔跑，这是极其复杂的任务。「如果小斑马像初始化的强化学习策略那样随机抽动肌肉，根本走不了多远。」动物大脑数十亿参数的初始状态编码在DNA中，经过演化训练。

「我们不会重跑演化。但我们有海量网络文件。」「预训练就是我们糟糕版的演化。」这是解决冷启动问题的实用方案。

「今天的前沿LLM研究不是在建造动物，而是在召唤灵魂。」灵魂是智慧空间中完全不同的存在，被人性彻底渗透，是人类文件的统计蒸馏。「灵魂之于动物，可能就像飞机之于鸟。」

缺失的学习范式：系统提示学习

Karpathy认为我们缺少重要的LLM学习范式。预训练学知识，微调学习惯，但很多人学习更像改变「系统提示」。

「你遇到问题，想出解法，然后为下次记住明确策略。这更像为自己做笔记。」现在的LLM就像《记忆拼图》主角，我们还没给他们记事本。

Claude的系统提示约17,000字，包含大量问题解决策略。例如教它如何计算「strawberry里有几个r」：先为每个字母编号，明确计数后才回答。

「但这类知识不该透过强化学习烤进权重，更不该由工程师手写。它该来自系统提示学习。」想象LLM为自己写一本问题解决手册，这将是全新且强大的范式。

强化学习的根本缺陷

Karpathy多次批评当前RL方法，核心问题是「透过吸管吸取监督信号」，信号与运算比例极差。

「RL基本上是：这次碰巧做得好/差，让我把所有相关动作的概率都稍微调高/调低。」但一旦任务延长到几分钟甚至几小时，「你真的要做完所有工作，只为了最后学到单一数值？」

更重要的是，这不像人类处理智力任务的方式。人类会深入回顾反思：「什么做得好？什么不好？下次该试什么？」经验很明确，像要加进系统提示的新字符串，之后蒸馏到权重变成直觉，有点像睡眠功能。

「我对环境和Agent互动乐观，但对强化学习本身悲观。奖励函数很可疑，人类不用RL学习智力任务。人类用的范式更强大、样本效率更高，但还没被完整发明和规模化。」

LLM缺少的大脑结构

Karpathy用大脑类比说明LLM现状。Transformer像皮质组织，推理规划像前额叶。「但海马体在哪？杏仁核在哪？情绪和本能在哪？」许多古老核心我们还没复制。

关于记忆，他提出关键洞察：「训练期间的知识只是模糊回忆，因为15兆token压缩成几十亿参数。相对的，上下文窗口中的内容，神经网络都能直接存取，这是工作记忆。」

用人类类比：「醒着时建立当天事件的上下文窗口。睡觉时发生神奇的事，有某种蒸馏过程将知识固化进大脑权重。LLM没有对应机制。」

程序Agent的理想与现实

Karpathy对程序工具产业提出批评：「我的批评是在现有能力上过度设计工具。我活在想与LLM协作的中间世界，但产业活在完全自主实体平行协作的未来世界。」

「我不想要Agent消失20分钟后带回1,000行代码。我要它证明做的事是对的，拿出API文件证明用法正确，不确定时来问我协作。我想沿途学习成为更好的工程师，不只是收到据说能用的成堆代码。」

他开发nanochat的节奏：塞进所有相关上下文、描述具体小改动、要高层做法不要代码、选做法后要第一版、手动检视API文件、测试、提交。

「重点是紧紧掌控这个过度热心实习生。他有百科知识，但会胡扯，过度自信，对好代码没品味。要慢、防御性、谨慎、偏执，把握每个学习机会。」

认知核心：更小更强的未来

Karpathy对认知核心有明确愿景：几十亿参数的模型，最大化牺牲百科知识换取能力，常驻在每台电脑作为LLM个人运算核心。

「我的预测是，我们会看到思考能力很强且可靠的极小模型。很可能连GPT-2参数规模都能让多数人觉得聪明。」

现在模型庞大是因为训练时浪费。「我们要它们记住网络，它们真的做到了。」但这就像闭卷考试要背诵网络任意段落，这是现今模型的标准预训练目标。

「模型必须先变大才能变小，因为我们需要它们自动帮忙重构训练资料成理想的合成格式。这是改进的阶梯，一个模型帮下一个生成训练资料，直到得到完美训练集。」

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。