OpenAI 联合创始人吐槽智能体不好用,还需10年发展
作者: BbusinessInsider
责任编辑: 宋慧
来源: ISMB
时间: 2025-10-20 11:11
关键字: 智能体,Agent,AI,OpenAI,ChatGPT
浏览: 905
点赞: 52
收藏: 7
前OpenAI创始成员、Tesla AI总监Andrej Karpathy近期接受访谈,对当前AI发展提出务实且深刻的观点。他的时间线预测比硅谷主流乐观派悲观5到10倍,却仍比AI怀疑论者乐观得多。他觉得很多台面上的AI从业者讲的话都是为了融资,和现实的进步有差距。
为何Agent需要十年?
「业界存在过度预测。在我看来,这应该称为Agent的十年,而非Agent之年。」Karpathy直言。
为什么现在不能直接雇用AI当员工?「因为它们根本无法运作。缺乏足够智慧、多模态能力不足、无法操作电脑、没有持续学习能力。它们在认知上有欠缺,解决这些问题需要大约十年。」
他强调,十年对AGI来说其实很乐观,只是在当前炒作氛围下显得保守。
我们在建造灵魂,而非动物
Karpathy对AI本质提出独特见解。Richard Sutton主张建造「儿童机器」,透过与世界互动从零学习,不需预训练或监督微调。但Karpathy不买账。
「我怀疑存在一个简单算法,释放到世界上就能从零学会一切。如果真有人做出来,那会是AI最惊人的突破。但动物不是这种例证。」
小斑马出生几十分钟内就能奔跑,这是极其复杂的任务。「如果小斑马像初始化的强化学习策略那样随机抽动肌肉,根本走不了多远。」动物大脑数十亿参数的初始状态编码在DNA中,经过演化训练。
「我们不会重跑演化。但我们有海量网络文件。」「预训练就是我们糟糕版的演化。」这是解决冷启动问题的实用方案。
「今天的前沿LLM研究不是在建造动物,而是在召唤灵魂。」灵魂是智慧空间中完全不同的存在,被人性彻底渗透,是人类文件的统计蒸馏。「灵魂之于动物,可能就像飞机之于鸟。」
缺失的学习范式:系统提示学习
Karpathy认为我们缺少重要的LLM学习范式。预训练学知识,微调学习惯,但很多人学习更像改变「系统提示」。
「你遇到问题,想出解法,然后为下次记住明确策略。这更像为自己做笔记。」现在的LLM就像《记忆拼图》主角,我们还没给他们记事本。
Claude的系统提示约17,000字,包含大量问题解决策略。例如教它如何计算「strawberry里有几个r」:先为每个字母编号,明确计数后才回答。
「但这类知识不该透过强化学习烤进权重,更不该由工程师手写。它该来自系统提示学习。」想象LLM为自己写一本问题解决手册,这将是全新且强大的范式。
强化学习的根本缺陷
Karpathy多次批评当前RL方法,核心问题是「透过吸管吸取监督信号」,信号与运算比例极差。
「RL基本上是:这次碰巧做得好/差,让我把所有相关动作的概率都稍微调高/调低。」但一旦任务延长到几分钟甚至几小时,「你真的要做完所有工作,只为了最后学到单一数值?」
更重要的是,这不像人类处理智力任务的方式。人类会深入回顾反思:「什么做得好?什么不好?下次该试什么?」经验很明确,像要加进系统提示的新字符串,之后蒸馏到权重变成直觉,有点像睡眠功能。
「我对环境和Agent互动乐观,但对强化学习本身悲观。奖励函数很可疑,人类不用RL学习智力任务。人类用的范式更强大、样本效率更高,但还没被完整发明和规模化。」
LLM缺少的大脑结构
Karpathy用大脑类比说明LLM现状。Transformer像皮质组织,推理规划像前额叶。「但海马体在哪?杏仁核在哪?情绪和本能在哪?」许多古老核心我们还没复制。
关于记忆,他提出关键洞察:「训练期间的知识只是模糊回忆,因为15兆token压缩成几十亿参数。相对的,上下文窗口中的内容,神经网络都能直接存取,这是工作记忆。」
用人类类比:「醒着时建立当天事件的上下文窗口。睡觉时发生神奇的事,有某种蒸馏过程将知识固化进大脑权重。LLM没有对应机制。」
程序Agent的理想与现实
Karpathy对程序工具产业提出批评:「我的批评是在现有能力上过度设计工具。我活在想与LLM协作的中间世界,但产业活在完全自主实体平行协作的未来世界。」
「我不想要Agent消失20分钟后带回1,000行代码。我要它证明做的事是对的,拿出API文件证明用法正确,不确定时来问我协作。我想沿途学习成为更好的工程师,不只是收到据说能用的成堆代码。」
他开发nanochat的节奏:塞进所有相关上下文、描述具体小改动、要高层做法不要代码、选做法后要第一版、手动检视API文件、测试、提交。
「重点是紧紧掌控这个过度热心实习生。他有百科知识,但会胡扯,过度自信,对好代码没品味。要慢、防御性、谨慎、偏执,把握每个学习机会。」
认知核心:更小更强的未来
Karpathy对认知核心有明确愿景:几十亿参数的模型,最大化牺牲百科知识换取能力,常驻在每台电脑作为LLM个人运算核心。
「我的预测是,我们会看到思考能力很强且可靠的极小模型。很可能连GPT-2参数规模都能让多数人觉得聪明。」
现在模型庞大是因为训练时浪费。「我们要它们记住网络,它们真的做到了。」但这就像闭卷考试要背诵网络任意段落,这是现今模型的标准预训练目标。
「模型必须先变大才能变小,因为我们需要它们自动帮忙重构训练资料成理想的合成格式。这是改进的阶梯,一个模型帮下一个生成训练资料,直到得到完美训练集。」