云智一体、智能优先,百度智能云加速驶入AI“超级周期”
作者: CBISMB
责任编辑: 宋慧
来源: ISMB
时间: 2025-08-29 16:41
关键字: 百度,百舸,千帆,AI,智能体
浏览: 194
点赞: 8
收藏: 12
8月28日,在2025百度云智大会上,百度智能云全新升级百舸AI计算平台5.0和千帆企业级AI开发平台4.0,让企业以更低成本、更高效率部署和开发AI产品。百度集团执行副总裁、百度智能云事业群总裁沈抖分享了百度智能云打造云智一体、智能优先的新一代AI云基础设施最新进展和落地实践。 从2022年底到今天,短短33个月,算力、模型、应用纷纷爆发。今天,AI加速深入产业,Agents开始接管企业从生产到经营的各种环节,直接创造价值。我们正站在AI“超级周期”的起点,加速进入智能经济时代。 智能经济时代,需要新型AI云基础设施。十年前,百度智能云成立,率先强调云的智能属性。三年前,百度智能云又率先搭建国内最大规模GPU集群。今天,百度智能云全面升级,打造云智一体、智能优先的新一代AI云基础设施。
百度集团执行副总裁、百度智能云事业群总裁沈抖表示,百度智能云新一代云基础设施,以智能为核心,不断提升智能上限,拓展智能边界,引领中国AI产业系统化落地。如今,百度智能云已服务超过65%的央企客户和46万家企业,打造出130万个Agents,推动AI创造产业价值。百度智能云也将持续坚定投入AI云基础设施建设,与客户、伙伴共创未来。
以下为演讲片段:
从2022年11月30日,OpenAI发布ChatGPT算起,到今天,短短33个月,整个世界围绕大模型发生了巨大变化:算力投入巨大,成就了英伟达3年10倍的市值增长,达到了4.4万亿美元;模型快速迭代,催生了4000个大模型,在榜单上各领风骚;应用爆发式增长,诞生了将近500家AI独角兽、吸引了近5000亿美元投资。
现在,既有为大模型能力叫好的,也有担心AI对人类威胁的;既有大笔投入、希望独占鳌头的,也有忧心忡忡,担心投入打水漂的……在技术代际变革的时期,所有情绪都是合理的。但有一件事是确定的:那就是大模型的智力上限还会继续拉高,大模型的应用会彻底改变行业格局。
这会带来巨大的市场空间,会诞生无限的可能性。上一次大的行业变革,还是在互联网时代。而AI创造的价值,会远超互联网。
互联网时代,核心是信息流通。网站和App,封装的是信息,交付的也是信息,信息流通足以创造相当的价值。而对于大多数企业来说,一个官网、几个媒体账号就够用了。
但智能时代不一样。它的核心是Agent,也就是智能体,封装的是智能,交付的是结果。所以企业可以只有一个官网、几个账号去展示信息,但一定会有大量的Agents去接管从生产到经营的各种环节,直接创造价值。
去年我们说,有多少场景,就有多少Agents。现在看来还是有些保守。现在的一个岗位、一个场景,以后就可能是几个、几十个Agents。
当价值的创造方式被重构,产业链也会进化,AI就会进入真正的“超级周期”。而今天,我们正站在这个超级周期的起点,加速进入智能经济时代!
智能经济时代,一定要有新的基础设施来支撑,这就是智能优先的AI云!企业对基础设施的要求,已经从“降本增效”转向“直接创造价值”。所有计算产生的智能都会被封装进Agents,参与价值创造和交付。企业的AI云,不再是成本中心,而会成为新型的利润中心。
十年前,2015年,百度智能云成立,那时候我们就强调云的智能属性,是全球最重视“智能”的云平台,也是迄今唯一用“智能云”命名的云平台。三年前,我们率先搭建了当时国内规模最大的GPU集群,从以CPU云服务为主的云平台转型到以GPU云服务为主的云平台。
今天,我们进一步升级,打造云智一体、智能优先的新一代AI云基础设施,一切以智能为核心,致力于提升智能的天花板、扩大智能的渗透面,成为中国AI引领世界、造福人类的坚实底座。
其实这几年,我们一直在思考:什么才是真正的AI云,怎样才能真正做到“智能优先”?
我们反复实践后的结论是:算力、模型、数据和工程能力,这四个,是AI云的核心要素。
算力规模会不断扩大,数据持续会提供原料,模型智能会加速提升,而工程平台通过强大的调度和编排能力将前三者融合,形成一个统一的、持续进化的AI云基础设施,这样才能支撑起Agent等大模型应用的飞速增长。
今天,中国作为AI技术的策源地,要保持领先,我们就要在算力、模型、数据、工程这四个核心要素上持续创新。总结起来,我们可以把他们分成两大类,AI计算和AI开发。
今天我来和大家分享一下百度在这方面的经验和进展。
先说AI计算。
在计算领域,Scaling Laws会持续发挥作用。极致的计算效率仍然是大模型能力上限提升的核心驱动力。
三年前,预训练的scaling大幅提升了模型的通用能力;那时我们就具备了建设10万卡超大规模集群的能力,可以帮客户把不同厂商、不同代际的GPU放在一个集群中管理起来,大幅提升了整体算力的可用性和利用率。
之后,稀疏MoE模型在保持计算量不变的情况下,可以进一步扩大模型的参数规模,给scaling提供了更大的空间。但MoE模型所面临的多专家并行的通信开销成为了新瓶颈。今年4月份我们发布的昆仑芯超节点,就是为了在更大参数规模的MoE架构下,进一步提升计算效率。
今年,还有一个非常明显的趋势,是强化学习的scaling。强化学习通过可验证的奖励机制,激发了模型更深层次的逻辑推理能力,它所采用的训推一体的计算范式,也带来了今年最重要的AI计算范式的变革。
今天,面对这三重范式的需求叠加,我们对AI计算基础设施做了全面升级。这就是我们今天的第一个发布——百度百舸5.0!
这些概念可能不是在座的每一位都很熟悉,但这确实是整个智能提升的基础中的基础。现在计算的瓶颈,主要在四个方向:网络、算力、推理系统,以及训推一体的整体计算效率。
百舸5.0在这四个方向上都做了重点升级。
百舸提供200Gbps的高速VPC网络,支持巨型帧传输,可以显著提升推理阶段KV Cache传输、训练阶段Checkpoint读写这些核心环节的计算效率。同时百舸还支持单集群十万卡RDMA互联网络,可以把端到端的延迟压缩到4微秒。今年MoE模型已经进化到了万亿参数规模,面对这种海量、高频、延迟敏感的All-to-All通信的瓶颈,把模型放进单节点跑肯定是最优的策略。所以我们4月推出的昆仑芯超节点,其中核心突破之一,就是百度自研的X-Link协议,把卡间带宽提升8倍,把延迟做到国内最低,让专家并行的通信更快,最大程度地释放芯片的计算性能。
昆仑芯超节点,已经正式上线百度智能云的公有云服务!目前最大的开源模型参数达到了1万亿。只需要几分钟、1个云实例,就可以轻松把它跑起来。
根据我们最新的测试结果,它的性能达到了上一代实例的8倍!单卡吞吐提升近一倍,比国内同类的领先产品,还要高出15%!
百舸首创了事件驱动的分布式KV Cache,有效规避重复计算,实现“用存储,换计算”。在百舸5.0的推理系统上,DeepSeek R1的推理吞吐可以再提升50%。也就是说,相同的时间、相同和成本,用了百舸,能让模型多做50%的思考、多干50%的活。
刚才,我讲了网络、算力和推理。最后是强化学习训推一体,这也是当前最重要的计算范式。但这里有非常复杂的工程问题,我们需要让「推理采样、奖励评估、训练更新」这一条流水线高效运转,实现整体效率最大化。这里最大的挑战,是训练和推理有完全不同的计算特性:它们的计算负载结构、算法逻辑都不同,甚至还会用到不同类型的芯片。
年初DeepSeek R1刚推出的时候,我们看了一圈,当时市面上可用的强化学习框架,效果都不够好。经过多次实验和工程创新,百舸取得了很大的进展,这就是我们的百舸强化学习框架。我们在训练、推理、存储和工具调用的每一个环节,都做了极致打磨,把单点吞吐推到极限。不仅如此,我们还通过系统性工程能力,实现了全局效率最优,从最强“单点算力”进一步做到最强“系统吞吐”,把强化学习的整体效率提升到行业新高度。现在,这套能力已经支撑了百度内部在金融、教育、编程、客服等多个领域的强化学习训练,效果很明显。
目前百舸已全面适配主流开源具身VLA模型,同时在WM世界模型和VLM模型上,全面实现了提效。尤其在VLM模型上,强化学习是模型在复杂环境、交互反馈下实现能力进化的关键手段,中心正是基于百舸将强化学习的训练速度提升了一倍多,显著加快了模型迭代节奏。
现在,百度智能云已经支持了包括北京、上海、浙江、广东创新中心在内的具身智能“国家队”,也在为产业链上超过20家重点企业提供强大支撑。具身智能正从实验室走向现实世界,我们希望包括百舸在内的一系列产品技术可以帮助大家抓住这次窗口期,抢占主动、赢得先机。此外,我们也在和金融、自动驾驶等多个行业的更多客户和伙伴展开了广泛合作。
硬核的计算之上,是AI开发。今天AI开发的核心,是Agent。但今天的Agent,和一年前已经完全不同。
过去,Agent主要处理一些步骤简单、规则明确的任务,为此,千帆提供了一些基础的工具调用、工作流编排能力。
现在,模型能力更强了,Agent也能处理更加复杂的任务。我们接着提供了更丰富的上下文管理工具,把RAG、记忆、工具调用等能力统一封装,让Agent能调动更多的外部工具和资源。
但是模型同时理解、处理多个任务的能力毕竟是有限的。在一些复杂场景下,把一个任务拆解开,让多个Agents协同工作,能取得更好的效果。这时候,根据场景选择合适的协作模式和沟通方案就成了提升效果的关键。
未来,这些处理不同复杂度问题的Agents会长期共存。企业需要一套真正系统化的AI开发基础设施,既要易用,又要强大,还能支撑Agent开发范式的持续创新。
而这也是我们做千帆的初心。我们要打造一个高效的AI能力工厂,帮大家降低Agents开发门槛,加速应用落地。
所以,今天,千帆平台再次升级,这就是千帆4.0!
全新的千帆,就是以Agent为核心的一站式企业级服务平台,为开发者提供Agent开发所需要的模型、Agent编排、数据和企业级服务等能力。
千帆的模型库迎来全面升级!为您提供包括深度推理、视觉理解、视觉生成、语音等超过150个模型,让您可以第一时间用上最合适的模型,灵活适配,无感切换。
模型只是开始。我们还需要有好用的工具和编排框架,才能开发出高价值的Agents,让它们更可控而且有能力处理更复杂的任务。
在实际业务中,很多问题天然适合拆解成多个类型的子任务,通过不同的Agents协作来完成。
比如在科研场景下,不同的Agents可以聚焦不同的环节,有的做方案调研,有的做实验设计,有的写报告……他们各司其职、配合默契,研究进展就能快很多。
当然,这也带来了新的挑战:遇到复杂任务,如何高效规划,让多个Agents有效协同,给出更稳定、可靠的交付结果,至关重要。
为此,我们正式发布:千帆多智能体协作模式!
大家知道,前段时间比较火的manus,就是一个多智能体协作的Agent。现在,千帆上提供了多智能体协作框架并且预置了一些高质量的Agents,基于这些能力,您可以在千帆上,定制自己的manus!
未来,千帆上也会提供更多的场景样板间,帮大家在更多的业务场景下,高效开发自己的智能体。
当然,不论是精调模型还是开发编排Agent,数据都是基础,甚至成了比算力都重要的核心要素,因为算力是标准的,可以买到,而数据才是秘密武器。
从我们多年的实践来看,工程师有50%到80%的时间,都得花在数据治理上。
我们的千帆数据智能服务平台,覆盖了多模态数据采集、转换、处理、检索、服务等数据治理的全生命周期,通过一站式多模态数据管理与处理能力,以最低成本,最大化数据价值!
我们已经服务了百度内部,像文心大模型和文库等多个产品的研发,数据开发效率提升了30%到6倍不等。在外部,我们也服务了多个头部车企和时空壶这样的明星企业。
刚才讲的模型、Agent编排和数据服务平台,会极大地简化Agent开发的过程。
但把Agent做出来只是第一步,当Agent被嵌入到企业的核心系统、成为企业运营的一部分、要成为“真正有用的AI”的时候,必须要求服务稳定、安全、可控。这里考验的是企业级全栈AI能力。
从十年前我们开始探索AI云的全栈布局,到今天见证整个AI产业生态的全面爆发,我们很高兴的看到,越来越多的同行开始加大智能投入,丰富了从底层基础设施、到大模型以及开发平台的选择;也看到,越来越多的客户和伙伴也逐步掌握了大模型,在应用落地上不断取得成功,打开了全新的市场机会。
未来,我们会持续、坚定地投入AI云基础设施建设,与客户和伙伴一起,深入产业,共创智能经济时代。让智能,生成无限可能!