比尔·盖茨支持的初创公司试图用光学晶体管重振摩尔定律
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2026-01-26 11:27
关键字: AI,LLM,芯片,算力
浏览: 1
点赞: 0
收藏: 0
随着摩尔定律逐渐停滞,以及实现每一代性能提升所需的能耗不断攀升,一些芯片设计者正将目光转向替代性架构以寻求突破。
Neurophos 就是其中一家试图颠覆摩尔定律、兑现模拟计算长期以来被承诺却尚未充分释放潜力的公司。
这家总部位于美国得克萨斯州奥斯汀的人工智能芯片初创公司表示,他们正在开发一种光学处理器(OPU),理论上可提供 470 petaFLOPS 的 FP4/INT4 算力——约为英伟达最新发布的 Rubin GPU 的 10 倍——而功耗却大致相当。
Neurophos 首席执行官帕特里克·鲍恩(Patrick Bowen)表示,低功耗部分归功于公司过去几年研发的微米级超材料光学调制器——本质上就是光子晶体管。
“如今硅光子工厂能制造出的‘光学晶体管’体积非常庞大,长度约 2 毫米。你根本无法在芯片上集成足够多的数量,以达到与当今数字 CMOS 相竞争的计算密度。”他解释道。
鲍恩表示,Neurophos 的光学晶体管体积大约缩小了 1万倍。“我们在今年 5 月首次流片就验证了这一点——我们能在标准 CMOS 工艺下实现这种器件,这意味着它与现有晶圆厂技术兼容。”
利用这些晶体管,Neurophos 声称已开发出相当于“张量核心”的光学版本。“芯片上有一个单一的光子张量核心,规模为 1000 × 1000(处理单元),”他说。
这远大于目前大多数 AI 加速器和 GPU 中常见的矩阵乘法引擎——后者通常最多只有 256×256 的处理单元规模。
不过,与英伟达 GPU 中部署数十甚至上百个张量核心不同,Neurophos 只需要一个。鲍恩透露,其第一代加速器上的这个张量核心面积约为 25 平方毫米。
其余占据整张光罩(reticle-sized)尺寸的芯片区域,用他的话说,是“为了支撑这个疯狂张量核心所需的一堆配套电路”。
具体而言,Neurophos 需要大量向量处理单元和 SRAM,以防止张量核心因数据供给不足而“挨饿”。这是因为该张量核心(再次强调,整颗晶粒上仅此一个)运行频率高达约 56 GHz。
但鲍恩指出,由于矩阵-矩阵乘法是以光学方式完成的,张量核心本身消耗的功率仅限于驱动光电转换(从数字到模拟再返回数字)所需的能量。
Neurophos 表示,其首款 OPU(代号 Tulkas T100)将采用双光罩设计,配备 768 GB HBM 内存,在负载下可实现 470 petaOPS 算力,功耗仅为 1–2 千瓦。
尽管这些数据听起来令人印象深刻,但必须注意的是,目前这些指标更像是目标而非现实。该芯片仍在积极开发中,预计要到 2028 年年中才能量产。即便如此,鲍恩也表示初期不会大规模出货:“我们说的是数千颗芯片,而不是数万颗。”
虽然 Neurophos 认为其光学张量核心可适用于广泛的 AI 推理工作负载,但预计首款芯片将主要用于“预填充”(prefill)处理。
大语言模型(LLM)推理可分为两个阶段:一是计算密集型的预填充阶段(处理输入 token),二是受内存带宽限制的解码阶段(生成输出 token)。
在过去一年左右,我们已看到英伟达等芯片厂商将预填充和解码任务拆分到不同的 GPU 池中。在其最新一代 GPU 中,英伟达专门开发了一款名为 Rubin CPX 的预填充加速器。
鲍恩设想 Tulkas T100 将扮演类似 Rubin CPX 的角色。“目前的构想(可能会调整)基本上是我们部署一个机柜,内含 256 颗我们的芯片,与类似 NVL576 的机柜配对使用。”他说。
从长远来看,鲍恩也希望攻克解码阶段,但他指出,在公司准备好处理 token 生成任务之前,还需发展多种技术,包括共封装光学(co-packaged optics)等。
尽管 Tulkas T100 至少要到 2028 年才会正式出货,但鲍恩表示公司正在积极开发一款概念验证(PoC)芯片,以验证其所宣称的算力与能效密度。
本周,Neurophos 宣布完成由 Gates Frontier 领投的 1.1 亿美元 A 轮融资,微软风投基金及其他投资者参投。鲍恩表示,这笔资金将用于推进 PoC 芯片的开发。