特斯拉披露百万核心 Dojo 超算故障检测技术,出错一次可致数周 AI 训练工作白费

2025-06-08 13:42:44 作者:精选手游网

本站 6 月 7 日消息,特斯拉昨日发文,向用户介绍了其百万核心级 Dojo 超算系统的故障核心检测技术。

据介绍,该公司开发的 Stress 工具能够在不停机的状态下,跨处理器乃至跨集群检测易引发静默数据错误(SDC)的核心。

特斯拉表示,Dojo 是当前全球唯二现存的最大处理器之一。这种晶圆级芯片采用整片 300mm 晶圆制成,单芯片尺寸已达物理极限。

由于 Dojo 大芯片的超高复杂性,即使在制造过程中也难以 100% 检测缺陷晶粒,而静默数据错误的检测更困难。

虽然 SDC 在所有硬件上都难以避免,但 Dojo 处理器有着8,850 个核心、18000A 电流及 15000W 的超高功耗,这会严重放大其影响,因此所有核心必须按设计运行,否则单个数据错误便可毁掉整个耗时数周才能完成 AI 训练成果。

特斯拉将晶圆级 Dojo 处理器称为“训练模块”,每个模块包含 25 个 645mm² 的 D1 Chip,采用台积电 InFO_SoW 技术封装,集成 354 个定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存储数据和指令),以 5×5 集群排列并通过机械网络互联,可提供 10TB/s 带宽。每个 D1 还支持 4TB/s 片外带宽,因此单个“训练模块”总共具备 8,850 核心,支持 8/16/32/64 位整数及多种数据格式。

为应对核心故障风险,特斯拉最初采用差分模糊测试技术:生成随机指令集并同步发送至所有核心,通过比对输出结果识别差异。但因为主机与训练模块间通信开销过大,该过程耗时明显过长。

为了提高效率,特斯拉想办法改进了其检测技术,这个过程主要通过三项创新来完成:

小编推荐

排行榜