买不到GPU,马斯克自曝AI巨兽Dojo!自研超算挑战英伟达,约等于8千块H100

文章来源:新智元

【导读】多年来,马斯克一直在公开谈论Dojo——这台超算将成为特斯拉人工智能雄心的基石。他最近表示,随着特斯拉准备在10月推出Robotaxi,AI团队将「加倍投入」Dojo。


为了训出最强Grok 3,xAI耗时19天,打造了由10万块H100组成的世界最大超算集群。而在训练FSD、擎天柱机器人方面,马斯克同样不惜重金,投入了大量的计算资源。

超算Dojo,是特斯拉AI的基石,专为训练FSD神经网络而打造。就在今天,他在德州超级工厂(Cortex)参观了特斯拉的超级计算机集群。马斯克称,「这将是一个拥有约10万个H100/H200 GPU,并配备大规模存储的系统,用于全自动驾驶(FSD)和Optimus机器人的视频训练」。

不仅如此,除了英伟达GPU,这个超算集群中还配备了特斯拉HW4、AI5、Dojo系统。它们将由一个高达500兆瓦的大型系统提供电力和冷却。

2021年特斯拉AI Day上,马斯克首次对外宣布Dojo。如今三年过去了,Dojo建得怎样了?

8000块H100等价算力,加倍下注

半个月前,网友称2024年年底,特斯拉拥有AI训练算力,等价于9万块H100的性能。马斯克对此做了一些补充:

我们在AI训练系统中不仅使用英伟达的GPU,还使用自己的AI计算机——Tesla HW4 AI(更名为AI4),比例大约为1:2。这意味着相当于有大约9万个H100,加上大约4万个AI4计算机。

他还提到,到今年年底,Dojo 1将拥有大约8000个相当于H100算力。这个规模不算庞大,但也不算小。

Dojo D1超算集群

其实在去年6月,马斯克曾透露Dojo已经在线并运行了几个月的有用任务。这已经暗示着,Dojo已经投入到一些任务的训练中。

最近,在特斯拉财报会议上,马斯克表示特斯拉准备在10月推出自动驾驶出租车,AI团队将「加倍投入」Dojo。

预计Dojo的总计算能力,将在2024年10月达到100 exaflops。假设一个D1芯片可以实现362 teraflops,要达到100 exaflops,特斯拉将需要超过27.6万个D1芯片,或者超过32万英伟达A100 GPU。

参考资料:
- TechCrunch: Tesla Dojo: Elon Musk’s Big Plan to Build an AI Supercomputer Explained
- Tom’s Hardware: Tesla’s Dojo System-On-Wafer is in Production, A Serious Processor for Serious AI Workloads

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

买不到GPU,马斯克自曝AI巨兽Dojo!自研超算挑战英伟达,约等于8千块H100

https://www.gptnb.com/2024/08/09/2024-08-08-auto4-rj8OZI/

作者

ByteAILab

发布于

2024-08-09

更新于

2025-03-21

许可协议