CoreWeave率先推出NVIDIA H200 Tensor Core GPU

CoreWeave的创新Mission Control平台提供高性能的AI基础设施,具有高系统可靠性和韧性,使客户能够大规模使用NVIDIA H200 GPU加速其生成式AI应用程序的开发。图片{ width=60% }


CoreWeave,AI超大规模服务提供商,今日宣布成为首家将NVIDIA H200 Tensor Core GPU引入市场的云服务提供商。CoreWeave已经证明在大规模AI基础设施领域率先推出,曾是首批提供大规模NVIDIA H100 Tensor Core GPU集群并采用NVIDIA Quantum-2 InfiniBand网络互连的公司,该集群于2023年6月刷新了MLPerf训练记录。如今,CoreWeave的基础设施服务被用于训练来自Cohere、Mistral和NovelAI等客户的最大型和最雄心勃勃的模型。

NVIDIA H200 Tensor Core GPU旨在通过提供4.8TB/s的内存带宽和141GB的GPU内存容量来推动生成式AI的边界,从而实现比H100 GPU高达1.9倍的推理性能。CoreWeave的H200实例将NVIDIA H200 GPU与Intel第五代至强(Emerald Rapids)CPU和3200Gbps的NVIDIA Quantum-2 InfiniBand网络相结合,并部署在拥有最多42,000个GPU和加速存储解决方案的集群中,以提供强大性能,并使客户大幅降低训练其GenAI模型的时间和成本。

CoreWeave的CEO兼联合创始人Michael Intrator表示:“CoreWeave致力于推动AI开发的边界,并通过我们与NVIDIA的长期合作,率先推出了与NVIDIA H200 GPU结合的高性能、可扩展和韧性基础设施。这种GPU与我们的技术结合,使客户能够以前所未有的效率解决最复杂的AI模型,并实现新的性能水平。”

CoreWeave的Mission Control平台通过软件自动化管理AI基础设施的部署和运行时间,提供客户无与伦比的可靠性和韧性。该平台通过使用先进的系统验证流程、积极的车队健康检查和广泛的监控功能,帮助客户更快、更高效地训练模型。CoreWeave丰富的可观测工具和服务套件在所有关键组件上提供透明度,赋予团队维护不间断的AI开发流程的能力。这意味着降低系统停机时间、更快的解决方案时间和更低的总体所有权成本。

NVIDIA副总裁兼超大规模和HPC部门负责人Ian Buck表示:“CoreWeave在迅速高效地部署NVIDIA技术方面有着成功的记录,确保客户拥有最先进的技术来训练和运行生成式AI的大语言模型。搭配NVLink和NVSwitch以及增加的内存容量,H200旨在加速最苛刻的AI任务。配合由Mission Control驱动的CoreWeave平台,H200为客户提供了先进的AI基础设施,将成为行业创新的支柱。”

除了将最新的NVIDIA GPU引入市场并拓展其云服务组合外,CoreWeave正快速扩大其数据中心运营以跟上对其行业领先基础设施服务的需求。自2024年初以来,CoreWeave已完成了9个新的数据中心建设,另有11个正在进行中。该公司预计年底将在全球拥有28个数据中心,并计划在2025年新建10个数据中心。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

CoreWeave率先推出NVIDIA H200 Tensor Core GPU

https://www.gptnb.com/2024/09/03/2024-09-02-auto3-rQ2y7K/

作者

ByteAILab

发布于

2024-09-03

更新于

2025-03-21

许可协议