CoreWeave首发NVIDIA H200 Tensor Core GPU
CoreWeave的创新Mission Control平台提供高性能的AI基础设施,具有高系统可靠性和弹性,使客户能够在规模上使用NVIDIA H200 GPU加速其生成式AI应用程序的开发。{ width=60% }
CoreWeave,AI超大规模提供商,今天宣布,他们是第一个将NVIDIA H200 Tensor Core GPU引入市场的云提供商。CoreWeave一直以率先推出大规模AI基础设施而闻名,曾是首批交付了一个与NVIDIA Quantum-2 InfiniBand网络互连的大规模NVIDIA H100 Tensor Core GPU集群的供应商,在2023年6月的MLPerf训练记录中取得了突破。如今,CoreWeave的基础设施服务被用于训练来自Cohere、Mistral和NovelAI等客户的一些最大和最有雄心的模型。
NVIDIA H200 Tensor Core GPU旨在通过提供4.8 TB/s的内存带宽和141 GB GPU内存容量来推动生成式AI的界限,从而实现比H100 GPU高达1.9倍的推理性能。CoreWeave的H200实例将NVIDIA H200 GPU与英特尔第五代至强处理器(Emerald Rapids)和3200Gbps的NVIDIA Quantum-2 InfiniBand网络相结合,并部署在最多42,000个GPU的集群中,配备加速存储解决方案,以提供强大的性能,并使客户大幅降低训练GenAI模型的时间和成本。
“CoreWeave致力于推动AI发展的界限,并通过与NVIDIA长期合作,率先推出了带有NVIDIA H200 GPU的高性能、可扩展和弹性基础设施,”CoreWeave的首席执行官兼联合创始人Michael Intrator表示。“H200 GPU与我们的技术结合,赋予客户以前所未有的效率来应对复杂的AI模型,并实现卓越性能的新水平。”
CoreWeave的Mission Control平台通过软件自动化管理AI基础设施部署和正常运行的复杂性,为客户提供无与伦比的可靠性和弹性。该平台通过使用先进的系统验证流程、主动式舰队健康检查和广泛的监控功能,帮助客户更快、更高效地训练模型。CoreWeave丰富的可观察工具和服务套件在整个系统的所有关键组件上提供透明度,使团队能够维护不间断的AI开发流水线。这转化为减少系统停机时间、更快的解决方案时间以及更低的总拥有成本。
“CoreWeave以迅速和高效地部署NVIDIA技术而闻名,确保客户拥有最新的尖端技术,用于训练和运行生成式AI的大型语言模型。”NVIDIA的超大规模和HPC副总裁Ian Buck表示。“H200设计用于加速最具挑战性的AI任务,配合由Mission Control驱动的CoreWeave平台,H200为客户提供先进的AI基础设施,将成为该行业创新的支柱。”
除了将最新的NVIDIA GPU引入市场并推进其云服务组合,CoreWeave正在快速扩大其数据中心运营,以满足对其领先行业基础设施服务的需求。自2024年初以来,CoreWeave已完成了九个新数据中心的建设,另有11个正在进行中。该公司预计今年将在全球拥有28个数据中心,并计划在2025年另建10个新数据中心。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
CoreWeave首发NVIDIA H200 Tensor Core GPU