互联战争:被群殴的英伟达

文章来源:远川科技评论

今年早些时候,外媒曝光了微软与OpenAI的一项“疯狂计划”:斥资千亿美金,定制一个史无前例的数据中心。然而,面对这一重大利好,英伟达却心情复杂:

爆料显示,OpenAI拒绝使用英伟达的InfiniBand网络设备,转而投奔以太网的阵营。


众所周知,一个数据中心往往有数千甚至上万台服务器;而连通这些服务器的,正是以InfiniBand和以太网为代表的网络互联技术。

英伟达是InfiniBand路线的主要玩家,独家提供了相关的交换机、电缆等硬件设备;其余的科技公司,则扎堆在以太网赛道。

OpenAI的“反水”,对英伟达而言是个巨大噩耗。

要知道,InfiniBand与以太网,彼此已互相竞争多年。InfiniBand曾一度遥遥领先:2015年时,超级计算机Top500榜单中,超半数的上榜者都在使用InfiniBand。但在当下,随着大客户陆续倒戈,InfiniBand正在输掉比赛。

去年7月,AMD、微软等9家硅谷大厂联手成立了超以太网联盟(UEC),准备彻底击溃InfiniBand。今年一季度,英伟达的InfiniBand网络设备收入,出现了环比下降。与数据中心等一路狂飙的业务相比,显得格外突出。

那么问题来了:

1.英伟达的“亲儿子”InfiniBand,为何会处于劣势?

2.对于英伟达而言,互联为何是场不能失败的竞赛?

派别之争

InfiniBand的初衷,是为了解决当前算力最大的瓶颈——传输速度。

两台服务器连接在一起,“1+1”所实现的算力必定会“小于2”,因为数据传输速度远远小于服务器的算力。可以把每台服务器,想象成一座拥有一万辆卡车的小城镇;受制于客观环境,每天只能往隔壁城镇运输200卡车的货物。

数据中心则是由上千个小镇构成的王国。小镇与小镇之间的运输问题,会严重拖累整个王国的发展。

而限制传输速度的罪魁祸首,是落后的网络协议。

所谓网络协议,可以简单理解为一种“交通规则”。计算机之间的信息传输,都沿着这一“交通规则”有序进行。最初的交通规则,是一种名为TCP/IP的网络协议。

这项交通规则,有个明显缺陷:数据在传输时,需要经过CPU,极度占用CPU资源,导致延迟特别高。

相当于卡车运货的公路上,设有大批人工收费站。车子每开一段路,都要停下来掏出钱包缴费,造成了严重拥堵,运行效率可想而知。

在这一大背景下,全新的RDMA网络协议(远程直接内存访问)应运而生。顾名思义,它可以绕过CPU,直接访问另一台服务器的内存。换句话说,新的交通规则,将高速公路上的人工收费站全撤走了,改设成ETC。

但基于RDMA网络协议,业界却衍生出了两个不同的实现方向:

一是“外部革新派”。

基于RDMA全部推翻重来,重新构建一套网络协议,以实现极致的性能。其成果,正是英伟达的InfiniBand。全新的交通规则,使得数据传输可以同时绕过CPU与内存,相当于把ETC也撤了,直接通过GPU进行数据交互。

InfiniBand(无限带宽)这个名字,正是其极致理念的一种体现。

二是“内部改良派”。

一个热知识,以太网是最普及的局域网技术,几乎所有计算机系统都支持以太网设备。改良派的做法,正是利用RDMA网络协议,去改造以太网。

由此可见,InfiniBand与以太网的竞争,本质是同一技术路线的派别之争。

在算力供应严重不足的当下,大刀阔斧革新的InfiniBand,本应更…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

作者

ByteAILab

发布于

2024-06-30

更新于

2025-03-21

许可协议