互联战争:被群殴的英伟达
文章来源:远川科技评论
今年早些时候,外媒曝光了微软与OpenAI的一项“疯狂计划”:斥资千亿美金,定制一个史无前例的数据中心。然而,面对这一重大利好,英伟达却心情复杂:
爆料显示,OpenAI拒绝使用英伟达的InfiniBand网络设备,转而投奔以太网的阵营。
众所周知,一个数据中心往往有数千甚至上万台服务器;而连通这些服务器的,正是以InfiniBand和以太网为代表的网络互联技术。
英伟达是InfiniBand路线的主要玩家,独家提供了相关的交换机、电缆等硬件设备;其余的科技公司,则扎堆在以太网赛道。
OpenAI的“反水”,对英伟达而言是个巨大噩耗。
要知道,InfiniBand与以太网,彼此已互相竞争多年。InfiniBand曾一度遥遥领先:2015年时,超级计算机Top500榜单中,超半数的上榜者都在使用InfiniBand。但在当下,随着大客户陆续倒戈,InfiniBand正在输掉比赛。
去年7月,AMD、微软等9家硅谷大厂联手成立了超以太网联盟(UEC),准备彻底击溃InfiniBand。今年一季度,英伟达的InfiniBand网络设备收入,出现了环比下降。与数据中心等一路狂飙的业务相比,显得格外突出。
那么问题来了:
1.英伟达的“亲儿子”InfiniBand,为何会处于劣势?
2.对于英伟达而言,互联为何是场不能失败的竞赛?
派别之争
InfiniBand的初衷,是为了解决当前算力最大的瓶颈——传输速度。
两台服务器连接在一起,“1+1”所实现的算力必定会“小于2”,因为数据传输速度远远小于服务器的算力。可以把每台服务器,想象成一座拥有一万辆卡车的小城镇;受制于客观环境,每天只能往隔壁城镇运输200卡车的货物。
数据中心则是由上千个小镇构成的王国。小镇与小镇之间的运输问题,会严重拖累整个王国的发展。
而限制传输速度的罪魁祸首,是落后的网络协议。
所谓网络协议,可以简单理解为一种“交通规则”。计算机之间的信息传输,都沿着这一“交通规则”有序进行。最初的交通规则,是一种名为TCP/IP的网络协议。
这项交通规则,有个明显缺陷:数据在传输时,需要经过CPU,极度占用CPU资源,导致延迟特别高。
相当于卡车运货的公路上,设有大批人工收费站。车子每开一段路,都要停下来掏出钱包缴费,造成了严重拥堵,运行效率可想而知。
在这一大背景下,全新的RDMA网络协议(远程直接内存访问)应运而生。顾名思义,它可以绕过CPU,直接访问另一台服务器的内存。换句话说,新的交通规则,将高速公路上的人工收费站全撤走了,改设成ETC。
但基于RDMA网络协议,业界却衍生出了两个不同的实现方向:
一是“外部革新派”。
基于RDMA全部推翻重来,重新构建一套网络协议,以实现极致的性能。其成果,正是英伟达的InfiniBand。全新的交通规则,使得数据传输可以同时绕过CPU与内存,相当于把ETC也撤了,直接通过GPU进行数据交互。
InfiniBand(无限带宽)这个名字,正是其极致理念的一种体现。
二是“内部改良派”。
一个热知识,以太网是最普及的局域网技术,几乎所有计算机系统都支持以太网设备。改良派的做法,正是利用RDMA网络协议,去改造以太网。
由此可见,InfiniBand与以太网的竞争,本质是同一技术路线的派别之争。
在算力供应严重不足的当下,大刀阔斧革新的InfiniBand,本应更…
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。