最近几周,微软、谷歌以及Meta相继展示了基于Nvidia Blackwell平台的机架解决方案,我们来看一下这几款机架解决方案。
微软
微软10月8日在社交网络X的账号表示:微软Azure成为首个运行Nvidia Blackwell系统的云平台,搭载了GB200驱动的AI服务器。通过在各层级进行优化,该平台能够支持世界上最先进的AI模型,特别是利用了Infiniband网络和创新的闭环液冷技术来提高性能和散热效果。有关更多信息将在Microsoft Ignite大会上公布。
看上去右边三分之二的区域用于冷却。
谷歌
谷歌也是通过社交网络X发布的图片,谷歌表示这是在实验室中正在进行的定制GB200 NVL机架,更多信息将在10月30日的举行的谷歌云应用开发和基础设施峰会展示。
谷歌没有披露采用了什么样的网络,可能不是Infiniband网络。
相比微软的机架方案,这个只占有两个机架的空间。
Meta
在上周的2024 年开放计算项目 (OCP) 峰会上,Meta展示了基于NVIDIA Blackwell 平台全机架解决方案Catalina。其重点关注模块化和灵活性,旨在支持最新的 NVIDIA GB200 Grace Blackwell Superchip,确保满足现代 AI 基础设施日益增长的需求。
这款机架能够支持高达140kW的功率。完整的解决方案采用液冷,由支持计算托盘、交换机托盘、Orv3 HPR、Wedge 400结构交换机、管理交换机、电池备用单元和机架管理控制器的电源架组成。
下面是Catalina的正面图和后视图,我们可以看到,这个机架解决方案只用了一个机架空间。