设计工具
存储

未来不断发展的计算系统架构

乔纳森·辛克尔| 2024年3月

在动态的技术领域, 计算系统架构正在经历一场深刻的变革. 当我们接近一个前所未有的计算需求的时代,加上摩尔定律的缓慢进展, 计算机架构师和设计工程师现在正在从根本上重新构想我们的设计方式, 构建, 配置系统. 大量新的工作负载需求正在塑造计算机架构和节能硬件的未来,并且正在出现几种通过模块化来满足这些需求的支持技术.
 

驱动系统架构变化的新需求
 

正如许多人已经注意到的那样,人工智能革命已经到来. 人工智能(AI),特别是深度学习(DL)已经超越了研究实验室的领域,现在已经成为云计算公司和各个行业增长计划中不可或缺的一部分. 从医疗保健诊断和筛查到财务预测, 人工智能算法正在推动决策过程. 以有效的方式存储和处理所有这些数据变得越来越困难, 大规模的法学硕士和GenAI培训在推动能力方面居于首位. 

随着数据量的不断增长,一个特别有趣的挑战是如何将其提供给驱动深度学习模型训练的主要计算引擎——通常是GPU或在某些情况下, AI-specific处理器. 数据集变得如此之大,以至于它们不仅不适合GPU直接附加的高带宽内存(HBM)的容量,甚至可以超过本地系统内存容量.  除了DRAM, NAND闪存存储设备将很快成为实现更强大人工智能功能的另一个关键组件. 在具有适当性能的系统中扩展可用容量似乎越来越多地涉及提供具有成本效益的带宽,同时最小化降低性能和浪费功率的通信步骤和中间阶段.  与此相关的是数据路径的一般解耦, 数据流动的主要路径, 从控制路径上以便更好的优化两者.  类似的优化模式在过去也曾在其他领域进行过,比如使用SDN和OpenFlow进行联网, 但现在应用于人工智能的特定架构.

满足人工智能近期需求的另一个重大困难也与之前的行业挑战相似——如何跟上频繁的技术变革和新的优化系统架构.  而开发新沙巴体育结算平台所需的时间, 复杂的系统硬件设计并没有显著改善-对最新进展和新优化系统的需求大大增加, 通过更好的性能或效率提供竞争优势.  因为主要的工作量需求仅在过去一两年才开始变得明显, 频繁的变更使得及时交付最知名的解决方案变得极其困难.
 

支持系统架构的新模块化技术
 

以帮助跟上动态技术领域的步伐, 组织已经开始开发模块化计算模型,例如开放计算项目(OCP)模块化硬件系统(MHS),将一些复杂的系统分解成不同的部分. 虽然一直有可插拔的模块和卡来实现各种功能, 现代系统的传统方法是将核心计算子系统与处理器集成在一个主系统板上. 这种集成提供了一个, 具有固定功能比率的低成本实现可能为大批量提供有益的解决方案. 然而, 构建和测试此类系统的时间以及所需的开发成本(NRE)使得使用最新组件频繁构建新配置变得令人望而生畏,而这对于运行关键工作负载的最高性能是理想的. 

通过将复杂的系统设计分成更小的, 每个子系统的可互换板, 特别是包含一个标准占用空间的主机处理器模块(HPM),它只包含CPU和内存, 新的系统设计可以从现有的通用模块组装.  提供新技术的电路板也可以更快地开发并与现有的通用电路板一起使用,从而大大缩短部署新系统功能的时间.  例如, 你可以想象一个新的内存扩展模块,提供更高的容量组装在一个给定的机箱与相同的存储背板, HPM, 网络和存储与以前的内存扩展模块一样.  这种通用的占用模块允许以更灵活的方式配置系统,从而更好地适应特定的工作负载需求——在下一代需求并不总是众所周知的情况下,这种配置更有价值. 

 

一些关键的OCP DC-MHS模块(由英特尔提供)*

 

与系统板的模块化有一些相似的好处, 另一项有益的技术是最近对小芯片通用接口的标准化.  通过将单片芯片分解成独立的芯片, 它们允许高效的制造和具有成本效益的生产.  小晶片可以为特定组件提供先进的制造方法,而为其他组件使用旧方法, 扩大沙巴体育结算平台范围, 提高效率. 随着新技术的发现和发展,以提高计算性能的艺术状态, 每个芯片都可以独立设计和升级. 这促进了灵活性, 采用快, 更容易维护新功能,包括那些可以加速新的人工智能模型和新兴工作负载的功能.
 

用EDSFF标准支持未来的系统需求
 

由SNIA的SFF技术附属小组发布的企业和数据中心标准外形尺寸(EDSFF)行业标准也在满足系统架构不断发展的需求方面发挥着作用. EDSFF标准是一组相互依赖的规范,使连接器兼容的可插拔模块具有特定的外形因素(FF)。, E1和E3.  E1 ff, E1.S(简称)和E1.L(长),可垂直安装在1U机架系统空间中.  E3 ff, E3.S(简称)和E3.L(长),垂直安装在2U的机架系统空间中.

 

 

当我们刚开始在行业中制定这些标准时, 我们中的一些人都有一个共同的信念,即它们应该是通用的,以便为我们的主要目标——数据中心优化存储设备——提供最佳工作,并支持新技术的采用和应用.

对于存储,EDSFF NVMe驱动器与传统形式因素相比具有以下几个优势:

  • 它们可以实现更高的存储密度, 在相同的物理空间中允许更大的存储容量和性能. 
  • EDSFF驱动器具有更好的热特性和更细的轮廓, 小档案, 表面积更大.
  • 支持简化电源支持+12V作为系统的主要电源电压轨.
  • 通过支持高达112Gbps信号的通用EDSFF标准廉价连接器,提高了高速接口的信号完整性和更高的功率支持.


这些优势对于人工智能工作负载尤其有价值, 这通常需要大量的高性能存储来存储模型训练数据. 较小的EDSFF驱动器通过扩展系统中的驱动器数量来提供高存储性能密度, 减少了GPU或处理器等待下一组数据的时间.  较大的外形尺寸可以支持每个驱动器的更高容量,因此非常适合为通常存放在外部存储系统中的非常大的训练数据集提供高性能的高容量存储层. 

由于EDSFF驱动器具有更好的热特性, 系统设计可以优化,以进一步改善GPU冷却,并在给定气流下获得更高的性能.  更小的外形驱动器还可以添加存储功能,以适应系统前部更小的空间, 为前风管提供空间,并为下游系统部件提供新风入口.

使用许多可插拔EDSFF存储设备为各种不同的工作负载配置系统的灵活性已经在生产中的服务器系统中得到了利用.  基于特定的工作负载需求, 存储容量, 表演, 电力可以在同一个系统中调节,以满足各种各样的需求.

除了存储, 我们最近还看到了利用EDSFF系列外形因素和标准高速接口的新设备的首次推出.  新的CXL协议提供了一种通过与PCIe相同的物理层信令和互连连接具有低延迟的设备的方法.  由于系统处理器和其他芯片可以在同一引脚上同时支持CXL和PCIe, 系统中的EDSFF设备插槽通常已经可以支持通过CXL协议连接的新设备. 在JEDEC行业组织推动存储器件和许多其他半导体相关标准, 我们最近发布了业界第一个CXL内存模块规范,称为CMM.  这些CMM设备通过带有CXL接口的模块上控制器连接标准DRAM设备,并插入符合edsff的系统插槽,以扩展系统内存容量,而无需重新设计系统板. 

 因此, 系统配置的灵活性已经扩展到使用EDSFF可插拔模块的内存和存储,并且可能会有更多类型的设备,包括通过PCIe或CXL连接的处理和网络.  这些设备增强了系统的灵活性, 能力, 和性能, 使它们成为人工智能驱动系统架构的理想选择.
 

展望未来的系统架构
 

总之,系统架构的未来在于适应性、可伸缩性和创新性. 当我们拥抱人工智能时, 模块化的设计, 以及尖端技术, 系统设计师和架构师在塑造数字景观方面发挥着关键作用——必须在系统层面进行更多创新, 从芯片封装到系统机箱和机架.  模块化系统设计, 小芯片和可插拔模块(如EDSFF驱动器)在不断变化的需求和健壮性之间起着桥梁作用, 最高性能的系统设计. 它们是系统更优化发展的关键推动者,因为灵活性是支持人工智能和其他高级工作负载未来需求的关键.

 

美光SBU(存储事业部)杰出架构师

乔纳森·亨

乔纳森·亨是美光存储业务部门的杰出技术人员,领导存储解决方案架构组织.  他和他的团队领导美光的存储标准工作, 是否对工作负载性能进行实际测试和分析, 研究新技术和新沙巴体育结算平台, 无论是在内部还是与客户和合作伙伴.  乔纳森是存储器行业领先的技术专家, 存储, 以及拥有超过25年经验的数据中心系统架构. 

乔纳森·辛克尔摄