处理器

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算

近年来,超级计算机界一直在努力探索“百亿美元”的愿景(10 ^ 18),有望为未来十年的发展定下基调。 英特尔和阿贡国家实验室创建的Aurora超级计算机正在朝着这个目标前进。

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算图片

英特尔与阿贡国家实验室签署了一段时间的合同,但是随着市场的变化和硬件制造商的挫折,该项目进展缓慢。 阿贡国家实验室最初希望Argonne,Cray和英特尔能够在2英特尔 Xeon Phi平台周围构建Aurora超级计算硬件,这可以通过英特尔 AVX-512指令和10nm实现骑士山建筑。提高吞吐量和速度。

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算图片

不幸的是,Aurora超级计算计划在人工智能(AI)加速革命之前对其进行自定义。然后英特尔将AVX-512支持添加到服务器处理器,并终止Xeon Phi平台(短命的Knights Mill)。 英特尔必须重新考虑如何构建Aurora以及如何将其与自己的CPU和Xe GPU集成。


英特尔公开了Aurora超级计算的一些基本信息。尽管没有公开架构的核心数量和存储器类型,但至少已知标准节点将包括双路下一代CPU和六向下一代GPU硬件。与新的连接标准进行协作。计划用于英特尔的Sapphire Rapids CPU是继Ice Lake Xeon处理器之后的英特尔的第二代10纳米服务器处理器。

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算图片

该公告还重申,该处理器预计将在2021年下半年启动,Ice Lake将在2020年底前实现量产。就参数而言,在单个Aurora计算节点中,020- 1个Sapphire Rapids处理器可以协同工作,并支持下一代双路7 DCPMM持久存储; Sapphire Rapids处理器支持8个内存通道,并具有与双路8 GPU I/O的足够连接性。另一位消息人士称,Sapphire Rapids可能支持DDR5,但英特尔尚未证实。

在GPU方面,每个Aurora节点将基于Xe架构微体系结构,使用大量的英特尔关键封装技术,支持六卡协作(英特尔 7nm Ponte Vecchio Xe GPU)。 Foveros芯片堆叠,嵌入式多芯片相互连桥(EMIB)和现有高带宽(HBM)。 英特尔声称PV将具有矢量矩阵单元和高双精度性能,这对于Argonne进行的研究可能是必要的。

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算图片

英特尔表示Xe图形体系结构非常灵活,可以实现从低功耗领域到高性能计算领域的全面覆盖:“一个体系结构,多个微体系结构和一个通用的编程模型。” Xe体系结构的灵活性在于内部微体系结构的可定制性。它可以为不同市场中的关键应用程序启动相应的体系结构,例如在高性能计算市场中推出具有高双精度浮点计算性能的产品,以及针对AI。加速市场可以将更多的张量单元打包到体系结构中以实现目标加速。

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算图片


Xe架构的HPC版本将具有三个功能。首先,用于AI领域的弹性数据并行向量矩阵引擎可以有效地加速AI训练。第二个是双精度浮点单元。目前,普通游戏图形对双精度计算的要求不高,但是在传统的高性能计算市场中,它的工作量仍然很大,因此双精度计算单元是高精度计算的不可或缺的组成部分。性能计算卡体系结构。最后,超高的缓存带宽是计算卡提高其计算吞吐量的推动力。

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算图片

Aurora节点中的另一项核心技术是使用新的CXL连接标准,该标准允许CPU和GPU直接连接并在统一的内存空间中工作。每个Aurora节点将具有8个Fabric端点,提供大量的拓扑连接选项。通过添加Cray部分,连接系统将成为其Slingshot网络体系结构的一个版本。

英特尔表示Slingshot将为Aurora提供约200个机架连接,总共10PB的内存和230PB的存储。

英特尔或提供双路 CPU +六个GPU节点用于Aurora超级计算图片

综上所述,可以很容易地估计出Aurora超级计算具有以下特征:
支持200个机架一起工作;
每个机架可以采用标准的42U配置。
每个Aurora节点都是标准的2U配置。
系统或总共200个机架;
每个机架都支持6U和网络功能;
其中三分之一可用于存储和其他系统;
汇总得到2,400个Aurora超级计算节点(2394)。

如果是这种情况,则整个Aurora超级计算系统仅使用5,000个英特尔蓝宝石急流CPU和15,000个Ponte Vecchio GPU,并将ExaFLOP平均分配给15,000个子单位供应商,每个GPU的平均计算能力为66.6 TeraFLOP。当前GPU的FP32性能只有大约14TeraFlops,而英特尔可以将HPC的单个GPU性能提高5倍,这也非常令人惊讶(假设未考虑功耗限制)。

暴走电脑www.baozougouwu.com总结:【天极网DIY硬件频道】 近年来,超级计算机界一直在努力探索“百亿美元”的愿景(10 ^ 18),有望为未来十年的发展定下基调。 英特尔和阿贡国家实验室创建的Aurora超级计算机正在朝...欢迎把本文分享给你的朋友:https://www.baozougouwu.com/article/13092.html 点此投稿

京东电脑电脑配件选购

相关推荐