1月6日消息,AMD 在 CES 2023展会上推出了下一代面向数据中心的APU产品Instinct MI300,其采用chiplet设计,拥有13个小芯片,晶体管数量高达1460亿个。
具体来说,Instinct MI300由13个小芯片整合而成,其中许多基于3D堆叠的,拥有24个Zen4 CPU 内核,并融合了CDNA 3 图形引擎,以及共享的统一内存池,包括 Infinity Cache 高速缓存和8个HBM共享内存设计。
总体而言,该芯片拥有1460亿个晶体管,超过了英特尔的1000亿晶体管的Ponte Vecchio,成为了AMD投入生产的最大芯片。
从曝光的照片可以看到,MI300两侧拥有八个共计128GB的HBM3芯片,在这些 HBM3芯片之间还放置了多个小块结构的硅片,以确保冷却解决方案在封装顶部拧紧时的稳定性。
MI300的计算部分由9个基于台积电5nm工艺制程的小芯片组成,包括了CPU和GPU内核,但AMD并未提供每个小芯片的详细信息。
由于Zen 4 内核通常部署为八个核芯,因此24核CPU则意味着有3个小芯片是CPU芯片,另外6个则是GPU芯片。
GPU芯片使用AMD的CDNA 3架构,这是AMD数据中心特定图形架构的第三个版本。
AMD 尚未明确CU数量,不过官方公布的数据显示,CDNA 3的每瓦特AI性能达到了上代CDNA 2的5倍。
这9个小芯片是通过3D封装堆叠在4个6nm小芯片上,这些芯片不仅仅是无源中介层——这些芯片是有源的,可以处理I/O和各种其他功能。
AMD 代表展示了另一个 MI300 样品,该样品打磨了顶部模具,以揭示四个有源中介层模具的结构。
这些结构不仅可以在I / O瓦片之间实现通信,还可以实现与HBM3堆栈接口的内存控制器之间的通信。
但是这个样品禁止拍照,因此没法提供照片。
3D堆叠设计允许CPU、GPU 和内存芯片之间实现令人难以置信的数据吞吐量,同时还允许 CPU 和 GPU 同时处理内存中的相同数据(零拷贝),从而节省功耗、提高性能并简化编程。
看看该设备是否可以在没有标准DRAM的情况下使用会很有趣,正如我们在英特尔的Xeon Max CPU中看到的那样,它也采用了封装上的HBM。
AMD的代表不愿透露更多细节,因此不清楚AMD是否使用标准的TSV方法将上下芯片连接在一起,或者是否使用更先进的混合键合方法。
AMD表示,将很快分享有关封装方面的更多详细信息。
AMD声称MI300提供的AI性能、每瓦性能是Instinct MI250的8倍、5倍(使用稀疏性FP8基准测试)。
AMD还表示,它可以将ChatGPT和DALL-E等超大型AI模型的训练时间从几个月减少到几周,从而节省数百万美元的电力。
当前一代的Instinct MI250为世界上第一台百万兆级超级计算机Frontier提供动力,Instinct MI300将为即将推出的美国新一代El Capitan超级计算机提供动力,其FP64 峰值计算性能高达200亿亿次(2 ExaFLOPS)。
AMD表示,这些面向超级计算机的MI300芯片将昂贵且相对罕见——这些不是大批量产品,因此它们不会像EPYC Genoa数据中心CPU那样广泛部署。但是,该技术将过滤到不同外形尺寸的多个变体。
该芯片还将与NVIDIA的Grace Hopper Superchip竞争,后者是在同一基板上整合了Hopper GPU和Grace CPU。这些芯片预计将于今年上市。
基于Neoverse的Grace CPU基于Arm v9指令集,配备了两个与Nvidia新品牌的NVLink-C2C互连技术融合在一起的芯片。
AMD的方法旨在提供卓越的吞吐量和能源效率,因为将这些设备组合到单个封装中,通常比连接两个单独的设备时能够在单元之间实现更高的吞吐量。
MI300还将与英特尔的Falcon Shores竞争,后者将具有不同数量的计算模块,包括x86内核,GPU内核和内存,具有令人眼花缭乱的可能配置,但这些要到2024年才能到来。
在这里,我们可以看到MI300封装的底部,其中包含用于LGA安装系统的接触垫。
AMD没有分享更多细节,该芯片目前正在AMD的实验室中。
AMD预计将在2023年下半年交付Instinct MI300,届时El Capitan超级计算机将首发部署MI300,有望成为世界上最快的超级计算机。
值得一提的是,英特尔联合阿贡国家实验室也在部署运算速度高达200亿亿次极光(Aurora)超级计算机,该超级计算机基于英特尔的拥有超过1000亿个晶体管的Ponte Vecchio数据中心显卡。