3809游略网 > 科技 >第四代英特尔至强可扩展处理器“加速”入市 助力本土企业突破算力边界

第四代英特尔至强可扩展处理器“加速”入市 助力本土企业突破算力边界

第四代英特尔至强可扩展处理器“加速”入市 助力本土企业突破算力边界

人类对算力的追求,本质上就是求知欲主导的。

通过计算,人类得以更深层次地认知宇宙、认知科学,从某种意义上说,文明就是由算力驱动的。也正因此,在数字经济火热的当下,算力作为各个行业信息系统运行的载体和引擎,受到了前所未有的重视。

当下,随着疫情防控政策的调整,以及在一系列“稳增长”政策的推动下,经济修复的动能正在增强,市场信心也在逐步回暖,包括IDC在内的机构都认为今年国内在IT方面的支出会相较去年有所增加。此外,从基础设施建设方向来看,自国家去年推出“东数西算”这一概念以来,算力平衡便成为了统筹协调全国分布式算力、服务“数字中国”的绝佳抓手,在“东数西算”的推进之下,数据中心可以得到更加合理的分布,通过中间的高速网络,把东部的数据和西部的数据中心进行有机的结合,实现持续的数据中心和IT产业增长。

可以看到的是,算力的需求无处不在,因此,作为数据中心算力核心,以及通用计算重要的基石和基础的CPU,也需要更强劲的性能和更复杂的功能。今年年初,英特尔正式对外推出了第四代至强可扩展处理器(Sapphire Rapids)、英特尔至强CPU Max系列(Sapphire Rapids HBM)以及英特尔数据中心GPU Max系列(Ponte Vecchio),这不但意味着英特尔在自身XPU战略上迈出了重要的一步,更是英特尔面对日益多元的数字化创新需求交出的一份完美答卷。

作为一个高度创新的平台,第四代英特尔至强可扩展处理器采用Intel 7制程工艺制造,具有全新的芯片架构。通过集成高性能核、更多内核数量、业内高需求的数据中心工作负载的相关加速器,以及业界领先的DDR5、CXL1.1、PCIe 5.0,实现了加速的无所不在。

不但如此,作为一家将可持续发展贯彻运营始终的公司,英特尔早已洞见了绿色计算的重要性,通过第四代至强可扩展处理器的内置加速器,可以更有效率、以更低能耗处理此类需求极大,复杂度越来越高的工作负载。此外,第四代至强可扩展处理器还拥有一系列管理电源和性能的功能,通过这些电源管理解决方案来提升能效比,因此,第四代至强可扩展处理器也是英特尔迄今为止最具可持续的数据中心处理器。

不难看出,第四代至强可扩展处理器的加速器似乎有一种神奇的魔力,不但可以有效提升工作负载的效率,还能实现极高的能效比,那么,第四代至强可扩展处理器内置的加速器究竟是如何成为“算力神器”的呢?

拿当下如火如荼的AI领域来说,在第四代至强可扩展处理器发布之前,如果通过CPU去实现大数据、人工智能之类的数据密集型业务,只能通过AVX-512这样的计算单元实现,但由于其运算单元是向量的,效率自然会大打折扣,而在第四代至强可扩展处理器之上,通过引入硬件矩阵寄存器Tiles以及相关的硬件寄存器,在英特尔AMX加速器的助力之下,可以实现每一个CPU指令都实现矩阵运算。

具体来说,AMX计算单元支持8bit的整形数据(INT8)和16bit的浮点数据(BF16),可以对不同的工作负载进行有效的优化,例如在对AI模型进行训练的时候,为了保证模型的数据精度,往往需要BF16以上的数据精度进行运算,而在AI模型的推理过程中,由于运算量相对较小,就可以采用INT8的数据精度来提高效率。

在AMX加速器的助力之下,第四代英特尔至强可扩展处理器将广泛的AI工作负载的推理和训练性能提升到了新的高度,并成功得到了国内一些云服务厂商以及对软件服务商的应用,阿里便是其中一员。

首先是地址标准化的服务优化,由于地址标准化涉及很多语义分析的内容,所以其关键指标便是单位时间内的查询数,因此迎接每秒能提供查询的数量自然是越多越好,以这个需求为向导,英特尔与阿里展开了深度合作,基于第四代英特尔至强可扩展处理器的AMX单元,通过AMX INT8数据类型精度以及英特尔开发的高性能运算优化库,最终将性能指标提升到了原本使用第三代至强可扩展处理器的2.48倍。

其次则是手机淘宝APP为用户提供的定制化首页服务,该服务的请求数量每天高达数亿次,在这个业务的优化过程中就用到了AMX BF16数据类型的精度和软件方面的调优,最终性能达到了原本的三倍。

腾讯太极机器学习平台支撑的搜索和广告业务同样也在AMX加速器的助力之下实现了性能提升,该业务部署在腾讯云之上,且需要满足更多的搜索次数和更低的延时(小于5毫秒),经过第四代至强可扩展处理器的优化和软件优化后,不仅降低了对云服务实例CPU数量的要求,同时性能也得到了提升,高精实例性能是原来的3倍,低精实例性能是原来的2倍。

此外,在AIGC领域,第四代至强可扩展处理器亦能“大展身手”,这是因为生成模型和大语言模型都大量使用了注意力机制,而这个机制则包括了大量矩阵相乘运算和指数运算,而这两种运算正是AMX BF16和AVX-512所擅长的,并最终体现为第四代至强可扩展处理器在AIGC场景上的优势。

亚信的电信智能营业厅方案就在第四代至强可扩展处理器的助力下实现了优化,通过将亚信的通用OCR方案迁移至第四代至强可扩展处理器之上,并引入AMX进行优化,性能达到了3.94倍的提升;用友的企业ERP上的用于办公和财务领域发票的OCR模块也在迁移到第四代至强可扩展处理器后,结合AMX加速单元和INT8、BF16两种数据精度,实现了2.83倍的性能提升。

此外,金蝶、东软等独立软件服务商的业务模块在迁移到第四代至强可扩展处理器之上后,结合AMX加速单元的优化,都实现了性能的提升。

从CPU本身的角度出发,在AMX加速器的赋能之下,其AI性能有望得到进一步的发掘,对于那些并不需要太高实时性、反而需要高吞吐的场景而言,以第四代至强可扩展处理器为代表的CPU也许能成为更加合适的选择。

除了AMX加速器之外,英特尔存内分析加速器(IntelIAA)也是有效提升工作负载性能的重要一员,该加速器可提高内存查询吞吐量,减少内存数据库和大数据分析工作负载的内存占用。以大数据分析常用的数据库Clickhouse为例,由于需要对数据进行压缩/解压缩,因此势必会带来性能的损失,而通过在Clickhouse内增加支持IAA功能的对应插件,如IAA-Deflate、IAA-Deflate等,就可以实现压缩比的提升,为企业节省磁盘成本和带宽成本。

而针对数据密集型工作负载的应用场景,英特尔也在第四代至强可扩展处理器中添加了数据流加速器(IntelDSA),以加快CPU、内存、缓存以及存储和网络设备之间的数据移动。以直播转播的场景为例,通常来说,电视台或者媒体进行转播的时候,往往是通过端侧设备录视频,通过网络传到数据中心,数据中心收到数据包之后再将数据拷贝出来进行处理,期间涉及大量内存拷贝的工作,而在DSA加速器的助力之下,在网络带宽一致的情况下,可节省66%的CPU资源。

当然,作为英特尔迄今为止发布的“最强CPU”,第四代至强可扩展处理器在数据服务类应用内同样可以大展身手,例如在大数据分析应用中,由于对性能要求较高,用户更倾向于把数据都缓存在内存当中,在这种情况下,内存的带宽便愈发重要,甚至会成为瓶颈,而第四代至强可扩展处理器支持的内存升级到了DDR5,可有效提升50%的内存带宽,对于非常多的数据服务类应用都有非常好的提升效果,加之从PCIe 4.0提升到PCIe 5.0带来的两倍的IO带宽提升,不但实现了15%的单核性能提升,还能通过各种加速器实现CPU占用率的降低。

数据库厂商Gbase旗下的旗舰产品Gbase 8a是一款性能表现优异的并行数据库产品,在业内知名且标准的分析型数据库评测TPC-DS中排名世界第三位,在第四代至强可扩展处理器的优化之下,实现了南大通用自研的压缩算法RapidZ1.58倍的性能提升和ZSTD压缩算法1.64倍的性能提升(不使用任何加速器优化)。

除此之外,Microsoft SQL Server、Transwarp星环ArgoDB和PingCAP的TiDB都在第四代至强可扩展处理器的助力下实现了有效的性能提升。

数据量的爆发式增长带来了算力需求的急剧增加,这让数据中心对处理器的性能也提出了更高的要求,第四代至强可扩展处理器作为英特尔多年来坚持和发扬的“工程师精神”的最好诠释,无疑代表着英特尔在引领技术革新方面的强大能力,以及赋能千行百业数智化转型的美好愿景。

第四代英特尔至强可扩展处理器“加速”入市 助力本土企业突破算力边界

英特尔(Intel) i5-13400F 13代 酷睿 处理器 10核16线程 睿频至高可达4.6Ghz 20M三级缓存 台式机CPU

[经销商]京东商城

[产品售价]¥1399元

进入购买

本文来自网络,不代表本站立场,转载请注明出处:https:

第四代英特尔至强可扩展处理器“加速”入市,助力本土企业突破算力边界

3809游略网后续将为您提供丰富、全面的关于第四代英特尔至强可扩展处理器“加速”入市,助力本土企业突破算力边界内容,让您第一时间了解到关于第四代英特尔至强可扩展处理器“加速”入市,助力本土企业突破算力边界的热门信息。