你的位置:比赛下注app官方网站 > KPL盘口 > 比赛下注app官方网站 烦东谈主的内存墙
比赛下注app官方网站 烦东谈主的内存墙
发布日期:2026-02-03 17:04    点击次数:189

比赛下注app官方网站 烦东谈主的内存墙

前所未有的无监督教师数据的可用性,以及神经相聚的扩展限定,导致用于做事/教师低层逻辑模子(LLM)的模子领域和缱绻需求出现了前所未有的激增。然则,主要的性能瓶颈正日益更始到内存带宽上。

畴前20年,做事器硬件的峰值浮点运算才略(FLOPS)以每两年3倍的速率增长,逾越了DRAM和互连带宽的增长速率,后两者分辩仅以每两年1.6倍和1.4倍的速率增长。这种差距使得内存而非缱绻成为东谈主工智能应用(尤其是做事应用)的主要瓶颈。

本文分析了编码器息争码器Transformer模子,并展示了内存带宽若何成为解码器模子的主要瓶颈。咱们建议重新设计模子架构、教师和部署计策,以克服这一内存限度。 小序 比年来,教师大型讲话模子 (LLM) 所需的缱绻量以每两年 750 倍的速率增长。这种指数级增长趋势是东谈主工智能加快器发展的主要驱能源,这些加快器悉力于晋升硬件的峰值缱绻才略,但往往以葬送其他部分(举例内存眉目结构)的简化为代价。

然则,这些趋势忽略了教师和做事东谈主工智能模子历程中一个新兴的挑战:内存和通讯瓶颈。事实上,很多东谈主工智能应用的瓶颈并非缱绻才略,而是芯片里面/芯片间以及与东谈主工智能加快器之间/芯片间的通讯。这并非新风物,畴前的一些研究也曾不雅察到并警告了这个问题。最早对此的不雅察不错记忆到 1990 年,其时 Ousterhout 在分析影响操作系统性能的成分后得出以下论断:

“第一个与硬件相干的问题是内存带宽:基准测试标明,内存带宽跟不上 CPU 的速率……若是改日的机器内存带宽莫得权臣提高,某些类型的应用法子可能会受到内存性能的限度。”

1995 年晚些时候,William Wulf 和 Sally Mckee 进一步呼应了这一策动,并创造了“内存墙”(memory wall)一词。他们的论证辞退一个浮浅而精妙的逻辑。完成一项操作所需的时期取决于咱们扩张算术运算的速率以及咱们向硬件运算单位提供数据的速率。¹在最浮浅的情况下,数据要么在缓存中可用,要么需要从 DRAM 中得到。基于此假定,即使 80% 的数据不错径直在缓存中得到,惟有 20% 的数据需要从 DRAM 中得到,若是从 DRAM 中得到这 20% 的cache-miss数据需要逾越 5 个时钟周期,那么完成操作所需的时期将所有受限于 DRAM。这意味着,不管硬件每秒扩张的算术运算速率有多快,问题齐将所有受限于 DRAM 带宽。

他们策动,缱绻速率的晋升速率与数据得到速率的晋升速率出现不对,将会导致“内存墙”问题。基于此,他们得出以下论断:

“两者的性能齐在呈指数级增长,但微处理器的性能增长指数弘大于DRAM。而且,不同指数级增长之间的各异也在呈指数级增长。”

其后的几篇文件也报谈了雷同的不雅察收尾。

在这项职责中,咱们通过研究更新的数据重新凝视了这一趋势,尤其留情用于教师东谈主工智能模子的硬件,以及用于教师/驱动这些模子的缱绻特质。30 年畴前了,上述不雅察和策动依然所有正确。尽管内存时期取得了诸多立异,但趋势标明,“内存墙”正日益成为一系列东谈主工智能任务的主要瓶颈。

咱们开端分析自 1998 年 Yann Lecun 在 MNIST 数据集上教师出驰名的 Lenet-5 模子以来,做事器级 AI 硬件的峰值缱绻才略发生了奈何的变化。咱们不错看到,畴前 20 年间,硬件的峰值缱绻才略增长了 6 万倍,而 DRAM 的峰值缱绻才略仅增长了 100 倍,互连带宽也仅增长了 30 倍。

内存墙问题触及内存容量和带宽的限度,以及内存传输的延伸(延伸的更正难度以致比带宽更大)。这触及到不同层级的内存数据传输。举例,缱绻逻辑与片上内存之间的数据传输,缱绻逻辑与 DRAM 内存之间的数据传输,以及不同插槽上不同处理器之间的数据传输。在所有这些情况下,数据传输的容量和速率齐权臣过时于硬件的缱绻才略。

现在,若是咱们研究近期东谈主工智能模子(尤其是LLM)的发展趋势,咱们会发现,受神经相聚扩展定律的启发,从业者们以前所未有的速率扩展了教师这些模子所需的数据量、模子领域和缱绻资源。尽管在2018年至2022年时间,教师这些模子所需的缱绻量/浮点运算次数(FLOPs)增长了750倍/两年(见图2),但缱绻资源就怕是瓶颈,尤其是在模子做事方面。

开端,LLM的领域在此时间以410倍/两年的速率增长,逾越了单个芯片的可用内存。东谈主们大概会但愿,咱们不错通过将教师/做事扩展到多个加快器来杀青溜达式内存并行,从而幸免单个硬件内存容量和带宽的限度。然则,将职责分派到多个程度也可能濒临内存墙问题:神经相聚 (NN) 加快器之间数据传输的通讯瓶颈,其速率以致比片上数据传输更慢、效能更低。与单系统内存的情况雷同,咱们尚未能克服扩展相聚带宽的时期挑战。

其次,即使模子能够装入单个芯片,芯片里面寄存器、L2 缓存、全局内存等之间的数据传输仍然日益成为瓶颈。收货于专用缱绻单位(举例 Tensor 中枢)的最新发达,多半缱绻的算术运算不错在几个周期内完成。因此,为了弥远保执这些算术单位的行使率,需要快速地向其提供多半数据,而这恰是芯片内存带宽成为瓶颈的地方。

如图 1 所示,畴前 20 年间,做事器硬件的峰值浮点运算才略 (FLOPS) 以每两年 3.0 倍的速率增长,远超 DRAM 和互连带宽的增长速率(后两者分辩仅以每两年 1.6 倍和 1.4 倍的速率增长)。这种差距使得内存而非缱绻才略日益成为瓶颈,即使在模子能够容纳于单个芯片的情况下亦然如斯。

接下来,咱们将对 Transformer 进行综合的案例研究,通过检修面前常用的模子,更好地展示浮点运算才略 (FLOPS)、内存操作 (MOP) 和端到端驱动时期之间的互相作用。 案例研究 在本节中,咱们开端概述Transformer推理的驱动时特质和性能瓶颈。咱们检修Transformer架构的两种不同变体:编码器架构(举例BERT),它并发处理所有tokens;以及解码器架构(举例GPT),它以自转头的样式驱动,每次迭代处理并生成一个token。 A. 算术强度(Arithmetic Intensity) 策动性能瓶颈的一种常用门径是缱绻仅缱绻 Transformer 编码器和仅缱绻解码器模子所需的总 FLOP 数。然则,单独使用这一地方可能会产生很大的误导。因此,咱们需要研究相干操作的算术强度。算术强度是指从内存加载的每个字节不错扩张的 FLOP 数。它不错通过将总 FLOP 数除以造访的总字节数(也称为 MOP,即内存操作数)来缱绻。

为了诠释研讨算术强度的伏击性,咱们研究了 BERT-Base 和 BERT-Large 以及 GPT-2 。前两者是编码器模子,其推理触及矩阵-矩阵运算;后者是解码器/自转头模子,其推理触及同样的矩阵-向量乘法。 B. 性能分析 为了分析 Transformer 职责负载在通用硬件上的瓶颈,咱们在 Intel Gold 6242 CPU 上对 Transformer 推理进行了性能分析。图 3 自满了不同序列长度下这些模子的总 FLOPs、MOPs、算术强度和最终延伸。昭彰,对于每种序列长度,GPT-2 的延伸齐昭彰长于 BERT-Base 或 BERT-Large,即使 BERT-Base 和 GPT-2 的模子确立和端到端 FLOPs 基本相易(如图 3a 所示)。这是由于 GPT 的自转头推理固有的矩阵向量运算具有更高的内存操作量和更低的算术强度(见图 3c)。算术强度更高的模子在相易以致更高的 FLOPs 下不错比算术强度更低的模子驱动得更快。这了了地标明,内存墙若何成为解码器模子(在小批量大小下)的主要瓶颈,而不是缱绻瓶颈。

冲破内存瓶颈的有但愿的贬责决策 “指数增长不行能永远执续下去”[,即使对于大型超大领域公司而言,以 410 倍/2 年的速率延伸指数级扩展也并非长久之计。此外,缱绻才略和带宽才略之间的差距日益扩大,这将很快使教师大型模子变得极具挑战性,因为资本将呈指数级增长。

{jz:field.toptypename/}

为了连接立异并冲破内存瓶颈,咱们需要重新念念考东谈主工智能模子的设计。这里存在几个问题。

开端,现时设计东谈主工智能模子的门径大多是临时性的,或者只触及相称浮浅的扩展规定。举例,最近出现的大型 Transformer 模子大多仅仅对率先 BERT 模子中建议的险些相易的基础架构进行缩放。

其次,咱们需要设计更高效的东谈主工智能模子教师门径。面前的神经相聚需要多半的教师数据和数十万次的迭代能力学习,效能相称低下。有东谈主可能会指出,这与东谈主脑的学习样式也不同,东谈主脑时常每个认识/类别只需要一丝的例子。

第三,现时的优化和教师门径需要多半的超参数调优(举例学习率、动量等),这时常会导致数百次的试错,能力找到符合的超参数诱惑来得胜教师模子。因此,图 2 (b) 中陈述的教师资本仅仅推行支拨的下限,而推行资本时常要高得多。

第四,起初进模子的浩大领域使得它们难以部署用于推理。这不仅限于 GPT-3 等模子。事实上,部署超大领域公司使用的大型推选系统亦然一项首要挑战。

终末,硬件加快器的设计主要聚集在提岑岭值缱绻才略,而对改善内存密集型职责负载的留情相对较少。这使得教师大型模子以及探索替代模子(举例图神经相聚)齐变得费事,因为图神经相聚时常受限于带宽,无法灵验地行使现时的加快器。

以上所有问题齐是机器学习领域的根人道难题。本文将简要盘问近期针对后三项问题的研究(包括咱们自身的研究)。 A. 高效教师算法 教师神经相聚模子的主要挑战之一是需要进行多半的超参数调优。这包括细则学习率、退火计策、治理所需的迭代次数等等。这会给教师起初进的模子带来(权臣的)迥殊支拨。很多此类问题源于用于教师的一阶赶紧梯度着落(SGD)门径。天然SGD的变体易于杀青,但它们对超参数调优的鲁棒性较差,何况对于未知最好超参数集的新模子,很难进行调优。一种很有远景的贬责门径是使用二阶赶紧优化门径。这些门径时常对超参数调优更具鲁棒性,何况不错达到起初进的水平。然则,现时哨法的内存占用量是其他门径的3-4倍,这需要加以贬责。微软的 Zero 框架在这方面展现出精良的远景,它通过移除/分片冗余的优化现象变量,展示了如安在内存容量不变的情况下教师领域扩大 8 倍的模子。若是能够贬责这些高阶门径的支拨问题,那么它们就能权臣缩小教师大型模子的总资本。

另一种很有远景的门径是减少内存占用并提高优化算法的数据局部性,但代价是需要扩张更多缱绻。数值线性代数中一个权臣的例子是通讯幸免算法族。神经相聚教师中内存优化的一个例子是重亏损,即在前向传播历程中只存储/查验点一部分激活值,而不是保存所有激活值。如图4所示,这减少了特征图的内存占用。其余的激活值不错在需要时重新缱绻。尽管这会增多缱绻量,但只需增多20%的缱绻量,就不错权臣减少高达5倍的内存占用。这还不错让路发者在单芯片内存上教师大型模子,而无需使用溜达式教师。溜达式教师时常难以诱惑(大型超大领域数据中心公司以外),而且对于非专科开发者来说也难以调试。

意旨的是,传统趋势标明,新的神经相聚模子架构的开发是基于研究东谈主员在单个芯片内可造访的资源,而不是使用复杂的溜达式内存门径(见图 4)。天然,也有很多反例,举例大型超标量缱绻机领有特意的团队来复古研究东谈主员部署大型模子,但当咱们研讨通盘社区时,这类例子就比较有限了。事实上,即使是最新的初级内存模子,也通常需要插足多半元气心灵来压缩模子,使其能够妥当单个系统,从而使更平淡的研究东谈主员群体能够造访这些模子。

另一个伏击的贬责决策是设计对低精度教师具有鲁棒性的优化算法。事实上,东谈主工智能加快器领域的一项首要冲破是使用半精度 (FP16) 运算,而非单精度运算 。这使得硬件缱绻才略晋升了 10 倍以上。然则,在不缩小精度的情况下,行使现时的优化门径进一步缩小精度(从半精度到 INT8)一直是一个挑战。一个近期很有远景的趋势是夹杂使用 FP8 和 FP16(以致最近的 FP4)。该领域的算法立异无疑将使咱们能够更灵验地行使硬件,并允许芯片的更多区域用于晋升内存性能(这时常被称为内存马虎处分 )。 B. 高效部署 部署最新的起初进模子或大型推选系统极具挑战性,因为它们需要溜达式内存部署来进行推理。一个很有远景的贬责决策是压缩这些模子以进行推理,不错通过缩小精度(即量化)、移除(即剪枝)其冗余参数或设计微型讲话模子来杀青。

第一种门径是量化,它不错应用于教师和/或推理阶段。天然将教师精度缩小到远低于 FP16 相称具有挑战性,但不错使用超低精度进行推理。行使现存门径,将推理精度量化到 INT4 相对容易,且瞄准确率的影响极小。这不错使模子占用空间和延伸最多缩小 8 倍。然则,使用低于 INT4 的精度进行推理更具挑战性,面前这是一个相称活跃的研究领域。

第二种门径是剪枝,它不错所有移除/剪枝模子中的冗余参数。行使现存门径,不错剪枝高达 30% 的结构化脱落神经元,以及高达 80% 的非结构化脱落神经元,且瞄准确率的影响极小。然则,冲破这个限度相称具有挑战性,何况时常会导致严重的准确率着落。贬责这个问题仍是一个敞开性问题。

第三种门径,即微型讲话模子,有望开辟全新的领域,并股东东谈主工智能的平淡应用。意旨的是,自 2017 年 Transformer 模子问世以来,用于讲话学习模子 (LLM) 的模子本人并莫得改换。面前行之灵验的门径是扩展数据领域和模子大小,这促成了这些模子的“披露才略” 。然则,近期对于微型讲话模子的研究已展现出令东谈主饱读动的后果。若是一个模子能够所有集成到芯片上,那么速率晋升和能耗缩小齐将达到几个数目级。 C. 重新念念考东谈主工智能加快器的设计 同期晋升芯片的内存带宽和峰值缱绻才略濒临着根人道的挑战。然则,葬送峰值缱绻才略不错换取更好的缱绻/带宽量度。事实上,CPU架构也曾集成了一个经过充分优化的缓存眉目结构。这即是为什么CPU在带宽受限问题上比GPU性能更优的原因。

这类问题包括大型推选问题。然则,面前CPU濒临的主要挑战是其峰值缱绻才略(即FLOPS)比GPU或TPU等东谈主工智能加快器低一个数目级。酿成这种情况的原因之一是,东谈主工智能加快器的设计主要隘方是杀青最大的峰值缱绻才略。这时常需要移除缓存眉目结构等组件,以增多缱绻逻辑。咱们不错设计一种介于这两种顶点情况之间的替代架构,最好具有更高效的缓存,更伏击的是,具有更高容量的DRAM(可能是一个具有不同带宽的DRAM眉目结构)。后者对于缓完结步式内存通讯瓶颈可能相称有匡助。 论断 比年来,教师起初进的天然讲话处理(NLP)Transformer模子的缱绻资本以每两年750倍的速率增长,模子参数领域以每两年410倍的速率增长。比较之下,硬件峰值浮点运算才略(FLOPS)以每两年3.0倍的速率增长,而DRAM和互连带宽的增长速率却日益滞后,分辩以每两年1.6倍和1.4倍的速率增长。

为了更直不雅地明白这些数字,咱们不错对比一下:畴前20年,硬件峰值浮点运算才略增长了6万倍,而同期DRAM和互连带宽的增长速率分辩仅为100倍和30倍。按照这种趋势,内存——尤其是芯片内/芯片间内存传输——将很快成为大型东谈主工智能模子的主要瓶颈。

因此,咱们需要重新念念考东谈主工智能模子的教师、部署和设计,以及若何设计东谈主工智能硬件来应酬日益严峻的内存墙挑战。

{jz:field.toptypename/}

*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复古,若是有任何异议,宽待辩论半导体行业不雅察。 END今天是《半导体行业不雅察》为您共享的第4306期内容,宽待留情。 ★

加星标⭐️第一时期看推送

求共享