10年前,芯片巨头的技术人员们怎么看HBM?
因为AI的推动,英伟达和HBM在近年来人尽皆知。但可能很少人知道,AMD是世界上第一个推出HBMGPU的芯片公司。最近,我们看到了一篇AMD技术人员在2015年的采访,我们来看看,这家芯片巨头当年是怎么看HBM的。再次强调一下,这是一篇2015年的文章,重发的原因是希望大家以此,看一下行业可能是怎么看HBM的。
以下为文章原文:
虽然当时没有引起太多关注,但2011年,AMD和内存制造商Hynix(现为SKHynix)公开宣布计划合作开发和部署下一代内存标准:高带宽内存(HBM)。HBM本质上是GDDR的继任者,它将在内存工作方面实现一些非常重大的变化,以进一步提高内存带宽并降低内存功耗。
在过去十年中,AMD(以及图形处理领域的前身ATI)一直走在图形处理领域采用新内存技术的前沿,率先部署了基于最新2种图形DDR标准(GDDR4和GDDR5)的产品。因此,AMD和Hynix的声明虽然当时并不是什么大事,但却是AMD过去行为的合理延伸,即继续为未来产品探索新内存技术。假设AMD和Hynix联盟一切顺利(这是有可能的,但不一定),几年后这两家公司将能够将该技术推向市场。
四年过去了,成功的实验已让位于产品化。本月早些时候,在AMD2015财务分析师日上,该公司宣布将在本季度向零售市场发布其首款配备HBM的GPU-实际上是世界上第一款配备HBM的GPU。从那时起,人们就提出了许多问题,比如AMD打算用HBM做什么,以及这对他们的产品意味着什么(这是否像看起来那么重要?),尽管AMD尚未准备好透露即将推出的配备HBM的GPU的细节,但该公司希望尽快推出HBM,以便在本季度晚些时候GPU发布之前解释这项技术是什么以及它能为他们的产品带来什么。
到目前为止,已经有许多关于HBM的演示发布,包括内存制造商、负责塑造HBM的JEDEC组织、AMD甚至NVIDIA。因此,尽管第一批HBM产品尚未上市,但HBM的基础已被充分理解,至少在工程圈内是如此。事实上,正是HBM在那些技术圈内才真正被充分理解,这推动了AMD今天的最新披露。AMD认为HBM是未来一年的一项重要竞争优势,而现有的HBM演示主要面向工程师、学术界和投资者,AMD希望迈出下一步,向最终用户推广HBM技术。
这引出了今天文章的主题:AMD对高带宽内存的深入披露。为了在下一代GPU发布之前做好准备,AMD正在与技术和游戏媒体联系,宣传HBM以及它对AMD产品的意义。
GDDR5达到极限的地方
要真正理解HBM,我们必须追溯到第一个计算机内存接口,但为了方便和理智,我们将把这一课浓缩为以下内容。计算机和内存接口的历史是在宽并行接口和快速串行接口之间不断移动的循环。串行端口和并行端口、USB2.0和USB3.1(Type-C)、SDRAM和RDRAM,有一个不断开发更快接口的过程,然后开发更宽的接口,并根据条件在它们之间来回切换。
到目前为止,在PC内存的竞争中,钟摆已经向串行接口方向倾斜。尽管已经过了4代GDDR,但内存设计师仍在不断提高时钟速度以增加可用内存带宽,最终出现了GDDR5,其每针数据速率高达7Gbps+。GDDR5已在高端市场陪伴我们近7年,比任何以前的内存技术都长,并且在此过程中比最初计划的走得更远、更快。
但在接口周期中,当谈到GDDR5时,串行接口的钟摆终于达到了顶点。早在2011年AMD显卡发布会上,我问当时的图形首席技术官EricDemersGDDR5之后会发生什么,虽然他预计GDDR5会继续使用一段时间,但很明显GDDR5已经接近极限。高速总线带来了许多工程挑战,虽然仍有改进的空间,但问题是这样做是否值得。
GPU社区对此的简短回答是“否”。GDDR5类内存可以进一步发展,既可以使用现有的GDDR5,也可以使用理论上的差分I/O内存(比如USB/PCIe总线,但用于内存),但这样做会以巨大的功耗为代价。事实上,即使是现有的GDDR5实现也已经消耗了相当多的电量;由于GDDR5复杂的时钟机制,大量的内存电量仅仅用于分配和维持GDDR5的高时钟速度。任何未来的GDDR5类技术都只会加剧这一问题,并带来新的复杂性,例如需要在内存芯片中添加更多逻辑,这是一个有点痛苦的组合,因为逻辑和密集内存很难一起制造。
目前,GDDR5的功耗情况是这样的,据AMD估计,RadeonR9290X(250WTDP)的功耗中15-20%用于内存。即使在该公司采用更宽、更慢、主频为5GHz的512位GDDR5内存总线以更好地控制功耗之后,情况仍然如此。因此,使用更快、功耗更高的内存标准只会加剧这个问题。
随着消费者(和工程师)越来越重视功耗问题,消费设备的功耗一直在下降。电池容量固定的移动设备当然是最佳例子,但即使在PC领域,CPU和GPU的功耗也已达到峰值,之后有所下降。趋势是朝着更节能的设备发展-2005年高端GPU的空闲功耗在2015年将是无法容忍的-这又给更快的串行内存技术带来了另一个阻碍,因为功耗会在预计整体功耗下降的同时上升,因此单个设备的工作功耗会降低。
最后,除了上述所有问题之外,还有可扩展性问题。我们将在讨论HBM的优势时进一步讨论这个问题,但简而言之,GDDR5最终也会占用大量空间,尤其是当我们谈论当前高端显卡的384位和512位配置时。在一切都变得越来越小的时代,还需要进一步缩小内存,而GDDR5和潜在的衍生产品并不适合解决这个问题。
最终结果是,在GPU内存领域,钟摆开始摆回并行内存接口。GDDR5已经发展到了一个点,再进一步发展就会越来越低效,这导致研究人员和工程师寻找更宽的下一代内存接口。这就是他们选择HBM的原因。
HBM:宽而慢,快而快
鉴于进一步推动GDDR5和类似内存技术所面临的挑战,高带宽内存技术的发展在过去十年中已转向更宽、更慢的接口。随着串行接口达到极限,并行接口成为一种越来越可行的替代方案。尽管它们也带来了自己的挑战——毕竟串行接口最近占据主导地位是有原因的——但进一步改进串行接口的挑战的增加与使并行接口更易于实现的技术的发展相吻合。因此,钟摆又摆回了并行接口和HBM。
简而言之,HBM将“wide&slow”范式发挥到了极致。HBM并非围绕ASIC构建高速芯片阵列,通过256/384/512位内存总线实现每针7Gbps+的速度,而是在最基本的层面上将内存时钟速度降低到每针1Gbps,但作为交换,内存总线变得更宽。有多宽?这取决于规范的实施和生成,但AMD迄今为止展示的示例涉及4个HBM设备(堆栈),每个设备都具有1024位宽的内存总线,组合起来形成一个巨大的4096位内存总线。它可能不会被调高时钟速度,但如果它有那么宽,就不需要这样做了。
当然,虽然额外的内存带宽很不错,但更有趣的部分是HBM如何实现这一点。虽然宽而慢的并行总线的概念在纸面上很容易理解,但实现它又是另一回事。4096位内存总线涉及数千条迹线,远远超过GDDR5,所有这些迹线都必须精心构建才能使HBM正常工作。因此,有几项基本技术正在通过HBM大规模(但不一定是首次)引入。
第一个也是最根本的问题是如何高效地布线4096位内存总线?即使是最好的表面贴装BGA技术也有其局限性,而Hawaii正在推动其512位GDDR5内存总线的发展。更宽的总线只会让这一过程变得更加困难,无论是在PCB或芯片基板上布线如此宽的总线,还是使用BGA将芯片连接到这些线路,都会带来问题。
解决方案的第一步是开发能够实现更高密度布线的东西,而这个东西就是硅中介层。广义上讲,中介层是一种部分制造的硅芯片,它不是开发成一个装满逻辑的完整ASIC,而是只开发到具有金属层,以便在设备之间路由信号和电源。中介层之所以有效,是因为它利用了现代光刻工艺的一些核心优势,允许创建非常精细的路径,而这在传统的PCB和基板上是不可能/不切实际的。
使用硅中介层解决了HBM的一些基本问题,但它也提供了一些附带好处。除了解决明显的布线问题外,中介层还允许将DRAM放置在非常靠近ASIC的位置,但不必放置在ASIC上方(即堆叠封装),这对于GPU等高TDP设备来说是不切实际的。通过能够将DRAM放置在如此靠近ASIC的位置,它避免了长内存路径的缺点,使较短的路径更易于构建,并且在此过程中需要的功率更少。它还有利于集成,因为与PoP技术类似,您可以将更多设备功能放在与ASIC相同的封装上,从而减少需要放置在封装外并布线到ASIC的设备数量。
当然,中介层也有一个缺点,那就是成本。虽然AMD并没有详细讨论成本问题(这是一次技术深入探讨,而不是分析师会议),但中介层本质上是一个非常大的、部分开发的硅片,这意味着它的生产成本相对较高,尤其是与成本非常低的PCB和传统基板相比。缓解这一问题的事实是,中介层不需要经过最复杂、最昂贵的光刻阶段(实际的前端光刻),因此成本只是硅晶圆本身,以及创建金属层所需的工作,最终的中介层只有大约100微米厚。此外,这不需要尖端晶圆厂——旧的、完全摊销的65nm设备运行良好——这进一步降低了成本。最终结果是中介层的成本仍然很高,但并不像最初看起来那么糟糕。这最终就是为什么HBM将首先在高端显卡等高利润产品上推出,然后才有可能进入APU等更便宜的设备。
与此同时,从长远来看,AMD及其供应商也将从批量生产中受益。第一批中介层是在经过改造的65nm光刻生产线上生产的,但是一旦批量生产规模扩大,开发仅中介层的生产线将变得经济实惠,因为它们不需要同时提供完整的光刻能力,因此运行成本更低。目前还不清楚这个截止点在哪里,但听起来它很快就会发生。
从更广泛的角度来看,在总体方案中,中介层成为整个芯片上的一个新层,位于传统基板和安装在其上面的任何DRAM/ASIC之间。微凸块将DRAM和ASIC连接到中介层,然后中介层将连接到基板,最后基板连接到其配套的PCB。PCB安装本身将在此过程中变得更容易一些,因为不再需要通过基板布线内存走线,这意味着唯一剩下的连接是数据(PCIe总线等)和ASIC和DRAM的电源。所有复杂的布线基本上都集中在中介层上发生。
接下来,这里另一个重大技术突破是硅通孔(TSV)的创建。有了中介层来实现密集内存总线的布线,另一个需要解决的问题就是创建密集内存。解决方案是将多个内存芯片堆叠在一起形成单个设备/堆栈,以创建单个1024位堆栈,而TSV正是实现这一点的关键。
堆叠DRAM的原因非常简单:通过将DRAM减少到更少的分立设备,可以简化生产,更不用说节省空间了。这里的挑战是,由于DRAM是堆叠的,因此无法使用传统的表面贴装连接,而传统的边缘连接(如PoP中使用的)既不够密集,也不能很好地扩展到HBM所需的那种堆叠。
因此,需要一种方法来将DRAM连接路由到堆栈的较低层,而TSV解决了这个问题。常规通孔可以将两层连接在一起,而TSV则通过将通孔直接穿过硅器件来连接更远的层,从而扩展了这一原理。最终结果有点类似于通过微凸块将DRAM芯片表面贴装在一起,但具有通过层进行通信的能力。从制造的角度来看,在硅中介层和TSV之间,TSV是更难掌握的技术,因为它基本上结合了DRAM制造的所有挑战以及将这些DRAM芯片堆叠在一起的挑战。
在开发出堆叠DRAM的方法后,HBM堆栈的最后一个组件是位于堆栈底部的逻辑芯片。同样配备TSV的逻辑芯片负责实际操作其上方的DRAM芯片,然后处理堆栈和ASIC之间的HBM总线操作。这实际上是一个相当有趣的发展,因为最终结果是尽管HBM总线很简单,但增加了更多逻辑,但同时由于TSV和中介层,添加该逻辑比以往任何时候都更容易。
HBM的净收益
现在我们有机会讨论HBM的构造方式以及构建它的技术障碍,我们终于可以谈谈HBM的性能和设计优势了。HBM当然首先是进一步增加内存带宽,但堆叠DRAM和更低功耗的结合也开辟了一些无法通过GDDR5实现的额外可能性。
我们先从HBM的带宽能力开始。带宽量最终取决于使用的堆栈数量以及这些堆栈的时钟速度。HBM使用DDR信号接口,虽然AMD目前尚未公布最终产品规格,但他们已经向我们提供了足够的信息来开始构建完整的图景。
AMD使用的第一代HBM允许每个堆栈的时钟频率高达500MHz,经过DDR信号传输后,每个引脚的速率可达1Gbps。对于1024位堆栈,这意味着单个堆栈可以提供高达128GB/秒(1024b*1G/8b)的内存带宽。HBM反过来允许使用2到8个堆栈,每个堆栈承载1GBDRAM。到目前为止,AMD的示例图(以及NVIDIA的Pascal测试工具)都是用4个堆栈绘制的,在这种情况下,我们将看到512GB/秒的内存带宽。这当然比R9290X的320GB/秒内存带宽或NVIDIA的GTXtitanX的336GB/秒要高得多,内存带宽增加了52-60%。
更有趣的可能是HBM对DRAM能耗的影响。正如我们之前提到的,R9290X将其250W功率预算的15-20%用于DRAM,或者绝对功率约为38-50W。同时,根据AMD自己的估算,GDDR5每瓦功率的带宽为10.66GB/秒,通过该计算可达到30W+。另一方面,HBM每瓦提供的带宽超过35GB/秒,每瓦能效立即提高3倍。
当然,AMD随后会将部分收益重新投入到增加内存带宽中,因此,说内存功耗降低了70%并不是那么简单。根据我们之前对4堆栈配置的512GB/秒内存带宽的估计,512GB/秒HBM解决方案的功耗约为15W,而320GB/秒GDDR5解决方案的功耗则为30W+。最终结果表明,DRAM功耗几乎减半,AMD节省了15-20W的功耗。
将DRAM功耗降低15-20W的实际优势是什么?除了能够将其用于降低整体显卡功耗之外,另一个选择是将其用于提高时钟速度。由于PowerTune对功耗进行了严格限制,更大的GPU功率预算将允许AMD提高时钟速度和/或更频繁地以最大GPU时钟速度运行,从而将性能提高到目前无法确定的程度。现在需要提醒的是,更高的GPU时钟速度通常需要更高的电压,这反过来会导致GPU功耗的快速增加。因此,尽管拥有额外的功率余量确实有助于GPU,但它可能并不像人们希望的那样有利于提高时钟速度。
与此同时,在AMD新产品发布和基准测试之前,额外内存带宽带来的性能提升同样不明朗。根据经验,GPU几乎总是内存带宽瓶颈——毕竟它们是高吞吐量处理器,每秒能够进行数万亿次计算,而带宽仅为数千亿字节——因此毫无疑问,HBM更高的内存带宽将提高性能。然而,即使在AMD当前的显卡上,内存带宽的增加目前也不会带来1:1的性能提升,未来产品也不太可能有任何不同。
更糟糕的是,任何新的AMD产品都将基于GCN1.2或更新版本,该版本引入了AMD最新一代的色彩压缩技术。最终结果是,在相同的工作负载下,内存带宽压力会下降,而内存带宽可用性则会上升。AMD最终将获得大量有效内存带宽——这对于高分辨率来说非常有用——但这也使得无法预测最终的性能影响。不过,看看AMD如何在有效内存带宽增加2倍以上的情况下为图形工作负载带来什么,这仍然很有趣。
AMD希望利用HBM的最后一个主要优势(这一点他们甚至没有特别提及)是HBM带来的更密集设计带来的新外形设计。随着大型GDDR5内存芯片被更窄的HBM堆栈取代,AMD告诉我们,由此产生的ASIC+RAM设置可以小得多。
小多少?1GBGDDR5由2Gbit模块组成(R9290X的标准模块大小),占用672mm²,而HBM堆栈的1GBDRAM仅占用35mm²。即使我们针对4Gbit模块(目前出货的显卡中使用的最大模块)重新计算,我们最终得到的仍然是336mm²,而不是35mm²,对于1GBDRAM来说,这仍然节省了89%。最终,HBM堆栈本身由多个DRAM芯片组成,因此仍然有相当多的硅片在使用,但由于堆叠,其2D占用空间显著减少。
根据AMD自己的估计,配备HBM的单个GPU封装将小于70mmX70mm(4900mm²),而R9290X的封装则为110mmX90mm(9900mm²)。由于HBM堆栈不需要非常复杂的电源传输电路,因此可以节省更多空间,因此卡的空间节省可能非常可观。根据我们的估计,整个卡的尺寸仍然会相当大—所有这些VRM和连接器都需要放置在某个地方—但可以节省大量空间。AMD打算如何使用这些节省下来的空间还有待观察,不过在此向AMD表示歉意,NVIDIA已经展示了他们的Pascal测试平台,用于他们的夹层连接器设计,不言而喻,这样的外形尺寸开辟了一些非常有趣的可能性。
最后,售后市场爱好者可能会也可能不会享受到使用HBM带来的最后一个好处。由于DRAM和GPU现在位于同一封装中,AMD将在封装上安装集成散热器(IHS),以补偿HBM堆栈和GPU芯片之间的高度差异,保护HBM堆栈,并为HBM堆栈提供足够的冷却。高端GPU芯片已经裸露了一段时间,因此IHS为芯片带来的保护与IHS为CPU带来的保护相同。但与此同时,这意味着不再可能直接接触GPU,因此极端超频者可能会失望而归。我们必须看看出货产品是什么样的,以及在这些情况下是否可以移除IHS。
结束语
结束这次深入探讨后,作为第一家推出HBM解决方案的GPU制造商(事实上,AMD预计将成为唯一一家推出HBM1解决方案的供应商),AMD已制定了一些非常积极的产品目标,这要归功于HBM带来的收益。在我们进一步了解AMD即将推出的显卡之前,我认为最好不要抱有太大的期望,因为HBM只是GPU这个完整拼图中的一块。但与此同时,我们要明确一点:HBM是GPU的未来内存技术,由于内存带宽大幅增加,它有潜力显著提高性能,大约明年,AMD将是唯一一家提供这项技术的GPU供应商。
AMD则希望尽可能地利用其领先优势,无论是在技术层面还是在消费者层面。在技术层面,AMD到目前为止很少谈论性能,所以我们必须拭目以待,看看他们的新产品会带来什么。但AMD对其利用HBM尺寸优势的计划持更加开放的态度,因此我们应该期待看到一些非传统的高端GPU设计。同时在消费者层面,预计HBM将进入技术词典,成为高性能产品的最新流行语——几乎肯定会印在今天的显卡盒上,就像GDDR5多年来一直印在显卡盒上一样——因为AMD希望让每个人都知道他们的优势。
同时,从长远来看,高端GPU只是AMD预计的HBM更广泛应用的第一步。尽管AMD目前尚未承诺推出任何其他产品,但随着产量的提高和成本的下降,HBM有望在更广泛的领域实现经济可行性,包括低端GPU、HPC产品(例如FireProS和AMD即将推出的HPCAPU)、高端通信设备,当然还有AMD的主流消费级APU。作为利润率较低的产品,消费级APU可能遥遥无期,但从长远来看,它们很可能是HBM最有趣的用例,因为APU是目前带宽最匮乏的图形产品之一。但在我们走得太远之前,让我们看看AMD本季度晚些时候能在其高端显卡上使用HBM做些什么。
踩一下[0]

站长云网
顶一下[0]