HBM技术推动AI发展

制造火种，等待燎原

故事开始的时候，没有人会觉得这是一个故事。

2008年前后，半导体行业被一个老问题困住：处理器越来越快，内存却跟不上。工程师们管这叫“内存墙”。

当时主流的解决思路是二维平面处理，拼命把晶体管越做越小。但物理学有它冷酷的极限，漏电和发热，导致平面越来越挤不下更多电路。

需要有人想些别的法子。

韩国京畿道的SK海力士，在那时还远没有今天的光环。那是一家两次被资本市场放弃、被现代集团甩出去、又被韩国债权银行托管多年的公司。

虽然公司平庸，但工程师们还是想为行业做点努力：既然平房铺满了，那就盖摩天大楼吧。

工程师们想把内存芯片像盖楼一样叠起来，再用穿过硅片的细小通孔，把每一层连起来。这种工艺学术名字是TSV（硅通孔）。就像建设一座立体、双向120车道的超级立交桥，大幅增加车流；TSV也可以让数据传输带宽指数级飙升。

太平洋对岸，AMD也在为同一面墙发愁。它的GPU性能被显存带宽死死压住，DDR路线几乎走到尽头。碰巧的是，AMD一位高级研究员也在探索3D堆叠内存，从而让GPU能更方便获取数据。

于是，在2013年，AMD与SK海力士在一场行业会议上正式宣布，联合开发HBM（高带宽内存）。

2015年，世界上第一款搭载HBM的消费产品出现：AMD的Radeon Fury显卡。芯片旁边那一小块方形的堆叠内存，被工程师视作未来，却被市场视作累赘。

因为HBM太贵了。毕竟TSV（硅通孔）工艺听上去优雅，做起来却是噩梦：由于硅片非常薄，打孔就很难；每多一层，良率就掉一截；只要其中一颗裸片有缺陷，整摞芯片就得全部作废。

而且，下游也真的用不到。无论游戏玩家、还是消费终端，都并不需要这么夸张的带宽。

随后的几年，HBM一直被认为“屠龙之术、可惜没龙”。跟风生产HBM的三星，合并了内部团队；海力士自己的HBM产线，也几次差点被停掉。

直到一场谁也料想不到的AI变革来临。

训练一个模型，不只是让GPU拼命计算，更需要让GPU不断读取参数、样本、激活值和中间结果。GPU越强，对数据的胃口越大；模型越大，对内存带宽的需求越强。

Scaling Law的暴力美学，和手机、电脑相比，指数级提升了对计算能力、数据带宽的消耗能力。英伟达H100之所以能如此优异，也离不开HBM的支持。

鲜有人问津的HBM，成为AI必需品被抢购；多年坚持的海力士，终于等来了奖励。

而且，不只是HBM，存储芯片，都成为了稀缺资源。

如果说HBM是离GPU最近的弹药箱，DRAM就是工作台，NAND和企业级SSD则是后方仓库。AI作为一个长期工作的系统，需要的记忆层级也复杂：

最热的数据放在HBM里，次热的数据放在DRAM里，更冷、更大的数据则沉到NAND、企业级SSD、数据中心后端。

于是，一场链条式的供不应求开始演绎：AI先点燃了HBM，HBM又挤占了先进DRAM产能；高端产能越紧，普通DRAM和NAND的价格也越容易被推高。各类存储芯片的库存，都在减少，供应不求也愈演愈烈。

十年前的火种，开始燎原。

http://t.cn/AXiR9u2G

发布于上海