26-05-17 22:55 微博认证:财经知识分享官 微博新知博主 财经博主

制造火种,等待燎原

故事开始的时候,没有人会觉得这是一个故事。

2008年前后,半导体行业被一个老问题困住:处理器越来越快,内存却跟不上。工程师们管这叫“内存墙”。

当时主流的解决思路是二维平面处理,拼命把晶体管越做越小。但物理学有它冷酷的极限,漏电和发热,导致平面越来越挤不下更多电路。

需要有人想些别的法子。

韩国京畿道的SK海力士,在那时还远没有今天的光环。那是一家两次被资本市场放弃、被现代集团甩出去、又被韩国债权银行托管多年的公司。

虽然公司平庸,但工程师们还是想为行业做点努力:既然平房铺满了,那就盖摩天大楼吧。

工程师们想把内存芯片像盖楼一样叠起来,再用穿过硅片的细小通孔,把每一层连起来。这种工艺学术名字是TSV(硅通孔)。就像建设一座立体、双向120车道的超级立交桥,大幅增加车流;TSV也可以让数据传输带宽指数级飙升。

太平洋对岸,AMD也在为同一面墙发愁。它的GPU性能被显存带宽死死压住,DDR路线几乎走到尽头。碰巧的是,AMD一位高级研究员也在探索3D堆叠内存,从而让GPU能更方便获取数据。

于是,在2013年,AMD与SK海力士在一场行业会议上正式宣布,联合开发HBM(高带宽内存)。

2015年,世界上第一款搭载HBM的消费产品出现:AMD的Radeon Fury显卡。芯片旁边那一小块方形的堆叠内存,被工程师视作未来,却被市场视作累赘。

因为HBM太贵了。毕竟TSV(硅通孔)工艺听上去优雅,做起来却是噩梦:由于硅片非常薄,打孔就很难;每多一层,良率就掉一截;只要其中一颗裸片有缺陷,整摞芯片就得全部作废。

而且,下游也真的用不到。无论游戏玩家、还是消费终端,都并不需要这么夸张的带宽。

随后的几年,HBM一直被认为“屠龙之术、可惜没龙”。跟风生产HBM的三星,合并了内部团队;海力士自己的HBM产线,也几次差点被停掉。

直到一场谁也料想不到的AI变革来临。

训练一个模型,不只是让GPU拼命计算,更需要让GPU不断读取参数、样本、激活值和中间结果。GPU越强,对数据的胃口越大;模型越大,对内存带宽的需求越强。

Scaling Law的暴力美学,和手机、电脑相比,指数级提升了对计算能力、数据带宽的消耗能力。英伟达H100之所以能如此优异,也离不开HBM的支持。

鲜有人问津的HBM,成为AI必需品被抢购;多年坚持的海力士,终于等来了奖励。

而且,不只是HBM,存储芯片,都成为了稀缺资源。

如果说HBM是离GPU最近的弹药箱,DRAM就是工作台,NAND和企业级SSD则是后方仓库。AI作为一个长期工作的系统,需要的记忆层级也复杂:

最热的数据放在HBM里,次热的数据放在DRAM里,更冷、更大的数据则沉到NAND、企业级SSD、数据中心后端。

于是,一场链条式的供不应求开始演绎:AI先点燃了HBM,HBM又挤占了先进DRAM产能;高端产能越紧,普通DRAM和NAND的价格也越容易被推高。各类存储芯片的库存,都在减少,供应不求也愈演愈烈。

十年前的火种,开始燎原。

http://t.cn/AXiR9u2G

发布于 上海