26-06-23 14:05

回复@轻轻点头的jerry:Ramsauer、Schäfl、Gruber等人2021年在ICLR发表了《Hopfield Networks is All You Need》,证明Transformer的自注意力机制(Self-Attention),数学上完全等价于现代连续Hopfield网络(Modern Continuous Hopfield Network, MCHN)通过凸-凹过程(CCCP)进行能量最小化时的一步更新规则。//@轻轻点头的jerry:Transformer 的自注意力映射到Hopfield 网络只算是特例嵌入和理论映射,研究更方便,二者在数学结构和训练模式上不等价。不过以统计物理视角研究LLM还是很有启发的。

发布于 广东