【#涌现的秘密：模型越大越聪明背后的结构奥秘#】在近期一场题为《从网络科学理解智能:大模型中的自组织与涌现》的精彩分享中，现任田纳西大学EECS系助理教授的肖熊烨博士，为我们揭示了LLM智能涌现的深层奥秘。肖博士本科毕业于浙江大学控制科学与工程学院，博士毕业于南加州大学ECE系，他的研究利

【#涌现的秘密：模型越大越聪明背后的结构奥秘#】

在近期一场题为《从网络科学理解智能:大模型中的自组织与涌现》的精彩分享中，现任田纳西大学EECS系助理教授的肖熊烨博士，为我们揭示了LLM智能涌现的深层奥秘。肖博士本科毕业于浙江大学控制科学与工程学院，博士毕业于南加州大学ECE系，他的研究利用网络科学和分形理论，为“大力出奇迹”这一现象提供了全新的科学视角。

研究将LLM内部的神经元连接抽象为一个“人工神经元交互网络”（NIN），并分析其结构特性。研究发现，模型的智能涌现与一个关键的“结构相变”过程密切相关。

研究揭示了几个关键指标随模型规模的变化趋势：
异质性（分形谱宽度 w）：衡量模型内部连接模式的多样化程度。随着模型从小型（<100M参数）增长到大型（>1B参数），w值单调上升。这说明，越大的模型，其内部的神经连接模式就越多样、越复杂，能够激活更多样化的神经元-特征组合。

规律性（主导分形维度 α₀）：衡量网络的整体有序性。有趣的是，随着模型规模增加，α₀反而逐渐下降并趋于稳定。这表明，模型在训练中并非走向完全的规则或随机，而是形成了一种更有序、但同时包含大量局部不规则性的高效网络模式，即“分形稳态”。

涌现能力（E）：当模型规模跨越一个特定的“临界点”（图中ln(参数量)≈21.5）后，其涌现能力E会急剧加速提升。这个现象与物理学中的“相变”高度一致，标志着模型从量变到质变的飞跃。

简单来说，LLM的训练过程，就是一个网络不断“自组织”的过程。模型规模的持续扩大，推动了其内部网络结构从简单、单一，向高度复杂、异质且有序的“分形”结构演化。而当这种结构复杂性跨过一个临界阈值时，我们所观察到的“智能”便会喷薄而出。

重点关注：
1、结构决定能力：大模型的智能涌现并非玄学，而是其内部网络结构“相变”的外在表现。模型规模越大，内部结构越复杂多样，为能力涌现提供了基础。
2、临界规模是关键：存在一个“临界模型规模”，一旦超越这个点，模型的性能和涌现能力会不成比例地急剧增长，这为我们寻找最高效的模型规模提供了理论指导。
3、分形视角看AI：分形理论为我们理解LLM的黑箱提供了一个强大工具，揭示了其从无序到有序，再到复杂功能结构的自组织演化路径。

——笔记整理：祝韬

#大语言模型##分形理论##AI涌现##人工智能[超话]##ChatGPT[超话]##AI探索计划#

发布于北京