25-08-10 11:56 微博认证:科技博主

【#涌现的秘密:模型越大越聪明背后的结构奥秘#】

在近期一场题为《从网络科学理解智能:大模型中的自组织与涌现》的精彩分享中,现任田纳西大学EECS系助理教授的肖熊烨博士,为我们揭示了LLM智能涌现的深层奥秘。肖博士本科毕业于浙江大学控制科学与工程学院,博士毕业于南加州大学ECE系,他的研究利用网络科学和分形理论,为“大力出奇迹”这一现象提供了全新的科学视角。

研究将LLM内部的神经元连接抽象为一个“人工神经元交互网络”(NIN),并分析其结构特性。研究发现,模型的智能涌现与一个关键的“结构相变”过程密切相关。

研究揭示了几个关键指标随模型规模的变化趋势:
异质性(分形谱宽度 w):衡量模型内部连接模式的多样化程度。随着模型从小型(<100M参数)增长到大型(>1B参数),w值单调上升。这说明,越大的模型,其内部的神经连接模式就越多样、越复杂,能够激活更多样化的神经元-特征组合。

规律性(主导分形维度 α₀):衡量网络的整体有序性。有趣的是,随着模型规模增加,α₀反而逐渐下降并趋于稳定。这表明,模型在训练中并非走向完全的规则或随机,而是形成了一种更有序、但同时包含大量局部不规则性的高效网络模式,即“分形稳态”。

涌现能力(E):当模型规模跨越一个特定的“临界点”(图中ln(参数量)≈21.5)后,其涌现能力E会急剧加速提升。这个现象与物理学中的“相变”高度一致,标志着模型从量变到质变的飞跃。

简单来说,LLM的训练过程,就是一个网络不断“自组织”的过程。模型规模的持续扩大,推动了其内部网络结构从简单、单一,向高度复杂、异质且有序的“分形”结构演化。而当这种结构复杂性跨过一个临界阈值时,我们所观察到的“智能”便会喷薄而出。

重点关注:
1、结构决定能力:大模型的智能涌现并非玄学,而是其内部网络结构“相变”的外在表现。模型规模越大,内部结构越复杂多样,为能力涌现提供了基础。
2、临界规模是关键:存在一个“临界模型规模”,一旦超越这个点,模型的性能和涌现能力会不成比例地急剧增长,这为我们寻找最高效的模型规模提供了理论指导。
3、分形视角看AI:分形理论为我们理解LLM的黑箱提供了一个强大工具,揭示了其从无序到有序,再到复杂功能结构的自组织演化路径。

——笔记整理:祝韬

#大语言模型##分形理论##AI涌现##人工智能[超话]##ChatGPT[超话]##AI探索计划#

发布于 北京