在深度学习乃至大规模语言模型(LLM)的发展历程中,有两大规律构成了其核心的理论基础:双下降现象(Double Descent Phenomenon)与缩放定律(Scaling Laws)。前者解释了过参数化模型为何能够保持优异的泛化能力,打破了传统的统计学习认知;后者则量化了模型规模、数据量与算力如何决定模型最终的性能,为大模型的工程实践指明了方向。
本文将平实地解析这两大现象的科学原理,并在文末探讨它们给人工智能领域带来的深层思考。
一、双下降现象 (Double Descent Phenomenon)
1. 传统认知:偏差-方差权衡
在经典机器学习中,模型复杂度与泛化误差之间存在一个广泛认可的“U型曲线”,即偏差-方差权衡(Bias-Variance Trade-off)。当模型复杂度不足时,偏差较高,导致欠拟合;随着复杂度上升,模型在训练集和测试集上的表现都会变好;但当模型过于复杂时,会开始过度拟合训练数据中的噪声,导致方差急剧上升,测试误差也随之反弹。
2. 双重下降曲线的发现
然而,研究人员发现现代深度神经网络的实际表现突破了这一框架。2019年,Mikhail Belkin 等人提出了“双下降”曲线。该现象表明,当模型参数持续增加,跨过某个特定点(即能够完全记忆所有训练数据的“插值阈值”,Interpolation Threshold)后,测试误差并不会持续恶化,反而会迎来第二次下降。
具体而言,曲线可以分为两个区域:
- 经典区:参数较少时,符合传统的U型曲线。在插值阈值处,测试误差达到峰值。
- 过参数化区(Over-parameterized):参数量远大于训练样本量时,模型不但没有崩溃,泛化能力反而持续提高,甚至优于第一阶段的最低点。

基础论文引用:
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling modern machine-learning practice and the classical bias–variance trade-off. Proceedings of the National Academy of Sciences, 116(32), 15849-15854. (此文首次在现代机器学习与经典统计学之间建立联系,正式提出了"Double Descent"的完整概念。)
Nakkiran, P., Kaplun, G., Bansal, Y., Yang, T., Barak, B., & Sutskever, I. (2019). Deep double descent: Where bigger models and more data hurt. arXiv preprint arXiv:1912.02292. (OpenAI基于深度网络的研究,阐明不仅仅是模型变大,训练时间与数据量在特定阈值下同样的双下降规律。)
二、缩放定律 (Scaling Laws)
如果说双下降现象论证了增大模型规模的可行性,那么缩放定律则量化了增大模型规模带来的具体收益。
1. 幂律关系
2020年,OpenAI 在其研究中系统性地提出了语言模型的 Scaling Laws。研究指出,模型的交叉熵损失(Cross-Entropy Loss)$L$ 在本质上可以分解为不可约噪声(数据本身的内在熵)与可优化误差。而可优化误差与三个核心因素存在明确的幂律(Power-law)关系:
- C (Compute):计算量
- N (Network size):模型参数量
- D (Dataset size):训练数据量
这在数学上近似表现为 $L(X) = E + \frac{A}{X^\alpha}$ 的形式,其中 $X$ 代表算力或数据规模,$E$ 为不可约熵,$\alpha$ 为缩放系数。这意味着,在不改变底层网络架构的前提下,单纯按比例增加算力、参数和数据,模型的性能就会呈现出稳定且可预测的线性提升(在对数坐标系下)。

2. 从 OpenAI 到 DeepMind (Chinchilla)
早期的 Kaplan 缩放定律(OpenAI)认为,在计算预算有限的情况下,扩大参数规模($N$)带来的收益比扩大数据量($D$)更大。这导致了早期出现如 GPT-3 这类拥有极大参数量,但训练数据量相对较少的模型。
随后,DeepMind 在 2022 年发表了 Chinchilla 论文,对这一结论进行了修正。通过更详尽的实验,他们指出模型参数量和训练数据量应当以约 1:1 的比例同步增加。基于 Chinchilla 定律,许多后来的大模型在较小的参数规模下,通过使用数万亿 Token 的数据进行训练,达到了甚至超越早期千亿参数模型的性能。
基础论文引用:
Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., … & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361. (OpenAI发布的论文,确立了语言模型性能与C、N、D之间的幂律关系。)
Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., … & Sifre, L. (2022). Training compute-optimal large language models. arXiv preprint arXiv:2203.15556. (DeepMind的Chinchilla论文,从参数与数据的最优配比角度,修正了扩展定律。)
三、理论背后的思考
这两大规律不仅是指导工程实践的准则,也引发了学界对人工智能底层逻辑的重新审视。
1. 冗余参数与隐式正则化
双下降现象在一定程度上探讨了“奥卡姆剃刀(Occam’s Razor)”原则在统计学习中的适用边界。从数学和几何直观来看,过参数化使得神经网络的特征解空间维度远大于约束方程(即数据点)的数量。在这样极度高维的超平面空间中,存在无限多个训练误差为零的解。有趣的是,基于梯度下降(SGD)的优化算法并不会随机停止在任意一个解上,而是具备一种“隐式正则化”(Implicit Regularization)的能力——它倾向于寻找具有最小范数(Minimum Norm)的解。
在现代神经正切核(Neural Tangent Kernel, NTK)理论的研究中,我们得以一窥其奥秘:这相当于在一群能够死记硬背训练集的函数中,算法自动挑选出了波动最少、最为平滑的那个函数。现实世界的数据分布往往具有平滑的高维流形(Manifold)特征,依托海量冗余参数逼近出的最平滑解,恰恰能实现跨越记忆瓶颈的优异泛化。
2. 涌现与算力主导
缩放定律则从大工业制造的维度,呼应了 Rich Sutton 在《苦涩的教训》(The Bitter Lesson)一文中的著名论断:长远来看,利用海量计算资源的通用方法,最终必将战胜依靠人类微观先验知识打造的复杂特制架构。
当参数与数据遵循幂律稳定扩张、并向无穷远处推进时,模型从单纯的“概率记忆”产生了质变量变机制。语言模型在达到一定的参数门槛(例如百亿乃至千亿级别)后,自发展现出了“涌现”(Emergence)现象——模型突然间掌握了在训练目标中未曾显式提及的少样本学习(Few-shot Learning)和逻辑链推理(Chain of Thought)能力。底层微观的简单概率预测规则,在巨量参数和计算的加持下,不可思议地演化出了宏观层面的高阶理解力。