人工智能研究者无意中发现,巨型神经网络打破了传统学习理论的禁锢,揭示了规模如何挖掘简单却强大的解决方案,彻底改变AI发展路径。

五年前,若有人提议训练拥有万亿参数的神经网络,恐怕只会引来同情的目光。这不仅违背了机器学习的核心原则——模型过大只会沦为“复印机”,死记硬背训练数据却学不到任何有用的规律——更是对三百年统计理论的公然挑战。教科书上那条不容置疑的曲线早已写下定论:小模型学不到精髓,最优模型能举一反三,而大模型则会不可避免地过拟合,彻底失败。然而,今天的现实却截然不同:那些曾被认为“不可能”的巨型模型正驱动着ChatGPT、破解蛋白质结构密码,甚至引发了价值千亿的全球技术竞赛。这一切的转变,源于对学习本质的重新认识,也源于一群研究者敢于挑战根深蒂固的理论假设。

三百年来,学习系统的核心被一条铁律统治:偏差-方差权衡。数学公式优雅而严密,逻辑无懈可击。模型太简单,会错过关键模式;太复杂,则会记住噪声而非信号。想象一个学习算术的学生,面对无数加法题目和答案。他们可能通过理解进位和位值的算法来掌握规律,也可能选择死记硬背每道题的答案。前者让他们在考试中游刃有余,后者却注定失败。神经网络似乎尤其容易落入这种记忆陷阱。拥有数百万参数的它们,能轻松存储整个数据集。传统理论预言,这些过度参数化的网络就像死记硬背的学生,在训练数据上完美无瑕,但在新问题面前一败涂地。

这种认知曾主导一切。研究者们醉心于设计巧妙的架构、引入正则化技术、施加数学约束,只为从小型、精雕细琢的模型中榨取性能。扩大规模?那被视为昂贵的愚蠢之举。学术界的权威们更强化了这一正统观念:“大模型只会过拟合”成了金科玉律。学术会议的论文聚焦效率而非规模,单纯增加参数的想法被视为异端邪说。

然而,2019年,一群研究者犯下了“滔天大罪”:他们无视警告,执意扩大模型规模。他们没有在网络达到完美训练精度——理论警告的“危险地带”——时停下,而是继续向前,闯入禁区。结果令人震惊:模型并未崩溃。起初,它们似乎如预期般记住了训练数据,但随后,奇迹发生了——性能竟然再次大幅提升。这种现象被命名为“双重下降”:先是错误率因过拟合而上升,然后出乎意料地再次下降,彻底超越了过拟合的桎梏。

Mikhail Belkin和他的团队记录了这一发现,指出它“与基于偏差-方差分析的传统智慧相矛盾”。这一突破如巨浪席卷AI领域。OpenAI的后续研究表明,这种优势甚至在参数量级跨越多个数量级后依然存在。更大规模的模型不仅积累了更多事实,还展现出全新的能力,比如仅通过几个例子就能学会新任务。整个行业随之转向,谷歌、微软、Meta和OpenAI投入数十亿资金打造更大模型。GPT系列的参数从1.17亿激增至1750亿,“越大越好”从理论禁区变成了行业灯塔。

但一个问题始终困扰着研究者:这一切为何有效?答案从一个意想不到的角落浮现。2018年,MIT的Jonathan Frankle和Michael Carbin在研究网络剪枝时,发现了一个惊人的现象。他们试图移除训练后多余的权重,却发现每个大型网络中都隐藏着“中奖彩票”——小型子网络几乎能完全复制整个网络的性能。即使去掉96%的参数,精度依然不减。这些子网络的存在揭示了一个关键洞察:它们的成功依赖于初始的随机权重。换句话说,如果改变初始值,同样的子网络架构会彻底失败。

这一发现催生了“彩票假说”:大型网络的成功并非因为它们学会了复杂的解决方案,而是因为它们提供了无数寻找简单解决方案的机会。每个权重子集就像一张彩票,代表一个潜在的优雅解法。大多数彩票注定失败,但在数十亿张彩票中,总有一张会胜出。训练过程就像一场大规模的抽奖,最佳的子网络在无数随机初始化的竞争中脱颖而出,而其他子网络则被逐渐淘汰。

这一假说不仅解释了巨型模型的成功,还与经典理论达成了和解。大型网络并非通过死记硬背取胜,而是在广阔的参数空间中找到简洁的解决方案。奥卡姆剃刀依然适用:最简单的解释依然最佳,只是规模成了寻找这些简单解释的更精妙工具。

这一发现的意义远超人工智能本身。如果学习的核心是找到解释数据的最简模型,而更大的搜索空间能带来更简单的解法,那么这重新定义了智能的本质。想想人类大脑:860亿个神经元、数万亿条连接,堪称极度“过度参数化”。但我们擅长从有限的例子中学习,举一反三。彩票假说暗示,这种神经丰富性正是为了提供无数潜在的简单解法。智能不是记住信息,而是找到解释复杂现象的优雅模式。

这一突破也折射出科学的进步模式。几十年来,研究者因理论限制而回避规模化。突破源于实证的勇气——敢于测试假设而非盲从。这样的故事在科学史上屡见不鲜:大陆漂移理论曾被嘲笑,直到板块构造学提供了机制;量子力学看似荒诞,直到实验证据无可辩驳。最伟大的发现,往往需要越过理论的边界。

彩票假说并未推翻经典学习理论,而是揭示了其更精妙的运作方式。简单解法依然是最优的,我们只是找到了更好的寻找途径。这一发现为AI发展指明了方向,同时也暗示了局限。规模之所以有效,是因为更大的模型提供了更多“彩票”,增加了找到最优解的机会。但当网络越来越擅长挖掘最简解法时,继续增加规模的回报会逐渐递减。Yann LeCun等专家的担忧也指向这一点:无论规模多大,当前架构的局限可能阻碍模型达到真正的理解。

这场意外的发现带来深刻启示:宇宙常为那些敢于挑战常规的人准备惊喜。进化本身遵循相似的原则,在广袤的基因空间中探索,寻找优雅的生存方案。最成功的物种并非最复杂,而是适应得最精妙。学习理论看似面临危机,最终却得到升华。偏差-方差权衡依然成立,只是其运作机制远比我们想象的微妙。那些敢于超越理论舒适区的研究者,不仅推动了AI的飞跃,还提醒我们:在一个以数学确定性为根基的领域,最重要的发现,往往源于对不确定性的拥抱。

本文译自 Nearly Right,由 BALI 编辑发布。


2025王摸鱼秋款卫衣,玩梗系列