谁来验收AI瞎写的代码

AI正重塑全球软件开发，但高质量代码稀缺。通过Lean平台进行数学验证，能为AI生成的复杂系统提供可靠性保障，将开发重心转向精准的设计规约。

数字世界正在被重新编写。Code Metal筹集了1.25亿美元用于重写国防软件，微软和谷歌报告称其25%至30%的新代码由AI生成。微软的首席技术官甚至预测，到2030年，95%的代码将由AI产出。然而，在这场效率狂欢背后，一个巨大的鸿沟正在裂开，那就是验证。

目前的现状令人担忧。正如Andrej Karpathy所观察到的，当AI生成的代码在大部分时间里看起来“还不错”时，人类工程师就开始习惯性地点击“全部接受”。哈佛商业评论将这种现象称为“工作废料”，即那些外表华丽但内部逻辑千疮百孔的AI作品。当这些废料出现在备忘录中只是让人烦恼，但如果出现在加密库里，那就是灾难。历史上一个微小的漏洞Heartbleed就曾让数百万用户的私密通信曝光，即便经过数年的代码审查也未能被发现。如今AI产出代码的速度是人类的1000倍，这意味着错误出现的频率和规模也将以千倍速扩张。

传统的测试和人工审查已经捉襟见肘。我们需要的是数学证明。测试只能提供信心，而证明能提供百分之百的保证。亚马逊云科技的应用科学家、Lean平台首席架构师Leonardo de Moura认为，解决办法不是让AI慢下来，而是引入“数学摩擦”。这意味着我们要让AI在快速生成代码的同时，必须证明其工作的正确性。

Lean平台已经成为这一变革的核心。它既是一种编程语言，也是一种定理证明器。目前，谷歌深思维、字节跳动、安斯罗皮克等巨头的AI推理系统都在使用它。通过Lean，我们可以为复杂的软件建立数学模型。当AI生成一段代码时，Lean的内核会像严厉的考官一样，从数学层面检查每一个逻辑步骤，确保它在所有可能的输入下都运行正确。

最近的一项实验展示了这种力量。研究人员利用安斯罗皮克公司的Claude模型，在极少的人工引导下，将广泛使用的压缩库zlib转换成了Lean版本，并生成了机器可检查的数学证明。这证明了即使是通用的AI，在合适的平台上也能产出经过严格验证的高质量软件。这在过去被认为是不可能完成的任务。

随着AI接管具体的代码编写，工程师的角色也将发生根本性转变。未来的核心技能不再是埋头于复杂的实现细节，而是编写精准的“规约”，即定义一个系统究竟什么是正确的。这要求工程师进行更深层次的设计思考，而非机械的录入。

这场变革的终极目标是建立一个“验证堆栈”。从基础的加密算法到像SQLite这样的存储引擎，全部由数学逻辑守卫。这种验证过的开源组件将成为永久的公共利益，任何人都可以审计和信任。当正确性的成本降到几乎为零时，航空航天、医疗设备和金融系统的安全性将迎来质的飞跃。在这个AI编写软件的新时代，数学证明将是我们数字文明最后的安全底线。

原文： leodemoura