扩散模型的简单解释

扩散模型从随机噪点中生成惊艳图像，颠覆传统AI逻辑。通过逐步“去噪”，它将混沌转化为清晰画面，广泛应用于图像、视频甚至文本生成。

扩散模型是什么？它与席卷AI领域的Transformer模型有何不同？简单来说，Transformer通过预测语言中的下一个词，逐步构建句子，逻辑清晰。而扩散模型则像一位艺术家，从一片混沌的“白噪音”中雕琢出精美图像。想象一张可爱的狗狗照片，你可以逐渐往上面添加随机色块，直到它变成一团看不出形状的噪点。任何图像，无论多么不同，最终都会变成相似的“纯噪点”。这意味着，每张图像与噪点之间，存在一个渐变的过程。

扩散模型的核心就在于学会理解并逆转这个过程。训练时，模型会拿到大量图像，每张图像被表示为一个巨大的数字矩阵(张量)，搭配一段文字描述。训练过程有点像玩“找不同”游戏：给图像添加少量随机噪点，然后让模型猜出哪些像素被改变了颜色。模型的每次输出是一份“噪点报告”，告诉你哪些地方被动了手脚。训练的关键是让模型适应从轻微噪点到完全看不出原貌的图像，逐步提高它的“去噪”能力。

在实际使用时，过程就像魔法：用户提供一段描述，比如“夕阳下的城堡”，模型从一团纯噪点开始，逐步剥离噪点层，最终生成一张符合描述的图像。实际上，这张图像完全由模型创造，而非从某处“还原”。这种“去噪”过程，正是扩散模型的独特魅力。

为了让图像更高效地处理，扩散模型通常会先用变分自编码器(VAE)将图像压缩成更小的张量，就像把一幅画浓缩成一串抽象的数字，再从这些数字还原图像。为什么不用常见的JPEG压缩？因为JPEG的压缩方式太有规律，而扩散模型需要一种看似随机的压缩格式，确保去噪过程顺利进行。VAE还能适度忽略一些无关细节，比如相机噪点，让生成结果更干净。

另一个关键技巧是“无分类器引导”。训练时，模型有时会看到“无描述”的图像，学会如何为任意图像去噪。生成图像时，模型会同时考虑有描述和无描述的去噪结果，放大两者的差异，确保生成的图像紧扣用户提供的文字描述，比如那座“夕阳下的城堡”不会变成别的场景。

与Transformer相比，扩散模型的操作方式完全不同。Transformer从零开始，逐个生成词语，输出的内容一旦确定就不会更改。而扩散模型需要一个“空白画布”——纯噪点作为起点，每次生成都在调整整张图像。Transformer如果中途停止，可能只得到半句话；而扩散模型即使提前结束，也能给出一张稍带噪点的图像。这种特性让扩散模型像一个可调的“画质旋钮”：想要快就接受些许噪点，想要精美就多花点时间。

扩散模型的魔力不仅限于图像。视频生成也是类似原理，只是输入变成了一个更大的张量，包含视频的所有帧。模型在学习去噪的同时，还要理解帧与帧之间的联系，比如物体如何移动、因果如何演变。这让视频生成更复杂，但也更强大，比如OpenAI的Sora和Google的VEO能生成令人惊叹的短视频片段。

文本生成则更奇特。文字不像图像，不能直接加噪点。一种方法是对文字的嵌入向量(embeddings)加噪点，从随机数字开始去噪，直到生成可读的文本。但将嵌入向量变回文字并不容易，有时会生成乱码，或者需要额外的解码器帮忙，这让文本扩散模型显得有些“另类”。

为什么扩散模型如此有效？Transformer的成功源于语言结构中蕴含的世界模型，预测下一个词的过程间接让模型理解了世界。扩散模型的“世界观”可能藏在噪点与数据的微妙关系中：学会区分两者，模型就相当于学会了如何从混沌中提炼秩序。这或许就是它能生成逼真图像、视频甚至文本的秘密。

从一团噪点到栩栩如生的画面，扩散模型展现了AI的另一种可能。它不仅改变了我们对图像生成的认知，还在视频、音频甚至文本领域掀起波澜。未来，或许某一天，扩散模型会成为AI领域的下一个王者，创造出更惊艳的奇迹。

本文译自 seangoedecke，由 BALI 编辑发布。

2025王摸鱼秋款卫衣，玩梗系列