扩散模型从随机噪点中生成惊艳图像,颠覆传统AI逻辑。通过逐步“去噪”,它将混沌转化为清晰画面,广泛应用于图像、视频甚至文本生成。

扩散模型是什么?它与席卷AI领域的Transformer模型有何不同?简单来说,Transformer通过预测语言中的下一个词,逐步构建句子,逻辑清晰。而扩散模型则像一位艺术家,从一片混沌的“白噪音”中雕琢出精美图像。想象一张可爱的狗狗照片,你可以逐渐往上面添加随机色块,直到它变成一团看不出形状的噪点。任何图像,无论多么不同,最终都会变成相似的“纯噪点”。这意味着,每张图像与噪点之间,存在一个渐变的过程。

扩散模型的核心就在于学会理解并逆转这个过程。训练时,模型会拿到大量图像,每张图像被表示为一个巨大的数字矩阵(张量),搭配一段文字描述。训练过程有点像玩“找不同”游戏:给图像添加少量随机噪点,然后让模型猜出哪些像素被改变了颜色。模型的每次输出是一份“噪点报告”,告诉你哪些地方被动了手脚。训练的关键是让模型适应从轻微噪点到完全看不出原貌的图像,逐步提高它的“去噪”能力。

在实际使用时,过程就像魔法:用户提供一段描述,比如“夕阳下的城堡”,模型从一团纯噪点开始,逐步剥离噪点层,最终生成一张符合描述的图像。实际上,这张图像完全由模型创造,而非从某处“还原”。这种“去噪”过程,正是扩散模型的独特魅力。

为了让图像更高效地处理,扩散模型通常会先用变分自编码器(VAE)将图像压缩成更小的张量,就像把一幅画浓缩成一串抽象的数字,再从这些数字还原图像。为什么不用常见的JPEG压缩?因为JPEG的压缩方式太有规律,而扩散模型需要一种看似随机的压缩格式,确保去噪过程顺利进行。VAE还能适度忽略一些无关细节,比如相机噪点,让生成结果更干净。

另一个关键技巧是“无分类器引导”。训练时,模型有时会看到“无描述”的图像,学会如何为任意图像去噪。生成图像时,模型会同时考虑有描述和无描述的去噪结果,放大两者的差异,确保生成的图像紧扣用户提供的文字描述,比如那座“夕阳下的城堡”不会变成别的场景。

与Transformer相比,扩散模型的操作方式完全不同。Transformer从零开始,逐个生成词语,输出的内容一旦确定就不会更改。而扩散模型需要一个“空白画布”——纯噪点作为起点,每次生成都在调整整张图像。Transformer如果中途停止,可能只得到半句话;而扩散模型即使提前结束,也能给出一张稍带噪点的图像。这种特性让扩散模型像一个可调的“画质旋钮”:想要快就接受些许噪点,想要精美就多花点时间。

扩散模型的魔力不仅限于图像。视频生成也是类似原理,只是输入变成了一个更大的张量,包含视频的所有帧。模型在学习去噪的同时,还要理解帧与帧之间的联系,比如物体如何移动、因果如何演变。这让视频生成更复杂,但也更强大,比如OpenAI的Sora和Google的VEO能生成令人惊叹的短视频片段。

文本生成则更奇特。文字不像图像,不能直接加噪点。一种方法是对文字的嵌入向量(embeddings)加噪点,从随机数字开始去噪,直到生成可读的文本。但将嵌入向量变回文字并不容易,有时会生成乱码,或者需要额外的解码器帮忙,这让文本扩散模型显得有些“另类”。

为什么扩散模型如此有效?Transformer的成功源于语言结构中蕴含的世界模型,预测下一个词的过程间接让模型理解了世界。扩散模型的“世界观”可能藏在噪点与数据的微妙关系中:学会区分两者,模型就相当于学会了如何从混沌中提炼秩序。这或许就是它能生成逼真图像、视频甚至文本的秘密。

从一团噪点到栩栩如生的画面,扩散模型展现了AI的另一种可能。它不仅改变了我们对图像生成的认知,还在视频、音频甚至文本领域掀起波澜。未来,或许某一天,扩散模型会成为AI领域的下一个王者,创造出更惊艳的奇迹。

本文译自 seangoedecke,由 BALI 编辑发布。