课程: 生成式 AI vs. 传统 AI

免费学习该课程!

今天就开通帐号,24,000 门业界名师课程任您挑!

图像扩散模型

图像扩散模型

假设你刚烤了一些巧克力饼干, 把它们从烤箱里拿出来, 空气里都是巧克力和烤面粉的香味。 你打算把这些饼干当作基础原料, 来进一步制作其他饼干。 你要怎么做? 一种方法是创造一个人工神经网络, 来处理百万种不同的巧克力饼干。 但是这么做有一个问题, 当你开始处理数据时, 数据已经是完整的成品了, 就像饼干已经烤好一样。 所以为了生成新的饼干或图像, 你需要一种方法, 将这些饼干还原成它们的原料, 来理解成品是如何构成的。 也就是说神经网络需要破坏所有饼干, 然后重新创造它们。 这些饼干,会被还原为数量精确的 面粉、糖、水、黄油和巧克力豆。 然后重新烤成原来的饼干。 可能听起来奇怪, 但这和生成式 AI 系统生成图像的方式, 非常相似。 这些系统使用一种叫做扩散模型的东西。 这是一种基础模型, 它可以破坏数百万张图像, 把它们分解成像素化的模糊图像。 之后,扩散模型再把这些模糊图像去模糊化, 直到它恢复成原始图像。 但是为什么要让人工智能网络 对其在网络上发现的图像, 进行模糊化和去模糊化的处理呢? 因为你遇到了和烤饼干相同的问题。 系统在网上发现的图像已经是完整的成品了。 如果想生成新的图像, 系统需要先充分了解 生成现有图像的所有元素。 如果想创建一个饼干基础模型, 就需要还原数百万个巧克力饼干来训练模型。 一旦系统还原了 制作巧克力饼干的所有成分之后, 它就可以让自己制作新饼干了, 比如燕麦饼干。 因为这个基础模型知道, 燕麦饼干需要的原料和巧克力饼干差不多, 都需要面粉、糖、水和黄油。 所以,制作不同口味的饼干并不难。 对于图像来说也一样。 一个生成式 AI 系统, 可以学习数百万张人们坐在椅子上的图像, 还有数百万张猫的图像。 之后它会运用扩散模型, 来为每一张图像创建一个基础模型。 它会对这些图像进行模糊化处理, 然后重新创造它们,以理解其中的模式。 之后,它就能生成 人坐在椅子上,腿上有一只猫的新图像了。 通过扩散还原和重建这些图像, 神经网络充分理解了生成新图像需要什么。 实际上,这个破坏与重建的方法, 是现在公司最常用的新图像生成方式之一, 很多顶级服务都在使用, 如OpenAI 的图像生成系统 和 AI 绘图工具, 甚至是著名图像生成工具的开源代码包中, 也能看到。

内容