LCM作者骆思勉:LCM引领实时生成AI新趋势 | 嘉程创业流水席210席精彩回顾
04.07.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

LCM工作推动了生成式AI进入实时生成的时代,带来一些全新的交互体验,实现"所见即所得,所想即所得"。

近日,嘉程创业流水席第210席【探讨AI多模态从基座到应用的最新趋势和前沿动态】,邀请了LCM/LCM-LoRA作者骆思勉分享,主题是《LCM模型和实时生成式AI的应用》。

以下是正文内容:

我是骆思勉,LCM与LCM-LoRA的作者,来自清华叉院,主要的研究方向是多模态生成模型。我今天分享的题目是:LCM模型与实时生成式AI的应用。

今天我分享的内容简单来说是三个部分,第一个是潜在的扩散模型LDM,目前主流的Stable Diffusion模型都是基于LDM架构。第二个分享的主题是潜在一致性模型——LCM,解释LCM是如何将Stable Diffusion生成速度提高10倍以上。第三个部分主要是谈一下实时生成式AI的应用和未来的展望。

目前比较主流的文生图模型,以及文生视频的模型,大多数都是基于扩散模型。以2023年的Midjourney v6版本和DALL·E 3模型为例,它们都采用了扩散模型生成框架。能生成极具真实感和艺术性的图片,甚至难以辨别这些图片是由AI生成还是绘画拍摄而来。

今年年初发布的SoRA模型也引起了很大反响。它实际上就是一种潜在扩散模型(Latent Diffusion Model)。从SoRA展示的案例来看,包括生成视频中所展现出惊人的一致性和连贯性,我们可以发现:扩散模型在生成能力上要远高大家之前的想象。

传统扩散模型原理

简要介绍一下扩散模型的原理。扩散模型的灵感来源于热力学。就像将一杯热水放在冷环境中,热分子的扩散运动会使原本高温的液体变成无序状态,而生成的过程对应的是从无序状态到有序状态的逆过程。这一过程正是受热力学过程的启发,因此被称为扩散模型。

扩散模型的框架分为两个阶段。首先是训练扩散模型,过程相对直观:选取一张清晰的照片,向其中添加噪声。在加入一定量的噪声后,将这张含有噪声的图片输入模型,模型需预测加入的噪声。通过这种训练方式,模型能够预测图片中含有多少噪声。其次是生成的过程,也就是逐步去噪的过程。从完全的噪声状态开始,连续将图片输入模型,模型将一步一步去除噪声,最终生成一张干净的图片。

简而言之,扩散模型包含两部分:训练部分,让模型具有预测噪声的能力;生成部分,利用训练好的模型不断预测噪声,相当于逐步对一张图片进行去噪,最终得到清晰图片。

扩散模型的优势和局限

DDPM是2020年Jonathan Ho等人提出的,可以被认为是扩散模型开山之作之一。在当时,它已经能有效生成人脸图像和CIFAR10数据集的图片。

简单来说,扩散模型有以下优点:

  • 一是训练稳定性高,相较于生成对抗网络(GAN),更易于训练。GAN在训练过程中可能不稳定,容易出现多样性退化问题。

  • 第二个优点是能够保证生成的多样性,它不会像GAN模型发生崩溃的现象。

  • 第三个,更高的生成质量。主要是源于训练的稳定性,并且它采样的时候能够保证多样性。

但同时扩散模型也有自己的局限性:

  • 由于需要对整张图片进行运算,最初的扩散模型仅能生成低分辨率的图片

  • 其次,整个扩散模型的训练过程相对来说算力消耗比较大,要训练好扩散模型所需要的算力也比较昂贵。

LDM——更高质量、更低成本

为了解决这个问题,2022年Stable Diffusion发布之后,大家看到一种新的模型,叫做潜在扩散模型Latent Diffusion Model(LDM)。

LDM与传统的扩散模型(Diffusion Model)的主要区别在于,它的训练不是直接在图片上进行,而是在图片的隐空间(Latent space)中进行。这样做的好处在于:直接在高维度的图片上进行运算,计算代价会非常大,如果我们先将图片压缩到隐空间,相当于通过自动编码器(auto encoder)将图片压缩到更低维的特征,再在此基础上训练扩散模型,就能显著降低成本。例如,一个自动编码器可以将图像压缩为原来1/64的大小,能大幅节省计算资源。

在隐空间训练扩散模型有两个优点:首先,它支持生成更高分辨率的图像;其次,训练和推理过程在隐空间进行,极大的降低计算开销。这也是Stable Diffusion能够取得如此成功的原因之一,它能够在个人GPU上运行扩散模型。相比之下,以往的扩散模型在训练和推理时的计算成本都相对较高。

然而扩散模型有一个非常大的局限性——推理速度。这是由于在原本的扩散模型生成框架下,去噪过程需要多次迭代,才能获得一张清晰的图片。

扩散模型在推理速度上的瓶颈主要有两个方面:首先,生成图片的时间取决于模型单次迭代的计算时间乘以迭代次数。其次,由于扩散模型网络庞大,参数非常多(例如Stable Diffusion有约9亿参数),每增加一次迭代,计算成本都会显著增加。有一个参考结果,在苹果M1芯片上运行Stable Diffusion XL模型,生成一张图片需要25次迭代,耗时64秒。因此,所有基于扩散模型的文生图模型生成速度都非常慢,响应时间也非常长。

LCM——克服扩散模型速度局限

所以在去年我们也在思考怎样提高扩散模型生成的速度。我们分析了生成时间的公式可以发现,瓶颈主要在于整个扩散模型的迭代次数。单次迭代时间难以改变,除非再次对模型大小进行压缩和剪枝。因此,我们着力于降低模型的迭代次数,在去年我们提出了潜在一致性模型——Latent Consistency Model(LCM)。

潜在一致性模型(LCM)的主要作用是把之前扩散模型几十步的采样部署降低到4步之内。这一改进相当于把模型的生成速度提升了5至10倍以上。原先需要几十步推理的过程,现在仅需4步即可完成一次推理,同时将推理成本降至原来的1/5甚至1/10。因此,LCM在社区中产生了很强的影响力,例如在HuggingFace平台上,LCM模型的下载量超过了300万次。

此外,潜在一致性模型(LCM)的灵感来源于OpenAI在2023年3月提出的一致性模型。其核心理念是简化扩散模型样本的采样过程,从逐步去噪的多步迭代过程转变为能够直接预测出最终解决方案的单步生成。如果模型训练得足够好,理论上可以实现一步生成。这样把以前扩散模型的采样部署从几十步的降到非常低,从而在该框架下进行生成时,推理成本极低,生成速度极快。

LCM成功地将一致性模型的思想应用于Stable Diffusion最主流的图像生成模型中,让Stable Diffusion模型的生成速度提高了5至10倍。

LCM技术原理

具体介绍潜在一致性模型(LCM)的原理。之前社区里面也有很多比较好的扩散模型加速方法。这些都是一些Training-Free的方法,采用更高级的采样技术来快速生成图像。这些工作主要致力于将数百步的推理次数减少到几十步。核心思想是,早期的扩散模型基于随机微分方程(SDE)进行样本采样,到后来大家使用常微分方程(ODE)进行采样,速度会变得更快。原因是因为ODE的轨迹比SDE的轨迹更平滑,能够用更少的步骤生成样本。

LCM的技术原理来自这一核心概念。之前所有的加速方法实质上都是数值ODE求解器,例如DDIM和DPM-Solver等Stable Diffusion社区中成熟的采样方法。它们本质上是基于数值的ODE求解器,很难做到单步求解。而LCM或一致性模型本质上是一个神经网络ODE求解器,要比ODE求解器的效率更高,因为数值ODE求解器难以通过单步计算得出ODE的最终解。但如果是神经网络ODE求解器,在理想情况下可以实现单步求解。

基于这个思路,扩散模型与一致性模型的核心区别在于:扩散模型需要逐步迭代来求解ODE最终解,但是像一致性模型和LCM模型,可以在任何一个状态下直接预测ODE的最终解。

这张图里是LCM模型相比之前社区里面最先进的采样器速度上的区别。在FID这个指标上,大家可以看到我们只用4步迭代,相比于之前8步的迭代,生成质量是差不多的,并且生成速度是之前4倍以上。

同时,我们也做了很多评测,例如在不同硬件上运行LCM模型以及之前的标准扩散模型。例如,在MAC硬件上运行标准的SDXL模型,生成一张图片可能需要64秒,而使用LCM模型,生成同样的图片只需不到7秒,加速比接近10倍。在其他硬件上的测试也显示出了显著的加速效果。由于LCM模型运行非常快,现在甚至可以在CPU上直接运行。相比之下,使用原始的SD XL模型,生成一张图可能要三分钟以上,现在只需要半分钟的生成时间,整体加速效果还是非常明显的。

LCM-LoRA:通用加速模块

另外,介绍一下另一项工作——LCM-LoRA,我们把它称为通用的Stable Diffusion加速模块。我们观察到社区中存在许多经过微调的Stable Diffusion模型,还有不同风格微调过后的模型。我们发现很难通过对社区中所有模型进行一次训练,将它们转换为LCM模型实现快速生成。所以后来我们提出了LCM-LoRA,可以被理解为一个加速插件。我们有基础的Stable Diffusion模型,通过风格化的微调,可以得到Customized LDM模型,具备个性化风格,但是生成速度依然十分缓慢。而通过LCM训练方法,可以训练出一个LCM-LoRA模型,它缺乏个性化风格,但其生成速度极快。

这时就有一个惊人的发现,当我们将这两种模型的权重组合时,我们发现可以获得一个既具有风格又生成速度快的模型。所以我们将LCM-LoRA称为通用的Stable Diffusion加速模块。LCM-LoRA的效果显著,社区中下载的任何LoRA模型在低步数生成时效果非常差,但加入LCM-LoRA后,在2步或4步的情况下也能产生优秀的生成效果。通过LCM-LoRA,SD社区里的几乎所有微调模型都可以被加速。

LCM开辟实时生成AI的可能

在LCM出现之前,我们基本上难以达到实时生成的速度。然而,LCM的出现将Stable Diffusion的生成速度提升了至少5到10倍,大家现在可以看到一些非常有意思的基于实时生成式AI的应用。

例如,实时AI绘画应用允许用户通过调整左侧的草图,即时看到右侧AI渲染后的画面。在LCM之前,这样的生成成本非常高,并且响应特别慢,不符合实时交互的场景要求。现在,得益于LCM模型的快速生成能力,实时生成AI应用场景成为现实。

另外LCM还可以用于实时视频渲染。尽管现有的LCM模型在视频一致性和连贯性方面还有待提高,因为LCM主要是一个图像生成模型,直接应用于视频效果并不理想。目前我们正在研究基于LCM的实时视频生成和渲染,这也是后续的工作。

实时生成式AI能够带来一种全新的交互体验。与生成式AI的传统交互方式相比,未来的交互形式将发生很大的改变。有了实时生成的能力,AI将能够立即对输入进行调整并输出结果,从而在未来提供全新的交互体验。我们可以实时调整模型的输入,并立即看到输出的效果。可以想象,在未来有实时的视频的生成,还有实时视频的编辑,还有各种各样基于实时的应用,这在LCM之前是难以想象的,LCM的出现让我们看到实时生成式AI的可能。

总结一下一些想法和观点:

1.未来生成式AI将会是实时的;

2.实时生成式AI将会给我们带来一些全新的交互体验;

3.LCM工作推动了生成式AI进入实时生成的时代;

4.最后,可以想象一下未来与生成式AI的交互体验,基本上你想看见什么东西,可能下一秒AI就帮你实时生成出来,所见即所得。

以上就是我的分享。

 

Q&A

席友:在处理图片时,感觉与runway的结果很相似,这两者之间可以形成替代关系吗?还是有什么差异?

骆思勉:目前我们看到的实时生成效果主要是图片到图片的转换。视频的连贯性和一致性问题尚未得到解决。但是这套方法论在技术上完全可以应用于视频。实时视频生成或编辑需要我们想象具体的应用场景,比如编辑视频的哪一部分,或者想要实现的功能,在这个基础上面去借用LCM的能力实现。

 

席友:LCM未来对于构建企业级小模型的时候会有哪些帮助?

骆思勉:以Stable Diffusion为例,我们已经看到了基于它的LCM模型。如果你是一个提供生成式服务的公司,对推理成本非常关注。如果有模型能将推理成本降低到原来的1/5或1/10,我觉得大家都会去用。因此从这个角度来看,使用LCM可以大幅降低推理成本。

嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴,成长的伙伴。

 

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017