在最近的一篇论文中,来自香港科技大学和微软亚洲研究院的研究人员认为,图像到图像的转换只需要预先训练以前的方法需要特殊的架构设计,从零开始训练单一的变换模型,很难生成高质量的复杂场景,尤其是在成对训练数据不足的情况下
因此,研究人员将每个图像到图像的转换问题视为下游任务,并引入了一个简单的通用框架,该框架采用预先训练的扩散模型来适应各种图像到图像的转换他们称预训练图像到图像转换模型为PITI此外,研究者还提出在扩散模型训练中使用对抗训练来增强纹理合成,并结合归一化引导采样来提高生成质量
最后,研究人员在ADE20K,COCO—Stuff和DIODE等具有挑战性的基准上对各种任务进行了广泛的实证比较,结果显示PITI合成的图像表现出了前所未有的真实感和忠诚度。
扩散和基于分数的方法显示了跨基准的生成质量在conditional ImageNet上,这些模型在视觉质量和采样多样性方面与基于GAN的方法不相上下最近,大规模文本—图像配对训练的扩散模型显示出惊人的能力一个训练有素的扩散模型可以为合成提供一个通用的生成先验
结构
对于下游任务,它们有条件地微调语义空间,以映射特定于任务的环境该机器根据预先训练的信息创建可信的视觉效果
实验和影响
表1表明,所提出的方法的性能总是优于其他模型与领先的绿洲相比,PITI在从蒙版到图像合成的FID方面取得了显著的进步此外,该方法在草图到图像和几何图形到图像的合成任务中也表现出良好的性能
图3显示了这项研究在不同任务上的可视化结果实验结果表明,与从零开始训练的方法相比,预训练模型显著提高了生成图像的质量和多样性这种研究方法可以产生生动的细节和正确的语义,即使这是一个具有挑战性的生成任务
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。