免费开源稳定扩散玩出了新花样:
稳定扩散不仅可以将同一幅原始图像缩小到更小的尺寸,而且性能优于JPEG和WebP。
对于同一幅原始图像,稳定扩散压缩后的图像不仅细节更多,而且压缩伪影更少。
但使用稳定扩散压缩图形的软件工程师马蒂亚斯·布尔曼也指出,这种方法有明显的局限性。
因为它不太擅长处理人脸和文字,有时甚至会在解码和扩展回来后,幻化出原图中不存在的特征。
像这样:
左边是原始图像,右边是稳定扩散压缩和扩展的生成图像。
但是话说回来—
稳定扩散是一种特殊的扩散模型,称为势扩散。
与标准扩散不同,潜在扩散在低维的潜在空间中进行,而不使用实际的像素空间。
也就是说,隐藏空间的表现结果是一些低分辨率的压缩图像,但这些图像具有很高的准确性。
在这里,图像的分辨率和精度是两回事
以这只骆驼的头像为例:原图大小为768KB,分辨率为512×512,精度为3×8位。
经过稳定扩散压缩到4.98KB后,分辨率降低到64×64,但精度提高到4×32位。
所以看起来稳定扩散的压缩图像和原图差别不大。
更具体地说,稳定扩散的势扩散模型有三个主要部分:
VAE,优信网和文本编码器。
可是,在这个压缩图像的测试中,文本编码器是没有用的。
VAE起主要作用,它由两部分组成:编码器和解码器。
MB发现,VAE的解码函数对于量化潜在表征是非常稳定的。
通过缩放,拖动和重新映射,将潜在表示从浮点量化为8位无符号整数,可以得到失真很小的压缩图像:
首先将latents量化为8位无符号整数,图像大小为64×64×4×8Bit=16 kB。
然后利用调色板和抖动进一步将数据压缩到5kB,同时提高图像还原度。
作为一个严谨的程序员,MB哥不仅用肉眼观察,还分析了画质的数据。
但从PSNR和SSIM这两个重要的图像质量评价指标来看,稳定扩散的压缩结果并不比JPG和WebP好。
此外,当潜在表示被重新解码并扩展到原始图像分辨率时,尽管图像的主要特征仍然可见,但VAE也会将高分辨率特征分配给这些像素值。
用白话文来说,重建的图像往往与原始图像不同,其中包含了许多新生成的鬼畜特征。
我们再来回顾一下这张图:
虽然用稳定扩散来压缩图还有很多问题,但是用MB的话来说,它的效果还是很惊人的,前景很光明。
现在MB哥已经把相关代码放在Google Colab上了,感兴趣的朋友可以仔细看看~
入口
参考链接:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。