svdq-int4-flux.1-dev适配Nunchaku加速模型-数字折叠

模型介绍

SVDQuant 是一种用于 4 位权重和激活的训练后量化技术，能够很好地保持视觉保真度。在 12B FLUX.1-dev 模型上，与 BF16 模型相比，它实现了 3.6 倍的内存减少。通过消除 CPU 卸载，在配备 16GB 显存的笔记本电脑 GPU（如 RTX 4090）上，其速度比 16 位模型快 8.7 倍，比 NF4 W4A16 基线快 3 倍。在 PixArt-∑ 模型上，它在视觉质量上显著优于其他 W4A4 甚至 W4A8 基线。“E2E”表示包括文本编码器和 VAE 解码器在内的端到端延迟。

简单来说，该模型是可以被Nunchaku读取，并且能够保留Flux原有dev模型的出图质量，提高生成速度。