近日,字节跳动和 POSTECH 的研究团队发布了一项名为 “1.58-bit FLUX” 的突破性研究成果。
该成果成功将最先进的文本到图像(T2I)生成模型 FLUX.1-dev 的权重参数量化至 1.58 比特。
并且在生成 1024x1024 图像的时候,图像质量没有下降。这就为在手机这类资源有限的设备上使用大型文本到图像模型找到了新办法。
这个成果已经发布在 arXiv 上,也有开源代码库,不过代码还没传上去。
为什么要给 AI 画图模型 “减肥”?
现在有不少 AI 画图模型都很很棒,不如DALLE 3、Stable Diffusion 3、Midjourney 等。但这些模型的参数太多了,运行的时候占的内存也大,所以很难装到手机里用。
FLUX这个模型本来就不错,现在研究人员把它变成了 1.58-bit FLUX,体积一下就缩小了 7.7 倍。
这就像你想用手机拍 8K 超清电影,以前手机内存不够,现在有了 1.58-bit FLUX,以后在手机上用这些厉害的 AI 画图模型就有希望了。
解读 1.58-bit
研究团队挑了 FLUX.1-dev 模型来做量化实验。他们把模型里 99.5% 的视觉 Transformer 参数量化到 1.58 比特,也就是把参数值限定在 {-1, 0, +1} 这三个数里。
然后,他们还专门做了一个能让 1.58 比特运算更快的内核。这么一来,1.58-bit FLUX 在模型大小、推理内存和推理速度上都变好了。
其实,“1.58-bit” 就像是一个特别的 “收纳盒”。原来的 AI 模型参数就像很多不一样的小积木,占地方还不好收拾。
有了 “1.58-bit” 这个 “收纳盒”,就把积木简化成了三种,用很小的空间就能装下,还能拼出和原来差不多的图案,就像用压缩软件把文件变小了一样。
核心技术和创新点
1. 数据无关的 1.58 比特量化
以前的量化方法,有的要用到图像数据,有的要用混合精度方案。但是 1.58-bit FLUX 的量化过程不一样,它不用图像数据,只要对 FLUX.1-dev 模型自己做自监督就行。这样就把量化的过程变简单了,也让这个方法能在更多地方用。
2. 定制化 1.58 比特运算内核
为了让推理更快,研究团队做了一个专门给 1.58 比特运算用的内核。这个内核能让推理的时候占的内存变少,速度变快。
它是怎么做到的呢?就是在内核里优化了数据的存放和读取方式,让模型在运行的时候更高效。
实验结果
实验结果显示,1.58-bit FLUX 有不少进步。
1. 模型存储变小了
因为权重被量化成 2 比特有符号整数,模型存起来占的地方少了 7.7 倍,能省不少存储空间。
2. 推理内存降低了
在各种 GPU 上,推理内存用得都少了,在 A10-24G 这种内存不多的设备上更明显,少了 5.1 倍。这样就不容易内存不够了,系统运行也更稳。
3. 推理速度变快了
特别是在 L20 和 A10 这些性能不太强的 GPU 上,推理速度快了 13.2%。这样就能更快地生成图像,用起来更方便。
画质有没有变差?
大家都担心模型变小了,画质会不会不好。研究团队在 GenEval 和 T2I Compbench 这两个很厉害的测试平台上,对比了 “压缩” 前后的模型。
结果发现,1.58-bit FLUX 画出来的图和原来的差不多。
论文里还有很多对比图,这些图用 1.58-bit FLUX 画出来,细节很好,效果也不错。
这项技术最大的好处就是,以后我们也许能用手机运行大型 AI 画图模型了。
以前,我们只能在电脑或者专业服务器上玩 AI 画图,现在有了 1.58-bit FLUX,以后拿着手机就能随时画画了,这让 AI 画图离我们更近了。
🔊🔊🔊
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有