Reddit热议:[P] 面向 GPU 的无损 12 位 BF16 格式:0.03% 转义率,1 次整数加法解码,兼容 AMD 与 NVIDIA

作者发布了一个研究原型:一种面向推理直接使用的无损 BF16 压缩格式,把权重存成固定 12 位,用 4 位组码替代原 8 位指数;其中符号位与尾数恰好每元素 1 字节,组信息则把两个 4 位半字节打包成 1 字节,实现真正的 12 位存储,没有 16 位对齐浪费,也没有 HBM 读取放大。其重点不只是“压得更小”,而是让 GPU 友好到可在推理时直接解码:99.97% 权重仅需一次整数加法恢复,并可与 matmul 融合,因此基本没有独立解压阶段,不需要 LUT、比特流解析或熵编码,且可无损、按位精确重建。作者称该方案同时适用于 NVIDIA 和 AMD,目前仅在 BF16 safetensors 上测试;在 RTX 5070 Ti 上对多种模型给出相对 vLLM 的吞吐提升,并展示不同模型上的 escape rate 较低,最后也明确希望听到对边界情况、批评和扩展性的质疑。

来源:Reddit(r/MachineLearning)
原始发布时间:2026-04-04 08:55