Reddit热议：[P] 面向 GPU 的无损 12 位 BF16 格式：0.03% 转义率，1 次整数加法解码，兼容 AMD 与 NVIDIA

作者：

在

作者发布了一个研究原型：一种面向推理直接使用的无损 BF16 压缩格式，把权重存成固定 12 位，用 4 位组码替代原 8 位指数；其中符号位与尾数恰好每元素 1 字节，组信息则把两个 4 位半字节打包成 1 字节，实现真正的 12 位存储，没有 16 位对齐浪费，也没有 HBM 读取放大。其重点不只是“压得更小”，而是让 GPU 友好到可在推理时直接解码：99.97% 权重仅需一次整数加法恢复，并可与 matmul 融合，因此基本没有独立解压阶段，不需要 LUT、比特流解析或熵编码，且可无损、按位精确重建。作者称该方案同时适用于 NVIDIA 和 AMD，目前仅在 BF16 safetensors 上测试；在 RTX 5070 Ti 上对多种模型给出相对 vLLM 的吞吐提升，并展示不同模型上的 escape rate 较低，最后也明确希望听到对边界情况、批评和扩展性的质疑。

来源：Reddit（r/MachineLearning）
原始发布时间：2026-04-04 08:55

Reddit热议：[P] 面向 GPU 的无损 12 位 BF16 格式：0.03% 转义率，1 次整数加法解码，兼容 AMD 与 NVIDIA

更多文章

Anthropic企业支出增势明显，正逼近OpenAI

Sam Altman回应争议报道，并谈及住所遭袭事件

Reddit热议：什么样的“当语言模型 AI 能做到 X，我才会佩服”时刻能打动你？

Reddit热议：使用 AI 工作 6 个月：哪些真正惊艳，哪些被过度吹捧，哪些暗藏风险