据 Ars Technica 报道,Google 近日介绍了一种名为 TurboQuant 的 AI 压缩算法,目标是在不明显牺牲模型输出质量的前提下,让大型语言模型的运行更“省内存”。报道指出,TurboQuant 可将 LLM 的内存使用量降低到原来的六分之一,从而提升部署与推理效率。与一些常见压缩或量化手段相比,这类方法往往会带来精度下降、回答质量波动等副作用,而 TurboQuant 的卖点在于更好地平衡效率与效果。对企业与开发者而言,更低的内存占用意味着同等硬件条件下可承载更大的模型或更多并发请求,也可能降低运行成本并拓宽在边缘设备或资源受限环境中的应用空间。Google 此举也反映出业界在追求更强模型能力的同时,正把“算力与内存效率”作为同样关键的竞争方向。
来源:Ars Technica
原始发布时间:Wed, 25 Mar 2026 17:59:12 +0000