074压缩张量

压缩张量¶

compressed-tensors 库提供了一种灵活且高效的方法来存储和管理压缩的模型检查点。该库支持多种量化和稀疏性方案，使其成为处理不同模型优化（如 GPTQ、AWQ、SmoothQuant、INT8、FP8、SparseGPT 等）的统一格式。

支持的一些格式包括：

dense
int-quantized (示例)：INT8 量化模型
float-quantized (示例)：FP8 量化模型；目前支持 E4M3
pack-quantized (示例)：INT4 或 INT8 权重量化模型，打包成 INT32。对于 INT4，权重有 INT4 的范围，但以 INT8 存储并打包成 INT32。

压缩模型可以使用 llm-compressor 轻松创建。或者，也可以独立创建模型，并使用压缩张量配置进行序列化。

要在 Hugging Face Model Hub 上查找现有模型，请搜索带有 compressed-tensors 标签的模型。

建议从 PyPI 安装 compressed-tensors 的稳定版本：