074压缩张量
压缩张量¶
compressed-tensors 库提供了一种灵活且高效的方法来存储和管理压缩的模型检查点。该库支持多种量化和稀疏性方案,使其成为处理不同模型优化(如 GPTQ、AWQ、SmoothQuant、INT8、FP8、SparseGPT 等)的统一格式。
支持的一些格式包括:
denseint-quantized(示例):INT8 量化模型float-quantized(示例):FP8 量化模型;目前支持 E4M3pack-quantized(示例):INT4 或 INT8 权重量化模型,打包成 INT32。对于 INT4,权重有 INT4 的范围,但以 INT8 存储并打包成 INT32。
压缩模型可以使用 llm-compressor 轻松创建。或者,也可以独立创建模型,并使用压缩张量配置进行序列化。
要在 Hugging Face Model Hub 上查找现有模型,请搜索带有 compressed-tensors 标签的模型。
特性:¶
- 权重和激活精度:FP8、INT4、INT8(对于 Q/DQ,INT 允许任意精度)
- 量化尺度和零点策略:张量、通道、组、块、令牌
- 动态按令牌激活量化(或任何静态策略)
- 权重中的稀疏性(无结构或半结构化如 2:4)可以与量化组合以实现极端压缩
- 支持任意模块的量化,而不仅仅是线性模块
- 按名称或类目标定位或忽略模块
安装¶
建议从 PyPI 安装 compressed-tensors 的稳定版本: