090GPU 推理优化
GPU 推理优化¶
GPU 是机器学习硬件的标准选择,与 CPU 相比,它们在内存带宽和并行性方面进行了优化。为了在现有或较旧的硬件上处理现代模型的更大规模,或加速大型模型的推理,可以使用多种优化方法。在本指南中,您将学习如何使用 FlashAttention-2(更高效的注意力机制)、BetterTransformer(PyTorch 本地快速执行路径)和 bitsandbytes 来量化模型以降低精度。最后,您将学习如何使用 🤗 Optimum 在 Nvidia 和 AMD GPU 上通过 ONNX Runtime 加速推理。
大多数优化方法也适用于多 GPU 配置!
FlashAttention-2¶
FlashAttention-2 是一种实验性的、更快、更高效的注意力机制实现,它可以通过以下方式显著加速推理:
- 在序列长度上并行计算注意力。
- 在 GPU 线程之间分配工作,减少线程之间的通信和共享内存的读写。
FlashAttention-2 当前支持以下架构:
- Bark
- Bart
- Chameleon
- CLIP
- Cohere
- GLM
- Dbrx
- DistilBert
- Gemma
- Gemma2
- GPT2
- GPTBigCode
- GPTNeo
- GPTNeoX
- GPT-J
- Falcon
- Llama
- Llava
- 和更多...
您可以在 GitHub 上请求支持其他模型。
在开始之前,请确保已安装 FlashAttention-2: