090GPU 推理优化

GPU 推理优化¶

GPU 是机器学习硬件的标准选择，与 CPU 相比，它们在内存带宽和并行性方面进行了优化。为了在现有或较旧的硬件上处理现代模型的更大规模，或加速大型模型的推理，可以使用多种优化方法。在本指南中，您将学习如何使用 FlashAttention-2（更高效的注意力机制）、BetterTransformer（PyTorch 本地快速执行路径）和 bitsandbytes 来量化模型以降低精度。最后，您将学习如何使用 🤗 Optimum 在 Nvidia 和 AMD GPU 上通过 ONNX Runtime 加速推理。

大多数优化方法也适用于多 GPU 配置！

FlashAttention-2¶

FlashAttention-2 是一种实验性的、更快、更高效的注意力机制实现，它可以通过以下方式显著加速推理：

在序列长度上并行计算注意力。
在 GPU 线程之间分配工作，减少线程之间的通信和共享内存的读写。

FlashAttention-2 当前支持以下架构：

Bark
Bart
Chameleon
CLIP
Cohere
GLM
Dbrx
DistilBert
Gemma
Gemma2
GPT2
GPTBigCode
GPTNeo
GPTNeoX
GPT-J
Falcon
Llama
Llava
和更多...

您可以在 GitHub 上请求支持其他模型。

在开始之前，请确保已安装 FlashAttention-2：