061如何修改 Transformer 模型

如何修改 Transformer 模型¶

🤗 Transformers 库提供了一系列预训练模型和工具，用于自然语言处理、计算机视觉等多领域的应用。虽然这些模型覆盖了广泛的应用场景，但你可能会遇到一些不支持的用例。自定义模型可以解锁新的可能性，例如添加新层、修改架构或优化注意力机制。本指南将向你展示如何修改现有的Transformer模型以满足特定需求。好消息是，你不必离开Transformers框架就能进行这些修改。你可以直接在Transformers中修改模型，并仍然利用Trainer API、PreTrainedModel和高效的微调工具如PEFT等功能。

在本指南中，我们将逐步介绍如何自定义现有的Transformer模型，以满足你的需求，同时不失去生态系统的优势。

你将学习如何：

通过修改注意力机制来调整模型架构。
将低秩适应（LoRA）等技术应用于特定模型组件。

我们鼓励你贡献自己的“修改”方法，并与社区分享。

示例：修改Segment Anything Model (SAM)的注意力机制¶

Segment Anything Model (SAM) 是一个最先进的图像分割模型。在默认实现中，SAM在注意力机制中使用了一个组合的查询-键-值（qkv）投影。然而，你可能希望仅对注意力机制的特定组件进行微调，例如查询（q）和值（v）投影，以减少可训练参数的数量和计算资源的需求。

动机¶

通过将组合的qkv投影拆分为单独的q、k和v投影，你可以将LoRA（低秩适应）等技术应用于q和v投影。这种方法可以让你：

减少可训练参数的数量，降低计算开销。
通过专注于特定组件，潜在地提高性能。
在注意力机制中实验不同的适应策略。

实现¶

第一步：创建自定义注意力类¶

接下来，派生原始的SamVisionAttention类并修改它，使其具有单独的q、k和v投影。