021视频-视觉多模态理解模型 (VLM with video-input, Video-text-to-text)

视频-视觉多模态理解模型 (VLM with video-input, Video-text-to-text)¶

视频文本到文本模型，也称为视频语言模型或带视频输入的视觉语言模型，是一种接受视频输入的语言模型。这些模型可以处理各种任务，从视频问答到视频字幕生成。

这些模型的架构与图像文本到文本模型几乎相同，只是进行了一些修改以接受视频数据，因为视频数据本质上是带有时间依赖性的图像帧。一些图像文本到文本模型可以接受多张图像，但仅凭这一点还不足以让模型接受视频。此外，视频文本到文本模型通常使用所有视觉模态进行训练。每个示例可能包含视频、多个视频、图像和多个图像。有些模型还可以接受交错输入。

例如，你可以在文本中通过添加视频标记来引用特定视频，如：“这个视频里发生了什么？<video>”。

在本指南中，我们简要介绍了视频语言模型，并展示了如何使用 Transformers 进行推理。

首先，视频语言模型有多种类型：

用于微调的基模型
用于对话的微调模型
用于指令的微调模型

本指南重点介绍使用指令微调模型 llava-hf/llava-interleave-qwen-7b-hf 进行推理，该模型可以接受交错数据。如果你的硬件不支持运行 7B 模型，你也可以尝试 llava-interleave-qwen-0.5b-hf。

让我们开始安装依赖项。