021视频-视觉多模态理解模型 (VLM with video-input, Video-text-to-text)
视频-视觉多模态理解模型 (VLM with video-input, Video-text-to-text)¶
视频文本到文本模型,也称为视频语言模型或带视频输入的视觉语言模型,是一种接受视频输入的语言模型。这些模型可以处理各种任务,从视频问答到视频字幕生成。
这些模型的架构与图像文本到文本模型几乎相同,只是进行了一些修改以接受视频数据,因为视频数据本质上是带有时间依赖性的图像帧。一些图像文本到文本模型可以接受多张图像,但仅凭这一点还不足以让模型接受视频。此外,视频文本到文本模型通常使用所有视觉模态进行训练。每个示例可能包含视频、多个视频、图像和多个图像。有些模型还可以接受交错输入。
例如,你可以在文本中通过添加视频标记来引用特定视频,如:“这个视频里发生了什么?<video>”。
在本指南中,我们简要介绍了视频语言模型,并展示了如何使用 Transformers 进行推理。
首先,视频语言模型有多种类型:
- 用于微调的基模型
- 用于对话的微调模型
- 用于指令的微调模型
本指南重点介绍使用指令微调模型 llava-hf/llava-interleave-qwen-7b-hf 进行推理,该模型可以接受交错数据。如果你的硬件不支持运行 7B 模型,你也可以尝试 llava-interleave-qwen-0.5b-hf。
让我们开始安装依赖项。