097Transformers 库能做什么
🤗 Transformers 库能做什么¶
🤗 Transformers 是一个包含预训练最先进模型的库,可用于自然语言处理(NLP)、计算机视觉和音频及语音处理任务。该库不仅包含 Transformer 模型,还包括用于计算机视觉任务的现代卷积网络。如今,许多流行的产品,如智能手机、应用程序和电视,都依赖于某种深度学习技术。想从手机拍摄的照片中移除背景物体吗?这就是全景分割任务的一个例子(如果您还不了解这指的是什么,别担心,我们将在下面的章节中详细介绍)。
本页面概述了使用 🤗 Transformers 库,只需三行代码即可解决的音频和语音、计算机视觉以及 NLP 任务。
音频¶
音频和语音处理任务与其他模态任务有所不同,主要是因为音频作为输入是一个连续信号。与文本不同,原始音频波形无法像句子被分成词那样被整齐地分割成离散块。为了解决这个问题,通常会在固定的时间间隔内对原始音频信号进行采样。在相同时间间隔内采样次数越多,采样率越高,音频越接近原始音频源。
以前的方法会预先处理音频以提取有用特征。现在,更常见的是直接将原始音频波形输入特征编码器,以提取音频表示。这简化了预处理步骤,并使模型能够学习最重要的特征。
音频分类¶
音频分类任务是根据预定义的类别对音频数据进行标注。这是一个广泛的任务,具体应用包括:
- 声景分类:给音频标注场景标签(例如“办公室”、“海滩”、“体育场”)
- 声学事件检测:给音频标注声音事件标签(例如“汽车喇叭声”、“鲸鱼叫声”、“玻璃破碎声”)
- 标签:给包含多个声音的音频标注(例如鸟鸣声、会议中的发言人识别)
- 音乐分类:根据音乐类型给音乐分类(例如“金属”、“嘻哈”、“乡村”)