③ 现在,让我们在这些音频剪辑上运行模型,看看在"activate"之后它是否添加了提示音!
① 恭喜,你已结束本作业!
② 这是你应该记住的:
- 数据合成是创建针对语音问题(尤其是触发词检测)大型训练集的有效方法。
- 在将音频数据传递到RNN,GRU或LSTM之前,使用频谱图和可选的1D转换层是常见的预处理步骤。
- 可以使用端到端的深度学习方法来构建非常有效的触发词检测系统。
③ 恭喜完成最后的作业!
④ 感谢你一直坚持到底,并感谢你为学习深度学习付出的辛勤工作。希望你喜欢这个课程!
4.2 测试自己例子¶
① 在此笔记本的此可选练习中,你可以在自己的音频剪辑上尝试使用你的模型!
② 录制一个10秒钟的音频片段,说"activate"和其他随机单词,然后将其作为myaudio.wav上传到Coursera hub。确保将音频作为WAV文件上传。
③ 如果你的音频以其他格式(例如mp3)录制,则可以在线找到免费软件以将其转换为wav。
④ 如果你的录音时间不是10秒,则下面的代码将根据需要修剪或填充该声音,以使其达到10秒。
⑤ 将音频文件上传到Coursera后,请在下面的变量中输入文件的路径。
⑥ 最后,使用该模型预测在10秒的音频剪辑中何时说了"activate"并触发提示音。
⑦ 如果没有适当添加哔声,请尝试调整chime_threshold。