课程5_第1周_测验题¶
第一题¶
1.假设你的训练样本是句子(单词序列),下面哪个选项指的是第 $i$ 个训练样本中的第 $j$ 个词?
A. 【 】$x^{(i)<j>}$
B. 【 】$x^{<i>(j)}$
C. 【 】$x^{(j)<i>}$
D. 【 】$x^{<j>(i)}$
答案:
A.【 √ 】$x^{(i)<j>}$
第二题¶
2.看一下这个循环神经网络,在下面的条件中,满足下图中的网络结构的参数是?

A. 【 】$T_x=T_y$
B. 【 】$T_x<T_y$
C. 【 】$T_x>T_y$
D. 【 】$T_x=1$
答案:
A.【 √ 】$T_x=T_y$
第三题¶
3.这些任务中的哪一个会使用多对一的RNN体系结构?

A. 【 】语音识别(输入语音,输出文本)
B. 【 】情感分类(输入一段文字,输出0或1表示正面或者负面的情绪)
C. 【 】图像分类(输入一张图片,输出对应的标签)
D. 【 】人声性别识别(输入语音,输出说话人的性别)
答案:
B.【 √ 】情感分类(输入一段文字,输出0或1表示正面或者负面的情绪)
D.【 √ 】人声性别识别(输入语音,输出说话人的性别)
第四题¶
4.假设你现在正在训练下面这个RNN的语言模型,在 $t$ 时,这个RNN在做什么?

A. 【 】计算$P(y^{<1>},y^{<2>},…,y^{<t-1>})$
B. 【 】计算$P(y^{<t>})$
C. 【 】计算$P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>})$
D. 【 】计算$P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>})$
答案:
C.【 √ 】计算$P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>})$
第五题¶
5.你已经完成了一个语言模型RNN的训练,并用它来对句子进行随机取样,如下图:

A. 【 】(1)使用RNN输出的概率,选择该时间步的最高概率单词作为$\hat{y}^{<t>}$,(2)然后将训练集中的正确的单词传递到下一个时间步
B. 【 】(1)使用由RNN输出的概率将该时间步的所选单词进行随机采样作为$\hat{y}^{<t>}$,(2)然后将训练集中的实际单词传递到下一个时间步
C. 【 】(1)使用由RNN输出的概率来选择该时间步的最高概率词作为$\hat{y}^{<t>}$,(2)然后将该选择的词传递给下一个时间步
D. 【 】(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为$\hat{y}^{<t>}$,(2)然后将此选定单词传递给下一个时间步
答案:
D.【 √ 】(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为$\hat{y}^{<t>}$,(2)然后将此选定单词传递给下一个时间步
第六题¶
6.你正在训练一个RNN网络,你发现你的权重与激活值都是“NaN”,下列选项中,哪一个是导致这个问题的最有可能的原因?
A. 【 】梯度消失
B. 【 】梯度爆炸
C. 【 】ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D. 【 】Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
答案:
B.【 √ 】梯度爆炸
第七题¶
7.假设你正在训练一个LSTM网络,你有一个10,000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中,$\Gamma _u$的维度是多少?
A. 【 】1
B. 【 】100
C. 【 】300
D. 【 】10000
答案:
B.【 √ 】100
第八题¶
8.下面有一些GRU的更新方程。爱丽丝建议通过移除$\Gamma _u$来简化GRU,即设置$\Gamma _u=1$。贝蒂提出通过移除$\Gamma _R$来简化GRU,即设置$\Gamma _R=1$。哪种模型更容易在梯度不消失问题的情况下训练,即使在很长的输入序列上也可以进行训练?

A. 【 】爱丽丝的模型(即移除$\Gamma _u$),因为对于一个时间步而言,如果$\Gamma _r \approx 0$,梯度可以通过时间步反向传播而不会衰减。
B. 【 】爱丽丝的模型(即移除$\Gamma _u$),因为对于一个时间步而言,如果$\Gamma _r \approx 1$,梯度可以通过时间步反向传播而不会衰减。
C. 【 】贝蒂的模型(即移除$\Gamma _r$),因为对于一个时间步而言,如果$\Gamma _u \approx 0$,梯度可以通过时间步反向传播而不会衰减。
D. 【 】贝蒂的模型(即移除$\Gamma _r$),因为对于一个时间步而言,如果$\Gamma _u \approx 1$,梯度可以通过时间步反向传播而不会衰减。
答案:
C.【 √ 】贝蒂的模型(即移除$\Gamma _r$),因为对于一个时间步而言,如果$\Gamma _u \approx 0$,梯度可以通过时间步反向传播而不会衰减。
第九题¶
9.下面有一些GRU和LSTM的方程,从这些我们可以看到,在LSTM中的更新门和遗忘门在GRU中扮演类似 ___ 与 ___ 的角色,空白处应该填什么?

A. 【 】$\Gamma _u$与$1-\Gamma _u$
B. 【 】$\Gamma _u$与$\Gamma _r$
C. 【 】$1-\Gamma _u$与$\Gamma _u$
D. 【 】$\Gamma _r$与$\Gamma _u$
答案:
A.【 √ 】$\Gamma _u$与$1-\Gamma _u$
第十题¶
10.你有一只宠物狗,它的心情很大程度上取决于当前和过去几天的天气。你已经收集了过去365天的天气数据$x^{<1>},…,x^{<365>}$,这些数据是一个序列,你还收集了你的狗心情的数据$y^{<1>},…,y^{<365>}$,你想建立一个模型来从x到y进行映射,你应该使用单向RNN还是双向RNN来解决这个问题?
A. 【 】双向RNN,因为在$t$日的情绪预测中可以考虑到更多的信息。
B. 【 】双向RNN,因为这允许反向传播计算中有更精确的梯度。
C. 【 】单向RNN,因为$y^{<t>}$的值仅依赖于$x^{<1>},…,x^{<t>}$,而不依赖于$ x^{<t+1>},…,x^{<365>}$
D. 【 】单向RNN,因为$y^{<t>}$的值只取决于$x^{<t>}$,而不是其他天的天气。
答案:
C.【 √ 】单向RNN,因为$y^{<t>}$的值仅依赖于$x^{<1>},…,x^{<t>}$,而不依赖于$ x^{<t+1>},…,x^{<365>}$