训练一个RNN网络,如果权重与激活值都是NaN,下列选项中,哪一个是导致这个问题的最有可能的原因()。
A.梯度消失
B.梯度爆炸
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
A.梯度消失
B.梯度爆炸
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
A.1
B.100
C.300
D.10000
A.ReLU的单侧抑制提供了网络的稀疏表达能力。
B.ReLU在其训练过程中会导致神经元死亡的问题。
C.从计算的角度上,Sigmoid和Tanh激活函数均需要计算指数,复杂度高,而ReLU只需要一个阈值即可得到激活值。
A.使用sigmod函数容易出现梯度消失
B.sigmod的导数形式较为复杂
C.双曲正切更简单
D.sigmoid函数实现较为复杂
A.根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0
B.可以采用ReLU激活函数有效的解决梯度消失的情况
C.根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大
D.可以通过减小初始权重矩阵的值来缓解梯度爆炸
A.Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNN
B.DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0
C.丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这个原因,所以每一次训练,它都像是在训练一个新的网络
D.Dropout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使用,来防止神经网络的过拟合
A.用改良的网络结构比如LSTM和GRUs
B.梯度裁剪
C.Dropout
D.所有方法都不行
A.搜索每个可能的权重和偏差组合,直到得到最佳值
B.赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重
C.随机赋值
D.以上都不正确的