梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题?()
A.用改良的网络结构比如LSTM和GRUs
B.梯度裁剪
C.Dropout
D.所有方法都不行
A.用改良的网络结构比如LSTM和GRUs
B.梯度裁剪
C.Dropout
D.所有方法都不行
下列关于RNN、LSTM、GRU说法正确的是()。
A.RNN引入了循环的概念
B.LSTM可以防止梯度消失或者爆炸
C.GRU是LSTM的变体
D.RNN、LSTM、GRU是同一神经网络的不同说法,没有区别
A.将数据分组部署在不同GPU上进行训练能提高深度神经网络的训练速度。
B.TensorFlow使用GPU训练好的模型,在执行推断任务时,也必须在GPU上运行。
C.将模型中的浮点数精度降低,例如使用float16代替float32,可以压缩训练好的模型的大小。
D.GPU所配置的显存的大小,对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素
A.除去神经网络中的最后一层,冻结所有层然后重新训练
B.对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C.使用新的数据集重新训练模型
D.所有答案均不对
A.除去神经网络中的最后一层,冻结所有层然后重新训练
B.对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C.使用新的数据集重新训练模型
D.所有答案均不对
在构建一个神经网络时,batchsize通常会选择2的次方,比如256和512,这是为什么呢?()
A.当内存使用最优时这可以方便神经网络并行化
B.当用偶数是梯度下降优化效果最好
C.这些原因都不对
D.当不用偶数时,损失值会很奇怪
A.取值范围是(0,1]
B.不可以用来做二分类
C.sigmoid函数为饱和型函数。当sigmoid函数输入的值趋于正无穷或负无穷时,梯度会趋近零,从而发生梯度弥散现象
D.Sigmoid函数不适用于自变量和Logistic概率是线性关系的情况