其他分享
首页 > 其他分享> > 面试八股

面试八股

作者:互联网

1.防止过拟合的方法有哪些?

过拟合现象就是模型在train data上表现很好,但是在test data上表现不好。在神经网络的loss中表现为train loss一直在下降,但是dev set上的loss在某个节点开始上升。
过拟合 == 泛化能力差

过拟合出现的原因:

对应的解决方案:

只有在优化方法是SGD时,l2-norm == weight decay。

2. L1-norm(Lasso)和L2-norm(Ridge)的区别和联系?

相同的点:都可以用来解决过拟合问题的,提高模型的泛化能力

不同的点:

3.深度学习最优化的方法有哪些?有什么区别?

常用的最优化方法:SGD,Adagrad,Adadelta,Adam,Adamax,Nadam。
transformer和bert中用的最优化方法都是Adam,所以着重问一下Adam的原理。

Adam

核心思想:利用梯度的一阶矩和二阶矩动态的调整每个参数的learning rate(自适应learning rate),即当我们知道某些参数确实需要比其他参数变化更快时,此时继续像SGD那样用固定的lr是不合适的。
优点:动态调整learning rate,所以收敛速度很快。
缺点:Adam无法对权重过大的项做出惩罚,如果引入l1-norm,只会导致越大的权重惩罚越大。

4.归一化

作用:

归一化的类型:
a.线性归一化;b.标准差标准化;c.非线性归一化。

BN批量归一化(Batch Normalization)

作用:为解决内部协方差偏移问题

LN层归一化 (layer Normalization)

参考资料:
算法面试问题一

标签:八股,归一化,拟合,面试,Adam,l1,data,norm
来源: https://www.cnblogs.com/ttyangY77/p/16313554.html