5.卷积操作的本质特性包括稀疏交互和参数共享,具体解释这两种特性以其作用?
10.长短期记忆网络LSTM各模块都使用什么激活函数,可以使用其他激活函数么?
13.注意力机制是什么?Seq2Seq模型引入注意力机制主要解决什么问题?
14.RNN的长期依赖(Long-Term Dependencies)问题是什么?怎么解决
18.Kmeans有哪些优缺点?是否有了解过改进的模型,举例说明?
19.**兰德指数**(RI, *Rand Index*)能度量聚类过程中的假阳性和假阴性结果的惩罚
22.在训练过程中哪些参数对模型效果影响比较大?这些参数造成影响是什么?
1.梯度消失和梯度膨胀的原因是什么?
(1)深度学习的网络层数太多,在进行反向传播时根据链式法则,要连乘每一层梯度值
注:任何网络都有可能发生梯度弥散或者梯度爆炸,这是深度学习的基本性质决定的,无法避免。
2.简述CNN的工作原理?
CNN利用了图像的三个性质:
(1)图像的pattern通常比整张图像小
(2)通用的patterns会出现在图像的不同区域
(3)对图像进行子采样并不影响图像的识别
CNN通过卷积层+pooling层不断堆积,从小的pattern开始不断识别到大的pattern,从而识别整张图像。
> CNN适合处理什
原文链接:https://blog.csdn.net/ccsss22/article/details/126495912?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851498816800227478200%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851498816800227478200&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-10-126495912-null-null.nonecase&utm_term=AI%E9%9D%A2%E8%AF%95