人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

人工智能、深度学习、机器学习常见面试题21~40

2024-06-23 44

21.如何进行特征选择?

22.为什么会产生过拟合,有哪些方法可以预防或克服过拟合?

23.用 EM 算法推导解释 Kmeans

24.常见聚类算法比较

25.聚类算法中的距离度量有哪些

26.频率学派和贝叶斯派的本质区别

27.优化方法(随机梯度下降、拟牛顿法等优化算法)

28.特征比数据量还大时,选择什么样的分类器

29.L1 和 L2 正则的区别,如何选择 L1 和 L2 正则?L1 在 0 处不 可导,怎么处理

30.特征向量的缺失值处理

31.决策树的停止条件

32.SVM、LR、决策树的对比?

33.GBDT 和随机森林的区别?

34.监督学习一般使用两种类型的目标变量

35.为什么说朴素贝叶斯是高偏差低方差?

36.校正 R2 或者 F 值是用来评估线性回归模型的。那用什么来 评估逻辑回归模型?

37.TF-IDF 是什么?

38.文本中的余弦距离是什么,有哪些作用?

39.解释朴素贝叶斯算法里面的先验概率、似然估计和边际似然 估计?

40.我知道校正 R?或者 F 值来是用来评估线性回归模型的。那 用什么来评估逻辑回归模型?

21.如何进行特征选择?

特征选择是一个重要的数据预处理过程,主要有两个原因,首先在现实任务中我们会遇到维 数灾难的问题(样本密度非常稀疏),若能从中选择一部分特征,那么这个问题能大大缓解, 另外就是去除不相关特征会降低学习任务的难度,增加模型的泛化能力。冗余特征指该特征 包含的信息可以从其他特征中推演出来,但是这并不代表该冗余特征一定没有作用,例如在 欠拟合的情况下也可以用过加入冗余特征,增加简单模型的复杂度。

在理论上如果没有任何领域知识作为先验假设那么只能遍历所有可能的子集。但是这显然是 不可能的,因为需要遍历的数量是组合爆炸的。一般我们分为子集搜索和子集评价两个过程, 子集搜索一般采用贪心算法,每一轮从候选特征中添加或者删除,分别成为前向和后先搜索。 或者两者结合的双向搜索。子集评价一般采用信息增益,对于连续数据往往排序之后选择中 点作为分割点。

常见的特征选择方式有过滤式,包裹式和嵌入式,filter,wrapper 和 embedding。Filter 类型 先对数据集进行特征选择,再训练学习器。Wrapper 直接把最终学习器的性能作为特征子集 的评价准则,一般通过不断候选子集,然后利用 cross-validation 过程更新候选特征,通常 计算量比较大。嵌入式特征选择将特征选择过程和训练过程融为了一体,在训练过程中自动 进行了特征选择,例如 L1 正则化更易于获得稀疏解,而 L2 正则化更不容易过拟合。L1 正 则化可以通过 PGD, 近端梯度

原文链接:https://blog.csdn.net/ccsss22/article/details/126313424?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851498716800186542559%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851498716800186542559&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-25-126313424-null-null.nonecase&utm_term=AI%E9%9D%A2%E8%AF%95

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部