特征选择是一个重要的数据预处理过程，主要有两个原因，首先在现实任务中我们会遇到维数灾难的问题(样本密度非常稀疏)，若能从中选择一部分特征，那么这个问题能大大缓解，另外就是去除不相关特征会降低学习任务的难度，增加模型的泛化能力。冗余特征指该特征包含的信息可以从其他特征中推演出来，但是这并不代表该冗余特征一定没有作用，例如在欠拟合的情况下也可以用过加入冗余特征，增加简单模型的复杂度。

在理论上如果没有任何领域知识作为先验假设那么只能遍历所有可能的子集。但是这显然是不可能的，因为需要遍历的数量是组合爆炸的。一般我们分为子集搜索和子集评价两个过程，子集搜索一般采用贪心算法，每一轮从候选特征中添加或者删除，分别成为前向和后先搜索。或者两者结合的双向搜索。子集评价一般采用信息增益，对于连续数据往往排序之后选择中点作为分割点。

常见的特征选择方式有过滤式，包裹式和嵌入式，filter,wrapper 和 embedding。Filter 类型先对数据集进行特征选择，再训练学习器。Wrapper 直接把最终学习器的性能作为特征子集的评价准则，一般通过不断候选子集，然后利用 cross-validation 过程更新候选特征，通常计算量比较大。嵌入式特征选择将特征选择过程和训练过程融为了一体，在训练过程中自动进行了特征选择，例如 L1 正则化更易于获得稀疏解，而 L2 正则化更不容易过拟合。L1 正则化可以通过 PGD, 近端梯度

原文链接：https://blog.csdn.net/ccsss22/article/details/126313424?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851498716800186542559%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851498716800186542559&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-25-126313424-null-null.nonecase&utm_term=AI%E9%9D%A2%E8%AF%95

机器学习贝叶斯

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » 人工智能、深度学习、机器学习常见面试题21~40

人工智能、深度学习、机器学习常见面试题21~40

21.如何进行特征选择？

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签