视频链接:https://www.bilibili.com/video/BV1fL411e7S4/?vd_source=ccd0a39aa266e9fa1d50708e47c72518
以下为可以用视频里的教程测试过可用的一些分析方法,大家红色部分替换模版就行啦!这里有最容易理解的介绍和可以调整的参数,希望这个专栏可以成为大家使用的一个手册,目前这个专栏讲的都是一些比较基础的方法,如果大家希望学习比较进阶一点的内容可以私信告诉我哦。
-
线性回归 Linear Regression:专门用来预测一个具体的数字,比如房价
-
最简单的线性回归,英文名:linear regression,用一条线(根据数据有多少列递增)去找适应整个数据集,可以看下面一个图来理解一下,可以调整的参数暂无,实际可以调整的参数一般都不建议调整。
-
线性回归加上L1正则化,英文名:lasso regression,和最简单的线性回归很像,唯一的不同是加上了L1正则化,这个看起来很复杂,实际上就是为了简化模型,让模型能够在测试中获得更高的正确率。L1的特点是,会剔除掉不相关的变量,比如说预测房价和你的身高没啥关系,如果你在数据里有身高这一项,L1大概率会让身高对于房价的影响降为0。可以调整的参数:
-
alpha:L1的强度,可以设定为从0到正无穷,数字越大,正则化力度越强,越无关的变量就会越变0
-
线性回归加上L2正则化,岭回归,英文名:ridge regression,和L1回归很像,唯一的不同是换成了L2正则化,实际上也是为了简化模型,让模型能够在测试中获得更高的正确率。L2的特点是,会降低不相关的变量的影响,但不会成为0,比如说预测房价和你的身高没啥关系,如果你在数据里有身高这一项,L2大概率会让身高对于房价的影响接近0,但不会成为0。可以调整的参数:
-
alpha:L2的强度,可以设定为从0到正无穷,数字越大,正则化力度越强,越无关的变量就会越变0
-
penalty:也就是正则化选择,可选择{'l1', 'l2', None, 'elasticnet' }。默认是l2。l1是L1正则化,l2是L2正则化(上面的线性回归部分都有详细的解释),None是没有正则化,elasticnet是L1和L2都有
-
C:这个是正则化的倒数,默认是1,注意这里和线性回归有区别,这个数字小,正则化越强,越大越弱
-
l1_ratio:这个不需要加,如果你上面的penality选择的不是elasticnet,如果你加的话,这个数字代表你l1和l2的比重
-
C:这个是正则化的倒数,默认是1,注意这里和线性回归有区别,这个数字小,正则化越强,越大越弱
-
kernel:默认是rbf,可选择的是{‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’}。这个比较进阶,可以理解为一种让模型能够适应更复杂的数据,如果只想线性的话可以考虑选择linear
2. 逻辑回归 Logistic Regression,类似线性回归,但是这个是用来专门做分类的,比如通过各种数据判断一个交易是不是虚假的(虚假或不虚假两类)。可以调整的参数:
3. 支持向量机 SVM:Support Vector Machine,可以理解为一个优化的线性回归,可以看一下下面的图来理解一下。可以调整的参数:
-
n_estimators:你想要多少棵树,默认100,一般而言越大越正则化
-
criterion:这个比较进阶,可以随便选一个,默认gini。可以选择{“gini”, “entropy”, “log_loss”}
-
min_samples_split: 这个比较进阶,默认2,最少有多少个数据点才能分出新的叶子,可以按照正确情况来调整
-
min_samples_leaf: 这个比较进阶,默认1,每一个末端叶子最少有多少个数据点,按照正确情况来调整
4. 随机森林 random forest,可以把这个理解为另一种分类的办法,下图可以看一下。随机树的优点就是快而且自带正则化效果。可以调整的参数:
原文链接:https://www.bilibili.com/read/cv23184936/