网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化资料的朋友,可以戳这里获取
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
各位老板动动小手给小弟点赞收藏一下,多多支持是我更新得动力!!!
文章目录
-
- 🐾前言
- 😆模型讲解
-
-
- 🌳AdaBoost模型介绍
- 🌳AdaBoost损失函数
- 🌳Adaboost算法的具体步骤
- 🌳Adaboost算法的函数介绍
-
- 🌻Adaboost分类算法
- 🌻Adaboost回归算法
- 🌻Adaboost分类算法
- 🌳AdaBoost模型介绍
-
- 🐾GBDT模型讲解
-
-
- 🌳GBDT模型介绍
- 🌳GBDT算法步骤
- 🌳GBDT算法的函数介绍
- 🌳GBDT模型介绍
-
- 🐾非平衡数据的特征
-
-
- 🌳SMOTE算法的思想
- 🌳SMOTE算法的步骤
- 🌳 SMOTE算法的手工案例
- 🌳SMOTE算法的函数介绍
- 🌳SMOTE算法的思想
-
- 🐾GBDT的改进之XGBoost算法介绍
-
-
- 🌳XGBoost算法的介绍
- 🌳XGBoost损失函数
- 🌳XGBoost目标函数
- 🌳XGBoost算法的介绍
-
- 🐾算法实战
-
-
- 🌳画饼状图
- 🌳训练拟合
- 🌳ROC曲线
- 🌳重要性排序
- 🌳网格搜索法确定参数
- 🌳使用参数拟合模型
- 🌳绘制ROC
- 🌳梯度提升树确定参数
- 🌳梯度提升树进行预测
- 🌳ROC曲线
- 🌳SMOTE算法训练
- 🌳XGBoost算法训练
- 🌳ROC曲线
- 🌳画饼状图
-
- 🐾前言
🐾前言
😆模型讲解
🌳AdaBoost模型介绍
🌳AdaBoost损失函数
🌳Adaboost算法的具体步骤
🌳Adaboost算法的函数介绍
🌻Adaboost分类算法
1.base_estimator:用于指定提升算法所应用的基础分类器,默认为分类决策树(CART),也可以是其他基础分类器,但是分类器必须支持带样本权重的学习,如神经网络。
2.n_estimators:用于指定基础分类器的数量,默认为50个,当模型在训练集中得到完美的拟合后,可以提前结束算法,不一定非得构建完指定个数的基础分类器。
3.learning_rate:这里指模型迭代的学习率也称为步长,即所对应的提升模型F(x)可以表示为F(x)=Fm-1(x)+vamfm(x),其中v就是该参数的指定值,默认值为1;对于较小的学习率v而言,则需要迭代更多次的基础分类器,通常情况下需要利用交叉验证法确定合理的基础分类器个数和学习率。
4.algorithm:用于指定AdaBoostClassifier分类器的算法,默认为’SAMME.R’,也可以使用 ‘SAMME’;使用’SAMME.R’时,基础模型必须能够计算类别的概率值;一般言,‘SAMME.R’算法 相比于’SAMME’算法,收敛更快、误差更小、迭代数量更少。
5.loss:用于指定AdaBoostRegressor回归提升树的损失函数,可以是’linear’,表示使用线性损失函 数;也可以是’square’,表示使用平方损失函数;还可以是’exponential’,表示使用指数损失函数; 该参数的默认值为’linear’。
6.random_state:用于指定随机数生成器的种子。
🌻Adaboost回归算法
🐾GBDT模型讲解
🌳GBDT模型介绍
🌳GBDT算法步骤
🌳GBDT算法的函数介绍
🐾非平衡数据的特征
在实际应用中,类别型的因变量可能存在严重的偏倚,即类别之间的比例严重失调。如欺诈问题中, 欺诈类观测在样本集中毕竟占少数;客户流失问题中,忠实的客户往往也是占很少一部分;在某营销活动 的响应问题中,真正参与活动的客户也同样只是少部分。
如果数据存在严重的不平衡,预测得出的结论往往也是有偏的,即分类结果会偏向于较多观测的类。 为了解决数据的非平衡问题,2002年Chawla提出了SMOTE算法,即合成少数过采样技术,它是基于随机 过采样算法的一种改进方案。
🌳SMOTE算法的思想
🌳SMOTE算法的步骤
1.采样最邻近算法,计算出每个少数类样本的K个近邻。
2. 从K个近邻中随机挑选N个样本进行随机线性插值。
3. 构造新的少数类样本。
4.将新样本与原数据合成,产生新的训练集。
🌳 SMOTE算法的手工案例
🌳SMOTE算法的函数介绍
ratio:用于指定重抽样的比例,如果指定字符型的值,可以是’minority’(表示对少数类别的样本进 行样)、‘majority’(表示对多数类别的样本进行抽样)、‘not minority’(表示采用欠采样方 法)、‘all’(表示采用过采样方法),默认为’auto’,等同于’all’和’not minority’。如果指定字典型的 值,其中键为各个类别标签,值为类别下的样本量。
random_state:用于指定随机数生成器的种子,默认为None,表示使用默认的随机数生成器。
k_neighbors:指定近邻个数,默认为5个。
m_neighbors:指定从近邻样本中随机挑选的样本个数,默认为10个。
🐾GBDT的改进之XGBoost算法介绍
🌳XGBoost算法的介绍
XGBoost是由传统的GBDT模型发展而来的,GBDT模型在求解最优化问题时应用了一阶导技 术,而XGBoost则使用损失函数的一阶和二阶导,而且可以自定义损失函数,只要损失函数可一阶 和二阶求导。
XGBoost算法相比于GBDT算法还有其他优点,例如支持并行计算,大大提高算法的运行效 率;XGBoost在损失函数中加入了正则项,用来控制模型的复杂度,进而可以防止模型的过拟合; XGBoost除了支持CART基础模型,还支持线性基础模型;XGBoost采用了随机森林的思想,对字段 进行抽样,既可以防止过拟合,也可以降低模型的计算量。
🌳XGBoost损失函数
🌳XGBoost目标函数
🐾算法实战
🌳画饼状图
🌳训练拟合
🌳ROC曲线
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
需要这份系统化资料的朋友,可以戳这里获取
mg.cn/8a9907006ac44a15acef17f6d9b6ea28.png)
[外链图片转存中…(img-W8ZgPfGc-1715807261912)]
[外链图片转存中…(img-nQePveEG-1715807261912)]
[外链图片转存中…(img-Fj2r7QqU-1715807261912)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新