完全总结!十大回归算法模型!!


哈喽,我是kk~
很久没有给大家分享一些关于基础算法类内容了。
这不不少同学私下聊天,关于一些基础内容,自己总是总结不到位。
从今天起,我们会把基础算法类以及论文方面轮询着给大家分享,有需要的同学,可以关注起来。
最近,邻近毕业季,不少同学刚刚接触机器学习,那咱们今天也以回归开始和大家分享。
经过了两天的整理,总结了十大回归算法模型的核心公式。
无论是作为机器学习刚入门的同学,还是有一定基础的,都可以作为自己阶段性总结的内容。
内容很多很有价值,记得收藏,慢慢学习~
今天分享的是是个机器学习中回归类算法,涉及到:
线性回归
岭回归
套索回归
弹性网回归
多项式回归
贝叶斯回归
决策树回归
随机森林回归
梯度提升回归
支持向量回归
大家一定要慢慢去理解,这样对于整个的回归类算法,心中做到游刃有余。

1. 线性回归(Linear Regression)
介绍
线性回归是一种基本的回归算法,假设因变量 
 和自变量 
 之间存在线性关系。
优缺点
优点:简单易懂、计算效率高。
缺点:无法处理复杂的非线性关系,对异常值敏感。
核心公式
公式推导
假设我们有 
 个观测数据点 
,线性回归模型可以表示为:
其中 
 是误差项,假设其均值为0且方差为 

为了估计模型参数 
 和 
,我们使用最小二乘法(Least Squares Method),即最小化误差的平方和:
通过对 
 和 
 求导并设置导数为0,可以得到以下方程:
解这两个方程,可以得到参数估计:
其中 
 和 
 分别是 
 和 
 的均值。
2. 岭回归(Ridge Regression)
介绍
岭回归通过在最小二乘法中加入L2正则化项,来防止过拟合。
优缺点
优点:防止过拟合,适用于高维数据。
缺点:需要选择正则化参数,计算复杂度增加。
核心公式
公式推导
岭回归的目标函数是在线性回归的目标函数中加入一个L2正则化项:
其中 
 是正则化参数,控制正则化项的权重。
为了得到参数估计,我们对目标函数求导并设置导数为0:
解这两个方程,可以得到参数估计:
3. 套索回归(Lasso Regression)
介绍
套索回归通过在最小二乘法中加入L1正则化项,能够进行特征选择。
优缺点
优点:能够进行特征选择,适用于高维数据。
缺点:需要选择正则化参数,计算复杂度增加。
核心公式
公式推导
套索回归的目标函数是在线性回归的目标函数中加入一个L1正则化项:
其中 
 是正则化参数,控制正则化项的权重。
由于L1正则化项不可导,我们通常使用优化算法(如坐标轴下降法)来解这个问题。
4. 弹性网回归(Elastic Net Regression)
介绍
弹性网回归结合了岭回归和套索回归的优点,包含L1和L2正则化项。
优缺点
优点:结合了L1和L2正则化的优点,适用于高维数据。
缺点:需要选择两个正则化参数,计算复杂度增加。
核心公式
公式推导
弹性网回归的目标函数是在线性回归的目标函数中加入L1和L2正则化项:
其中 
 和 
 是正则化参数,控制正则化项的权重。
由于L1正则化项不可导,我们通常使用优化算法(如坐标轴下降法)来解这个问题。
5. 多项式回归(Polynomial Regression)
介绍
多项式回归是对线性回归的一种扩展,可以拟合非线性关系。
优缺点
优点:能够拟合非线性关系。
缺点:容易过拟合,特征数增加时计算复杂度高。
核心公式
公式推导
假设我们有 
 个观测数据点 
,多项式回归模型可以表示为:
其中 
 是误差项,假设其均值为0且方差为 

为了估计模型参数 
,我们使用最小二乘法(Least Squares Method),即最小化误差的平方和:
通过对 
 求导并设置导数为0,可以得到一个线性方程组,解这个方程组即可得到参数估计。
6. 贝叶斯回归(Bayesian Regression)
介绍
贝叶斯回归基于贝叶斯统计的方法,考虑参数的不确定性,给出预测分布。
优缺点
优点:能够量化不确定性,适用于小样本数据。
缺点:计算复杂度高,需要先验分布。
核心公式
公式推导
贝叶斯回归的核心思想是通过贝叶斯定理来更新参数的分布。假设我们有先验分布 
 和似然函数 
,根据贝叶斯定理,可以得到后验分布:
其中 
 是边缘似然函数,可以通过积分计算:
通过选择合适的先验分布和似然函数,可以得到后验分布的解析解或使用数值方法进行近似。
7. 决策树回归(Decision Tree Regression)
介绍
决策树回归基于决策树的方法,对数据进行分割,适用于处理非线性关系。
优缺点
优点:能够处理非线性关系,不需要特征工程。
缺点:容易过拟合,树深度过大时计算复杂度高。
核心公式
决策树通过递归分割数据,每次选择一个特征和分割点,使得分割后的数据集误差最小。常用的误差度量包括均方误差(MSE)和均绝对误差(MAE)。
公式推导
假设我们有一个数据集 
,决策树回归的目标是找到最优的特征 
 和分割点 
,使得分割后的数据集误差最小。对于每个节点,计算以下误差:
其中 
 是节点中的均值预测。
通过递归地分割数据,构建决策树,直到满足停止条件(如最大深度、最小样本数等)。
8. 随机森林回归(Random Forest Regression)
介绍
随机森林回归集成多棵决策树,通过集成学习的方法提高预测性能和鲁棒性。
优缺点
优点:能够处理高维和非线性数据,鲁棒性高。
缺点:训练时间较长,模型解释性差。
核心公式
随机森林通过对数据集进行有放回的抽样(Bootstrap Sampling),生成多个子数据集,每个子数据集训练一棵决策树,最终的预测结果通过对所有决策树的预测结果进行平均得到。
公式推导
假设我们有一个数据集 
,随机森林回归的训练过程如下:
从原始数据集中有放回地抽取 
 个子数据集,每个子数据集包含 
 个样本。
对每个子数据集训练一棵决策树 
,其中 

对新的输入数据 
,随机森林的预测结果为所有决策树预测结果的平均值:
9. 梯度提升回归(Gradient Boosting Regression)
介绍
梯度提升回归通过逐步加法模型提高预测性能,逐步减小预测误差。
优缺点
优点:预测性能高,能够处理复杂的非线性关系。
缺点:训练时间较长,对参数敏感。
核心公式
梯度提升通过逐步加法模型,逐步减小预测误差。假设当前模型为 
,下一步通过学习误差的梯度来更新模型:
其中 
 是学习率, 
 是新加入的基学习器。
公式推导
假设我们有一个数据集 
,梯度提升回归的训练过程如下:
初始化模型为常数值 ,其中 
 是损失函数。
对于每一步 

计算当前模型的残差: 
拟合一个基学习器 
 来预测残差: 
更新模型: 
10. 支持向量回归(Support Vector Regression, SVR)
介绍
支持向量回归基于支持向量机的回归算法,能够处理高维和非线性数据。
优缺点
优点:能够处理高维和非线性数据,鲁棒性高。
缺点:对参数敏感,计算复杂度高。
核心公式
支持向量回归的目标是找到一个函数 
,使得所有数据点离这个函数的距离在 
 内,并且函数的复杂度最小:
公式推导
假设我们有一个数据集 
,支持向量回归的优化问题可以表示为:
其中 
 和 
 是松弛变量,允许一定的误差,
 是正则化参数,控制模型的复杂度和误差的权衡。
通过拉格朗日乘子法和对偶问题,可以将问题转化为求解一个二次规划问题。使用核函数 
 可以扩展到非线性回归。
这些算法模型各有特点,适用于不同的应用场景。在实际应用中,大家需要根据数据的特性和具体需求选择合适的算法模型,并通过交叉验证等方法优化参数。
最后
回归类算法在学术论文中非常常见,尤其在预测、数据分析和统计建模等领域。对于大多数初学者来说,写作论文时应选择一个明确且具体的研究问题,确保数据的真实性和可靠性,并进行数据清理。
根据研究问题和数据特性选择合适的回归模型,如线性回归、岭回归、套索回归、多项式回归等。进行模型训练和验证时,应将数据分为训练集和测试集,并使用交叉验证来评估模型性能,调整模型参数以优化结果。解释模型结果时,需分析模型的系数及其统计显著性,解释模型的拟合优度,并检查残差。
今天给大家准备了关于「机器学习」的论文合集,往期核心论文汇总,分享给大家。

点击名片,回复「机器学习」即可~
 
到顶部