服务器 频道

敲黑板:你应知道的5种回归类型及属性!

  【IT168 资讯】线性和逻辑回归通常是人们首先学习机器学习和数据科学学习的建模算法。两者都很好,因为它们易于使用和解释。然而,它们固有的简单性也带有一些缺点,在很多情况下它们并不是真正的回归模型的非常好的选择。本文将会介绍几种不同类型的回归,每种都有自己的优点和缺点。

  在这篇文章中,我们将讨论7种最常见的回归算法及其属性。我们很快就会发现,他们中的很多人都偏向于在某些类型的情况下以及某些类型的数据中运行良好。最后,他的文章会在你的回归工具箱中为你提供更多的工具,并为整个回归模型提供更多的洞察力!

  线性回归

  回归是一种技术,用于建模和分析变量之间的关系,并且经常是它们如何贡献的方式,并与一起产生的特定结果相关。线性回归是指完全由线性变量组成的回归模型。从简单情况开始,单变量线性回归是一种用于使用线性模型(即线)来模拟单个输入自变量(特征变量)和输出因变量之间的关系的技术。

  更一般的情况是多变量线性回归,其中为多个独立输入变量(特征变量)与输出因变量之间的关系创建模型。该模型保持线性,因为输出是输入变量的线性组合。我们可以对多变量线性回归建模如下:

  Y = a_1 * X_1 + a_2 * X_2 + a_3 * X_3 ......。 a_n * X_n + b

  其中a_n是系数,X_n是变量,b是偏差。正如我们所看到的,这个函数不包含任何非线性,所以它只适用于建模线性可分数据。这很容易理解,因为我们只是使用系数权重a_n来加权每个特征变量X_n的重要性。我们使用随机梯度下降(SGD)来确定这些权重a_n和偏差b。查看下面的插图以获得更多视觉效果!

你应该知道的5种回归类型及其属性!

  说明梯度下降如何找到线性回归的非常好的参数

  关于线性回归的几个关键点:

  ·建模快速简单,特别适用于要建模的关系不是非常复杂且数据量不大的情况。

  ·非常直观的理解和解释。

  ·线性回归对异常值非常敏感。

  多项式回归

  当我们要创建适合处理非线性可分数据的模型时,我们需要使用多项式回归。在这种回归技术中,非常好的拟合线不是一条直线,这是一条符合数据点的曲线。对于一个多项式回归,一些自变量的功效大于1。例如,我们可以有这样的东西:

  Y = a_1 * X_1 +(a_2)2 * X_2 +(a_3)4 * X_3 ......。 a_n * X_n + b

  我们可以有一些变量有指数,其他变量没有,还可以为每个变量选择我们想要的确切指数。然而,选择每个变量的确切指数自然需要一些关于数据怎样与输出相关的知识。请参阅下面的图表,以便直观的比较线性回归和多项式回归。

你应该知道的5种回归类型及其属性!

  线性与多项式回归的数据是非线性可分的。

  关于多项式回归的几个要点:

  能够模拟非线性可分的数据,线性回归不能做到这一点。它总体上更灵活,可以模拟一些相当复杂的关系。

  完全控制要素变量的建模(要设置指数)。

  需要仔细的设计。需要一些数据的知识才能选择非常好的指数。

  如果指数选择不当,容易过度拟合。

  岭回归

  标准线性或多项式回归在特征变量之间存在高共线性的情况下将失败。共线性是自变量之间存在近似线性关系。高度共线性的存在可以通过几种不同的方式来确定:

  尽管从理论上讲,该变量应该与Y高度相关,但回归系数并不显著。

  添加或删除X特征变量时,回归系数会发生显著变化。

  你的X特征变量具有较高的成对相关性(检查相关矩阵)。

  我们可以首先看一下标准线性回归的优化函数,以获得有关岭回归如何帮助的一些见解:

  min || Xw - y ||2

  其中X表示特征变量,w表示权重,y表示地面实况。岭回归是一种补救措施,旨在缓解模型中回归预测变量之间的共线性。共线性是一种现象,其中多元回归模型中的一个特征变量可以由其他人以相当程度的准确度线性预测。由于特征变量如此相关,所以最终回归模型在其近似方面受到严格限制,即具有高方差。

  为了缓解这个问题,岭回归为变量增加了一个小的平方偏差因子:

  min || Xw - y ||2+ z || w ||2

  这种平方偏差因子将特征变量系数从该刚度中剔除,向模型中引入少量偏差,但大大减少了方差。

  关于岭回归的几个关键点:

  这种回归的假设与最小平方回归相同。

  它缩小了系数的值,但没有达到零,这表明没有特征选择功能

  套索回归

  套索回归与岭回归非常相似,因为两种技术都有相同的前提。我们再次在回归优化函数中增加一个偏置项,以减少共线性的影响,从而减少模型方差。但是,不是像岭回归那样使用平方偏差,而是使用绝对值偏差的套索:

  min || Xw - y ||2+ z || w ||

  岭回归和套索回归之间存在一些差异,基本上可以归结为L2和L1正则化的性质差异:

  内置特征选择:经常被提及为L1范数的一个有用属性,而L2范数不具有这种特性。这实际上是L1范数的结果,其倾向于产生稀疏系数。例如,假设模型有100个系数,但其中只有10个系数具有非零系数,这实际上是说“其他90个预测变量对预测目标值没有用处”。 L2范数产生非稀疏系数,所以没有这个属性。因此,可以说套索回归做了一种“参数选择”形式,因为未被选中的特征变量将具有总权重0。

  稀疏性:指矩阵(或向量)中只有极少数条目非零。 L1范数具有产生具有零值或具有很小的大系数的非常小值的许多系数的属性。这与套索回归执行一种特征选择的前一点相关。

  计算效率:L1范数没有解析解,但L2范数有。这使得L2范数可以通过计算有效地进行计算。然而,L1范数解决方案确实具有稀疏性,这使得它可以与稀疏算法一起使用,这使得计算的计算效率更高。

  ElasticNet回归

  ElasticNet是套索和岭回归技术的混合体。它既使用了L1和L2正则化,也使用了两种技术的效果:

  min || Xw - y ||2+ z_1 || w || + z_2 || w ||2

  在套索和岭回归之间进行权衡的一个实际优势是,它允许Elastic-Net回归在旋转的情况下继承岭回归的一些稳定性。

  关于ElasticNet回归的几个关键点:

  它鼓励在高度相关变量的情况下的群体效应,而不是像套索那样将其中一些置零。

  对所选变量的数量没有限制。

  结论

你应该知道的5种回归类型及其属性!

  以上是为大家介绍的5种常见类型的回归及其属性。所有这些回归正则化方法(Lasso,Ridge和ElasticNet)在数据集中的变量之间具有高维度和多重共线性的情况下运行良好。希望这篇文章能够在一定程度上帮助到你。

0
相关文章