任何机器学习算法的目标都是在给定输入数据(x)的情况下,最优地估计目标变量(y)的映射函数(f)。这个函数的推广误差可以表示为三个非常不同的误差之和:
偏差误差;
方差误差;
不可减少的错误。
了解不同误差源如何影响机器学习算法的偏差和偏差,将有助于我们改进数据拟合过程,获得更准确的模型。
偏差误差衡量我们模型的预期预测与它试图预测的正确值有多远,因此这种泛化与误差假设有关。换句话说,偏差是指更简单的模型在处理现实生活中可能非常复杂的问题时引入的误差。
通常参数算法偏差较大,比较容易理解,但通常不太灵活。
低偏差:模型对目标函数的形式做了很好的假设。
例子:决策树,k近邻,支持向量机。
高偏差:模型通常远离目标函数的形式。比如假设数据是线性的,但实际上是二次的。
例子:线性回归,线性判别分析,Logistic回归。
方差意味着如果我们使用不同的训练数据集来估计映射函数的变化。因此,方差与模型对训练数据中可能存在的微小变化的过度敏感性有关。
例如,如果模型具有高方差,训练数据的微小变化可能导致目标预测的巨大变化。一般来说,具有很大灵活性的非参数机器学习算法方差较高。
低方差:随着训练数据集的变化,映射函数略有变化;
例子:线性回归,线性判别分析,Logistic回归。
高方差:随着训练数据集的变化,映射函数会有很大的变化。
例子:决策树,k近邻,支持向量机。
这部分概括是因为数据本身的噪声。减少此问题影响的唯一方法是清理数据。
任何有监督的机器学习模型的目标都是实现低偏差和低方差。之所以称之为权衡,是因为通过增加模型的复杂度,方差会增大,偏差会减小,而对于更简单的模型,增大的偏差和方差会减小。
在这个问题的基础上,处理偏差和方差,其实就是处理过拟合和欠拟合。例如,当您向模型添加更多参数时,模型的复杂性和方差将会增加。因此,方差现在是我们主要关心的,而偏离倾向于减少。
总之,模型的完美复杂度是偏差的增加等于方差的减少。所以,如果我们的模型是完美的,那么我们就会处理过拟合,如果我们的复杂度不足,那么我们就不拟合模型。不幸的是,没有分析方法来衡量这个最佳点。相反,我们必须用成本函数来衡量我们的预测偏差,探索不同层次的模型复杂性,然后选择使总体误差最小的层次。
来源:莫然博客,欢迎分享这篇文章!莫然博客
评论