在数学和统计学中,最小二乘法是一种广泛使用的参数估计方法。它主要用于拟合数据点到一条直线或其他函数曲线,以找到最佳的拟合模型。这种方法的核心思想是最小化误差平方和,即通过调整模型参数使得实际观测值与预测值之间的差异的平方和达到最小。
假设我们有一组二维数据点 \((x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\),我们需要找到一个线性关系 \(y = ax + b\) 来描述这些数据点的趋势。在这个方程中,\(a\) 是斜率,\(b\) 是截距。最小二乘法的目标是确定最优的 \(a\) 和 \(b\) 值,使得误差平方和 \(S\) 最小:
\[ S = \sum_{i=1}^{n}(y_i - (ax_i + b))^2 \]
为了找到使 \(S\) 最小的 \(a\) 和 \(b\),我们需要对 \(S\) 分别关于 \(a\) 和 \(b\) 求偏导数,并令其等于零。这样可以得到两个方程,称为正规方程:
\[
\frac{\partial S}{\partial a} = -2\sum_{i=1}^{n}x_i(y_i - (ax_i + b)) = 0
\]
\[
\frac{\partial S}{\partial b} = -2\sum_{i=1}^{n}(y_i - (ax_i + b)) = 0
\]
解这两个方程可以得到 \(a\) 和 \(b\) 的表达式:
\[ a = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2} \]
\[ b = \frac{\sum y_i - a\sum x_i}{n} \]
以上就是最小二乘法的基本原理和计算公式。这种方法不仅适用于线性模型,还可以扩展到非线性模型和其他复杂场景中。通过最小化误差平方和,最小二乘法提供了一种有效的方式来捕捉数据中的趋势并进行预测分析。