最小二乘法、拉格朗日乘子法与正则化
本文主要介绍了最小二乘法、拉格朗日乘子法与正则化的一些基础知识。
最小二乘法 Least Squares
简介
[[最小二乘法.pdf]]
最小二乘法的参数解析解求解过程
假设我们现在有 m 个 n 维的样本,我们可以将所有的样本组成一个样本矩阵 Xm × (n + 1),X的每一行代表一个样本,每一列代表样本的一个特征,为了表达方便,我们设有一个额外的一维常数项,全为 1,也就是最后一列。 目标函数为:
$$
\begin{aligned}
J(\theta) &= \frac{1}{2} \sum_1^m (h_{\theta}(x^{(i)})-y^{(i)})^2 \ &= \frac{1}{2} (X \theta -Y)^T(X \theta -Y) \ &= \frac{1}{2}(\theta^TX^T - Y^T)(X \theta - Y) \ &= \frac{1}{2}(\theta^T X^T X \theta - \theta^T X^TY - Y^T X \theta - Y^T Y)
\end{aligned}
$$
此时我们对于J(θ)求导数并且令导数等于零
$$
\frac{\delta J(\theta)}{\delta \theta} = \frac{1}{2}(2X^T X \theta - X^T Y - X^T Y) = 0
$$
于是有:XTXθ − XTY = 0,即为XTXθ = XTY.
注意到XTX其实是一个方阵,如果这个方阵是可逆的话,就可以直接得到θ的解析式: θ = (XTX) − 1XTY
通常为了防止过拟合,或者当XTX不可逆的时候,添加一个λ扰动,则有: θ = (XTX + λI) − 1XTY
可分离最小二乘法
交替乘子法
[[ADMM Alternating Direction Method of Multipliers.pdf]]
拉格朗日乘子法与正则化
Depends where did you use these terminologies. Roughly Lagrange multiplier is kind of regularization parameter. Regularization parameter tries to regularize the ill posed problem to well posed problem.
- 拉格朗日乘子,是为了解决约束优化问题,将其变为无约束优化问题的一个方法。从编程角度,拉格朗日乘子很可能是一个向量。
- 正则化参数,是为了解决反问题不适定性的一种方法。从编程角度,正则化参数往往只是一个数,而不是向量。通常可用 L 曲线或者 GCV 法来确定一个大概值。
参考内容
- 最小二乘法和岭回归
- [优化]Levenberg-Marquardt 最小二乘优化
- 机器学习笔记之(五)最小二乘法中参数解析解的求解过程
- 深入理解拉格朗日乘子法(Lagrange Multiplier) 和 KKT 条件
- 矩阵最小二乘与 Tikhonov 正则化
LASSO
Lasso Method
Group Lasso
Adaptive Lasso
最小二乘法、拉格朗日乘子法与正则化