机器学习中最常见的损失函数就是最小平方误差,所以我们来看看 LSE 有什么高效的解法。
LSE中,我们的优化目标常常是
$f(x) = \frac{1}{2}\sum_{j=1}^mr^2_j(x)$
令 $r(x) = (r_1(x),r_2(x),...,r_m(x))^T$,则上面的函数可以简写为 $f(x) = \|r(x)\|^2$ 。令
$J(x) = \begin{bmatrix}\nabla r_1(x)^T\\\nabla r_2(x)^T\\.\\.\\.\\\nabla r_m(x)^T\end{bmatrix}$
则
$$\begin{align}
\nabla f(x) &= \sum_{j=1}^m r_j(x)\nabla r_j(x) = J(x)^Tr(x)\\
\nabla^2 f(x) &= \sum_{j=1}^m \nabla r_j(x)\nabla r_j(x)^T + \sum_{j=1}^m r_j(x)\nabla^2 r_j(x)\\
&= J(x)^TJ(x) + \sum_{j=1}^m r_j(x)\nabla^2 r_j(x)
\end{align}$$
当我们的解接近最优解时,$r_j(x)$ 或 $\nabla^2 r_j(x)$ 很小,这时第二项可以基本忽略。
Linear Least-square
首先看一个简单的情况,我们要拟合的函数也是线性函数。这种情况下目标函数可以写成
$f(x) = \frac{1}{2} \|Jx-y\|^2$
此时一阶导和二阶导分别为:
$$\nabla f(x) = J^T(Jx-y)
\nabla^2 f(x) = J^TJ$$
求解其实只要计算 $J^TJx^* = J^Ty$ 。主要的问题在于如何计算。下面介绍3种方法计算。
Cholesky factorization
思路非常清晰:
- 计算 $J^TJ$ 和 $J^Ty$
- 对 $J^TJ$ 进行 Cholesky factorization
- 求解 $J^TX = J^Ty, Jx^* = X$ 得到 $x^*$
但是如果 $J$ 的条件数非常大,$J^TJ$ 会将其进一步放大。这种情况下 Cholesky factorization 的效果会很差,但是在 m 远大于 n 的情况下,该算法会有较好的效果
QR factorization
易知, 当 $Q$正交时, $\|Jx-y\| = \|Q(Jx-y)\|$ 根据 QR分解,有
$J\Pi = Q\begin{bmatrix}R\\0\end{bmatrix} = \begin{bmatrix}Q_1&Q_2\end{bmatrix}\begin{bmatrix}R\\0\end{bmatrix} = Q_1R$
其中, $\Pi$ 为 n n 维的 permutation 矩阵;$Q$ 为正交矩阵; $Q_1$ 是 $Q$ 的前 n 列,$Q_2$ 是 $Q$ 的剩下的 m-n 列; $R$ 为 nn 的正定上三角矩阵。所以
$$\begin{align}
\|Jx-y\|_ 2^2 &= \Bigg\|\begin{bmatrix}Q_1^T\\Q_2^T\end{bmatrix}(J\Pi\Pi^Tx-y)\Bigg\|\\
& =\Bigg\|\begin{bmatrix}R\\0\end{bmatrix}\Pi^Tx - \begin{bmatrix}Q_1^Ty\\Q_2^Tys\end{bmatrix}\Bigg\|\\
& =\|R(\Pi^Tx) - Q_1^Ty\|^2_2 + \|Q^T_2y\|^2_2
\end{align}$$
最后我们需要解 $x^* = \Pi R^{-1}Q_1^Ty$ 。实际一般解 $Rz = Q_1^Ty$ ,然后令 $x^* = \Pi z$ 。它的优点在于避开了 Cholesky factorization 中的坑,$J$ 的条件数很大时能拿到相对较好的结果。
SVD
当我们需要更为健壮的结果时,就要用到SVD了。对 $J$ 做SVD分解,可得:
$J = U\begin{bmatrix}S\\0\end{bmatrix}V^T = \begin{bmatrix}U_1&U_2\end{bmatrix}\begin{bmatrix}S\\0\end{bmatrix}V^T = U_1SV^T$
这种情况下
$$\begin{align}
\|Jx-y\| &= \Bigg\|\begin{bmatrix}S\\0\end{bmatrix}(V^Tx)-\begin{bmatrix}U_1^T\\U_2^T\end{bmatrix}y\Bigg\|^2\\
& = \|S(V^Tx)-U_1^Ty\|^2 + \|U_2^Ty\|^2
\end{align}$$
可以得到 $x^* = VS^{-1}U_1^Ty = \sum_{i=1}^n\dfrac{u_i^Ty}{\sigma_i}v_i$ 。当然,有些 $\sigma_i$ 可能是0, 这时候可以将公式改写为 $x^* = \sum_{\sigma_i\neq0}\dfrac{u_i^Ty}{\sigma_i}v_i + \sum_{\sigma_i=0}{\tau_i}v_i$ ,一般令 $\tau_i=0$ 。这是3个方法中最为健壮的。毕竟SVD分解的计算量摆在那,不好谁用啊。
当然,对于大数据量来说,还是CG什么的迭代式的更好点。
NonLinear Least-square
讲完线性的,现在来看非线性的。
Gauss-Newton method
我们可以用 $J_k^TJ_k$ 来近似二阶导,然后和牛顿法类似,解
$J_k^TJ_kp_k^{GN} = -J_k^Tr_k$
得到下降方向 $p_k^{GN}$ 。
当 $J$ 满秩, $\nabla f$ 不为0时,有
$(p_k^{GN})^T\nabla f = (p_k^{GN})^TJ_k^Tr_k = -(p_k^{GN})^TJ_kJ_k^Tp_k^{GN} = -\|J_k^Tp_k^{GN}\|^2\le0$
所以这必然是下降方向;而且很多情况下都可以认为 $B_k\approx J_k^TJ_k$ 。而且这和上面讲的线性方程的函数类似,所以上面的方法可以直接用到这里来。
当然这是 $J$ 满秩的情况。 $J$ 不满秩就比较麻烦了。这时 $p_k^{GN}$ 会有无穷多个解,上面的条件可能不再满足,因此算法的收敛性可能无法得到保证。
收敛速度方面,可以推出
$\|x_k+p_k^{GN}-x^* \| \approx \|[J^TJ(x^* )]^{-1}H(x^* )\|\|x_k-x^* \| + O(\|x_k-x^* \|^2)$
所以收敛速度方面是很快的。
在遇到大数据量的情况下,可以用 inexact newton method ,不过需要把 $B_k$ 的计算替换为 $J_k^TJ_k$
The Levenberg-marquardt method
和上面的方法类似,Levenberg-marquardt 也用了一样的方法去近似 Hessian 矩阵,但是用的搜索是 trust-region 。这样避免了 $J$ 的条件数过高带来的问题。
每次迭代,我们需要求解
$\min_p \frac{1}{2}\|J_kp+r_k\|^2\quad s.t. \|p\|\le\Delta_k$
如果 Gauss-Newton 解出的 $p^{GN}_k$ 满足 $p^{GN}_k \le \Delta_k$ ,直接用就可以了。否则根据KKT条件,需要求解
$$(J^TJ+\lambda I)p=-J^Tr\\
p = \Delta$$
可以用 trust-region 中解决子问题所用的迭代式算法去解。不过在这种场景中有更高效的 Cholesky factorization 的方法。
令 $Q_\lambda, R_\lambda$ 为正交矩阵和上三角矩阵,其中 $R_\lambda^TR_\lambda = (J^J+\lambda I)$ ,且
$$\label{eq}
\begin{bmatrix}R_\lambda\\0\end{bmatrix} = Q_\lambda \begin{bmatrix}J\\\sqrt{\lambda} I\end{bmatrix}$$
为了减小计算量,我们先对 $J$ 做QR分解:
$J = Q\begin{bmatrix}R\\0\end{bmatrix}$
对上式做一点变形,可得:
$\begin{bmatrix}R\\0\\\sqrt{\lambda}I\end{bmatrix} = \begin{bmatrix}Q^T&\\&I\end{bmatrix} \begin{bmatrix}J\\\sqrt{\lambda} I\end{bmatrix}$
对上式的左边做行变换,使其变为上三角矩阵:
$\bar{Q}_\lambda^T\begin{bmatrix}R\\0\\\sqrt{\lambda}I\end{bmatrix} = \begin{bmatrix}R_\lambda\\0\\0\end{bmatrix}$
令 $Q_\lambda = \begin{bmatrix}Q^T&\\&I\end{bmatrix}\bar{Q}_\lambda^T$
然后带到\ref{eq}就可以了。当然,对于条件数太高的情况,可以进行 scaling,这和 trust-region 基本一样,就不多说了。
大数据量和上面一样,上CG
Large-residual problem
在这种问题中,由于残差很大,所以用 $J_k^TJ_k$ 近似二阶导的效果很差,收敛速度大概为 linear,远远差于 quasi-newton 方法。但是在早期迭代时,上面方法的速度又优于 quasi-newton 法。
这种情况下我们有2种处理办法。
一是用启发式的方法确定是否使用 quasi-newton 还是 Gauss-Newton。 如果使用 Gauss-Newton 带来的损失函数减少量较大(例如减少10%),就使用 Gauss-Newton ,并令 $B_k=J^T_kJ_k$ ,否则继续使用 $B_k$ 。但是更新 $B_k$ 时需要用类似 BFGS 的方法
二是令 $B_k = J^T_kJ_k + S_k$ 每次迭代时更新 $S_k$,更新规则为:
$S_{k+1} = S_k + \dfrac{(\hat{y}-S_ks)y^T + y(\hat{y}-S_ks)^T}{y^Ts} - \dfrac{(\hat{y}-S_ks)^Ts}{(y^Ts)^2}yy^T$
其中 $s = x_{k+1}-x_k, y = J_{k+1}^Tr_{k+1}-J_{k}^Tr_{k}, \hat{y} = J_{k+1}^Tr_{k+1}-J_{k}^Tr_{k+1}$
但是该算法不保证在 $S_k$ 会趋向于0。所以可以在 $S_k$ 之前乘上一个系数 $\tau_k = \min(1, \dfrac{|S^T\hat{y}|}{|S^TS_kS|})$
Orthogonal distance regression
在上面的问题中,我们的假设都是 t 是精确的,而 y 是不精确的。但是如果 x 也不精确,该如何处理?
这种情况下我们假设 $\epsilon_k ,\delta_k$ 分别表示 t 和 y 的误差。则实际的函数可以表示为
$y_j = \phi(x;t_j+\delta_j)+\epsilon_j$
则我们的目标为
$\min_{x,\epsilon_j,\delta_j} \frac{1}{2}\sum_{j=1}^m w_j^2\epsilon^2_j + d_j^2\delta_j^2$
上式可以重写为
$\min_{x,\delta} \frac{1}{2} \sum_{j=1}^m w_j^2[y_j-\phi(x;t_i+\delta_j)]^2 + d_j^2\delta_j^2$
令
$r_j(x,\delta) = \begin{cases}w_j^2[y_j-\phi(x;t_i+\delta_j)]^2&j=1,2...m\\d_{j-m}^2\delta_{j-m}^2&j=m+1,m+2...2m\end{cases}$
则可以化简为
$\frac{1}{2}\sum_{j=1}^{2m}r_j^2(x,\delta)$
但是上式的 Jacobian 矩阵很特殊:
$J(x,\delta) = \begin{bmatrix}\hat{J}&V\\0&D\end{bmatrix}$
对上面的式子用 Levenberg-marquardt method 方法求解即可。