序列最小优化算法

维基百科,自由的百科全书
跳转至: 导航搜索

序列最小优化算法英语Sequential minimal optimization, SMO)是一种用于解决支持向量机训练过程中所产生优化问题的算法。SMO由微软研究院的约翰·普莱特(John Platt)发明于1998年[1],目前被广泛使用于SVM的训练过程中,并在通行的SVM库libsvm中得到实现。[2][3]

1998年,SMO算法发表在SVM研究领域内引起了轰动,因为先前可用的SVM训练方法必须使用复杂的方法,并需要昂贵的第三方二次规划工具。而SMO算法较好地避免了这一问题。[4]

问题定义[编辑]

SMO算法主要用于解决支持向量机目标函数的最优化问题。考虑数据集(\mathbf{x_1}, y_1), \ldots , (\mathbf{x_n}, y_n)的二分类问题,其中\mathbf{x_i}是输入向量,y_i \in \{-1, 1\}是向量的类别标签,只允许取两个值。一个软边缘支持向量机的目标函数最优化等价于求解以下二次规划问题的最大值:

W=\max_{\alpha} \sum_{i=1}^n \alpha_i - \frac12 \sum_{i=1}^n \sum_{j=1}^n y_i y_j K(x_i, x_j) \alpha_i \alpha_j,
满足:
0 \leq \alpha_i \leq C, \quad \mbox{ for } i=1, 2, \ldots, n,
\sum_{i=1}^n y_i \alpha_i = 0,

其中,C是SVM的参数,而K(\mathbf{x_i}, \mathbf{x_j})核函数。这两个参数都需要使用者制定。

算法[编辑]

SMO是一种解决此类支持向量机优化问题的迭代算法。由于目标函数为凸函数,一般的优化算法都通过梯度方法一次优化一个变量求解二次规划问题的最大值,但是,对于以上问题,由于限制条件\sum_{i=1}^n y_i \alpha_i = 0存在,当某个\alpha_i \,\alpha_i^{old}更新到\alpha_i^{new}时,上述限制条件即被打破。为了克服以上的困难,SMO采用一次更新两个变量的方法。

数学推导[编辑]

假设算法在某次更新时更新的变量为\alpha_1 \,\alpha_2\,,则其余变量都可以视为常量。为了描述方便,规定

K_{ij}=K(\mathbf{x_i}, \mathbf{x_j}), f(\mathbf{x_i})=\sum_{j=1}^n y_j \alpha_j K_{ij} + b,
v_i=f(\mathbf{x_i})-\sum_{j=1}^2 y_j \alpha_j K_{ij} - b

因而,二次规划目标值可以写成

\begin{array}{lcl}
W(\alpha_2) &=&\sum_{i=1}^n \alpha_i - \frac12 \sum_{i=1}^n \sum_{j=1}^n y_i y_j K(x_i, x_j) \alpha_i \alpha_j \\
            &=&\alpha_1+\alpha_2-\frac12 K_{11} \alpha_1^2 - \frac12 K_{22} \alpha_2^2 - y_1 y_2 K_{12} \alpha_1 \alpha_2 \\
            & & - y_1 \alpha_1 v_1 - y_2 \alpha_2 v_2 + \text{constant} \,
\end{array}

由于限制条件\sum_{i=1}^n y_i \alpha_i = 0存在,将\alpha_3, \ldots, \alpha_n, y_3, \ldots, y_n看作常数,则有\alpha_1 y_1 + \alpha_2 y_2 = C \,成立(C \,为常数)。由于y_i \in \{-1, 1\} \,,从而\alpha_1 = \gamma - s \alpha_2 \,\gamma \,为常数,s = y_1 y_2 \,)。取\alpha_2 \,为优化变量,则上式又可写成

\begin{array}{lcl}
W(\alpha_2) &=&\gamma - s \alpha_2 + \alpha_2 - \frac12 K_{11} (\gamma - s \alpha_2)^2 - \frac12 K_{22} \alpha_2^2 \\
 & &- s K_{12} (\gamma - s \alpha_2)\alpha_2 - y_1(\gamma - s \alpha_2)v_1 - y_2 \alpha_2 v_2 + \text{constant} \end{array}

\alpha_2 \,偏导以求得最大值,有


\begin{array}{lcl}
\frac{\partial W(\alpha_2)}{\partial \alpha_2} &=& -s + 1 + s K_{11} \gamma - K_{11} \alpha_2 - K_{22}\alpha_2 + 2K_{12}\alpha_2 -s K_{12} \gamma\\& & + y_2v_1 - y_2 v_2 = 0
\end{array}

因此,可以得到

\alpha_2^{new} = \frac{y_2(y_2 - y_1 + y_1 \gamma (K_{11}-K_{12})+v_1-v_2)}{K_{11}+K_{22}-2K_{12}}

规定误差项E_i = f(\mathbf{x}_i) - y_i,取\gamma = \alpha_1^{old} +s \alpha_2^{old},并规定K = K_{11}+K_{22}-2K_{12} \,,上述结果可以化简为

\alpha_2^{new} = \alpha_2^{old} + \frac{y_2(E_1-E_2)}{K}

再考虑限制条件0 \leqslant \alpha_i \leqslant C(\alpha_1, \alpha_2) \,的取值只能为直线\alpha_1 y_1 + \alpha_2 y_2 = \gamma \,落在[0, C] \times [0, C]矩形中的部分。因此,具体的SMO算法需要检查\alpha_2^{new}的值以确认这个值落在约束区间之内。[1][5]

算法框架[编辑]

SMO算法是一个迭代优化算法。在每一个迭代步骤中,算法首先选取两个待更新的向量,此后分别计算它们的误差项,并根据上述结果计算出\alpha_2^{new}\alpha_1^{new}。最后再根据SVM的定义计算出偏移量\mathbf{b}。对于误差项而言,可以根据\alpha_1^{new}\alpha_2^{new}b的增量进行调整,而无需每次重新计算。具体的算法如下:

1 随机数初始化向量权重\alpha_i \,,并计算偏移b
2 初始化误差项E_i \,
3 选取两个向量作为需要调整的点
4 令\alpha_2^{new} = \alpha_2^{old} + \frac{y_2(E_1-E_2)}{K}
5 如果\alpha_2^{new} > V
6     令\alpha_2^{new} = V
7 如果\alpha_2^{new} < U
8     令\alpha_2^{new} = U
9 令\alpha_1^{new} = \alpha_1^{old}+y_1 y_2 (\alpha_2^{old} - \alpha_2^{new})
10 利用更新的\alpha_1^{new}\alpha_2^{new}修改E_i \,b的值
11 如果达到终止条件,则停止算法,否则转3

其中,UV\alpha_2^{new}的下界和上界。特别地,有

U=
\begin{cases}
\max{\left\{0, \alpha_2^{old} - \alpha_1^{old}\right\}} & y_1y_2 = -1 \\
\max{\left\{0, \alpha_1^{old} + \alpha_2^{old} - C \right\}} & y_1y_2 = 1
\end{cases},
V=
\begin{cases}
\min{\left\{C, C + \alpha_2^{old} - \alpha_1^{old}\right\}} & y_1y_2 = -1 \\
\min{\left\{C, \alpha_2^{old} + \alpha_1^{old}\right\}} & y_1y_2 = 1
\end{cases}

这一约束的意义在于使得\alpha_1^{new}\alpha_2^{new}均位于矩形域[0, C] \times [0, C]中。[5]

优化向量选择方法[编辑]

可以采用启发式的方法选择每次迭代中需要优化的向量。第一个向量可以选取不满足支持向量机KKT条件的向量,亦即不满足

y_if(\mathbf{x}_i)\begin{cases}
>1 & \alpha_i = 0 \\
=1 & 0 < \alpha_1 < C \\
<1 & \alpha_i = C
\end{cases}

的向量。而第二个向量可以选择使得|E_1-E_2| \,最大的向量。[5]

终止条件[编辑]

SMO算法的终止条件可以为KKT条件对所有向量均满足,或者目标函数W(\alpha) \,增长率小于某个阈值,即

\frac{W(\alpha^{t+1})-W(\alpha^t)}{W(\alpha^t)}<T[5]

参考资料[编辑]

参见[编辑]