统计学习理论和 svm( 支持向量机 )

统计学习理论和 SVM( 支持向量机 )

统计学习理论和 SVM( 支持向量机 )

主要内容• 统计学习理论的核心内容 • 支持向量机 • （ 1 ）标准的最优分类面 • （ 2 ）广义最优分类面• （ 3 ）变换到高维空间的支持向量机 • 感受

统计学习理论的核心内容

• 统计学习理论是小样本统计估计和预测学习的最佳理论。

• 假设输出变量 Y 与输入变量 X 之间存在某种对应的依赖关系 , 即一未知概率分布P(X,Y) ， P(X,Y) 反映了某种知识。学习问题可以概括为 : 根据 l 个独立同分布( independently drawn and identically distributed ) 的观测样本train set ，

学习到一个假设 H=f(x, w) 作为预测函数 , 其中 w 是广义参数 . 它对 P(X,Y) 的期望风险 R(w) 是 ( 即统计学习的实际风险 ) ：

n

iii yYXPwxfywxfyiE

1

),()],([(),((

),(),(2

1)( YXdPwxfywR

而对 train set上产生的风险 Remp(w)

被称为经验风险 (学习的训练误差 ):

l

iiiemp wxfy

lwR

1

),(2

1)(

首先 Remp(w) 和 R(w)都是 w的函数，传统概率论中的定理只说明了 (在一定条件下 )当样本趋于无穷多时 Remp(w)将在概率意义上趋近于 R(w)，却没有保证使Remp(w)最小的点也能够使 R(w) 最小 (同步最小 )。

根据统计学习理论中关于函数集的推广性的界的结论，对于两类分类问题中的指示函数集 f(x, w)的所有函数 (当然也包括使经验风险员小的函数 )，经验风险 Remp(w)和实际风险 R(w)之间至少以不下于 1-η(0≤η≤1)的概率存在这样的关系 :

)/()()( lhwRwR emp

l

hlhlh

)4/ln()1/2(ln()/(

h是函数 H=f(x, w) 的 VC 维 , l是样本数 .

一般的学习方法 ( 如神经网络 ) 是基于 Remp(w) 最小 , 满足对已有训练数据的最佳拟和 , 在理论上可以通过增加算法（如神经网络）的规模使得Remp(w) 不断降低以至为 0 。但是 , 这样使得算法（神经网络）的复杂度增加 , VC 维 h 增加 , 从而φ(h/l) 增大 , 导致实际风险 R(w) 增加 ,这就是学习算法的过度拟和(Overfitting).

支持向量机Support Vector

Machines

支持向量机比较好地实现了有序风险最小化思想 (SRM)

H1

X1

H2

X2

Optimal

Hyperplane

W· X+b=0

Separate

Hyperplane

Margin

=2/||W||

如上图的训练样本 ,在线性可分的情况下 ,存在多个超平面 (Hyperplane) ( 如 : H1,H2….)使得这两类被无误差的完全分开。这个超平面被定义为：

其中W．Ｘ是内积（ dot product ）， b是标量。。

0 bXW

Optimal Hyperplane （最优超平面）是指两类的分类空隙最大，即每类距离超平面最近的样本到超平面的距离之和最大。距离这个最优超平面最近的样本被称为支持向量（ Support Vector ）。

W2

Margin =

1 b1XWH1 平面：

H2 平面： 1 b2XW

01])[( by ii XW …..(2)

…..(1)

求解最优超平面就相当于，在 (2)的约束条件下 , 求 (1) 的最大值

Minimum: WWWW 2

1

2

1)(

2

01])[( by ii XWSubject to:

广义最优分类面 • 在线性不可分的情况下，就是某些训练

样本不能满足式 (2) 的条件，因此可以在条件中增加一个松弛项 ζ ，约束条件变成 :

01])[( iii bXWy

此时的目标函数是求下式的最小值 :

n

iii CWWW

12

1),(

这个二次优化，同样可以应用Lagrange 方法求解

变换到高维空间的支持向量机

• 采用如下的内积函数：q

ii XXXXK ]1)[(),(

2

2

exp),(

XiXXiXK

))(tanh(),( cXXXXK ii

判别函数成为：

*

1

* ),(sgn)( bXXKyXf ii

n

ii

感受• 理论基础扎实• 应用领域很广• 地名识别• 鲁棒性强• …………

Thank!Thank!

2003-4-18

统计学习理论和 svm( 支持向量机 )

Documents