统计学习理论和 svm( 支持向量机 )
DESCRIPTION
统计学习理论和 SVM( 支持向量机 ). 主要内容. 统计学习理论的核心内容 支持向量机 ( 1 )标准的最优分类面 ( 2 )广义最优分类面 ( 3 )变换到高维空间的支持向量机 感受. 统计学习理论的核心内容. 统计学习理论是小样本统计估计和预测学习的最佳理论。 - PowerPoint PPT PresentationTRANSCRIPT
统计学习理论和 SVM( 支持向量机 )
统计学习理论和 SVM( 支持向量机 )
主要内容• 统计学习理论的核心内容 • 支持向量机 • ( 1 )标准的最优分类面 • ( 2 )广义最优分类面• ( 3 )变换到高维空间的支持向量机 • 感受
统计学习理论的核心内容
• 统计学习理论是小样本统计估计和预测学习的最佳理论。
• 假设输出变量 Y 与输入变量 X 之间存在某种对应的依赖关系 , 即一未知概率分布P(X,Y) , P(X,Y) 反映了某种知识。学习问题可以概括为 : 根据 l 个独立同分布( independently drawn and identically distributed ) 的观测样本train set ,
学习到一个假设 H=f(x, w) 作为预测函数 , 其中 w 是广义参数 . 它对 P(X,Y) 的期望风险 R(w) 是 ( 即统计学习的实际风险 ) :
n
iii yYXPwxfywxfyiE
1
),()],([(),((
),(),(2
1)( YXdPwxfywR
而对 train set上产生的风险 Remp(w)
被称为经验风险 (学习的训练误差 ):
l
iiiemp wxfy
lwR
1
),(2
1)(
首先 Remp(w) 和 R(w)都是 w的函数,传统概率论中的定理只说明了 (在一定条件下 )当样本趋于无穷多时 Remp(w)将在概率意义上趋近于 R(w),却没有保证使Remp(w)最小的点也能够使 R(w) 最小 (同步最小 )。
根据统计学习理论中关于函数集的推广性的界的结论,对于两类分类问题中的指示函数集 f(x, w)的所有函数 (当然也包括使经验风险员小的函数 ),经验风险 Remp(w)和实际风险 R(w)之间至少以不下于 1-η(0≤η≤1)的概率存在这样的关系 :
)/()()( lhwRwR emp
l
hlhlh
)4/ln()1/2(ln()/(
h是函数 H=f(x, w) 的 VC 维 , l是样本数 .
一般的学习方法 ( 如神经网络 ) 是基于 Remp(w) 最小 , 满足对已有训练数据的最佳拟和 , 在理论上可以通过增加算法(如神经网络)的规模使得Remp(w) 不断降低以至为 0 。 但是 , 这样使得算法(神经网络)的复杂度增加 , VC 维 h 增加 , 从而φ(h/l) 增大 , 导致实际风险 R(w) 增加 ,这就是学习算法的过度拟和(Overfitting).
支持向量机Support Vector
Machines
支持向量机比较好地实现了有序风险最小化思想 (SRM)
H1
X1
H2
X2
Optimal
Hyperplane
W· X+b=0
Separate
Hyperplane
Margin
=2/||W||
如上图的训练样本 ,在线性可分的情况下 ,存在多个超平面 (Hyperplane) ( 如 : H1,H2….)使得这两类被无误差的完全分开。这个超平面被定义为:
其中W.X 是内积( dot product ), b是标量。。
0 bXW
Optimal Hyperplane (最优超平面)是指两类的分类空隙最大,即每类距离超平面最近的样本到超平面的距离之和最大。距离这个最优超平面最近的样本被称为支持向量( Support Vector )。
W2
Margin =
1 b1XWH1 平面:
H2 平面: 1 b2XW
01])[( by ii XW …..(2)
…..(1)
求解最优超平面就相当于,在 (2)的约束条件下 , 求 (1) 的最大值
Minimum: WWWW 2
1
2
1)(
2
01])[( by ii XWSubject to:
广义最优分类面 • 在线性不可分的情况下,就是某些训练
样本不能满足式 (2) 的条件,因此可以在条件中增加一个松弛项 ζ ,约束条件变成 :
01])[( iii bXWy
此时的目标函数是求下式的最小值 :
n
iii CWWW
12
1),(
这个二次优化,同样可以应用Lagrange 方法求解
变换到高维空间的支持向量机
• 采用如下的内积函数:q
ii XXXXK ]1)[(),(
2
2
exp),(
XiXXiXK
))(tanh(),( cXXXXK ii
判别函数成为:
*
1
* ),(sgn)( bXXKyXf ii
n
ii
感受• 理论基础扎实• 应用领域很广• 地名识别• 鲁棒性强• …………
Thank!Thank!
2003-4-18