第二章习题解答 - ustchome.ustc.edu.cn/~hizhangp/pr/files/answer2.pdf第二章习题解答 ......

第二章习题解答

张鹏

1. 什么叫做最小距离分类器？描述几种最小距离分类器的特点，并说明其适用情况，可画图示意.

答：最小距离分类器：利用两个模式在特征空间中的距离作为两者之间的相似性度量，由此设计的度量函数就是最小距离分类器.

基于标准样本的距离分类器、基于平均样本法的距离分类器、基于平均距离法的距离分类器、基于最近邻法的距离分类器.

(P22-P27)

2. 对于某样本集合：

1) 何为总体线性可分？何为成对线性可分？

2) 在成对线性可分情况下，如何避免最终得到的决策域中不存在不确定区域？简要说明其原理；

3) 如果样本集合成对线性可分，是否一定总体线性可分？反之如何？可画图说明。

答：1) 总体线性可分：若能用一个超平面将任意一个类别的样本同其他类别的样本分开，则称该样本集合是总体线性可分的.

成对线性可分：若能用一个超平面将所有类别中任意两个类别的样本分开，则称该样本集合为成对线性可分的.

2) 为了保证最终得到的决策域中不存在不确定区域，采用如下策略：对于每个类别定义一个判别函数，并采用最大值判决准则完成分类.

3) 若样本几何总体线性可分，则也一定成对线性可分，反之未必.

(P31-P35)

3. 求点𝑋𝑎到决策面G 𝑋 = 𝑊𝑇𝑋 + 𝑤𝑛+1 = 0的距离大小，同时证明点𝑋𝑎到决策面的投影𝑋𝑝是使得 𝑋 − 𝑋𝑎 取值最小的𝑋。

答：1) 决策面由G 𝑋 = 0给出，𝑊是其权向量，𝑊的方向和决策面的法线方向保持一致。

自𝑋𝑎引垂线至决策面，使之与决策面交于𝑋𝑝，那么所求的距离𝑟 = 𝑋𝑎 − 𝑋𝑝 。由于𝑋𝑎 −

𝑋𝑝和决策面正交，因此它和权向量的方向保持一致或相反，有

𝑋𝑎 − 𝑋𝑝 = 𝑟𝑊

𝑊

用𝑊T左乘上式的两边，有

𝑊T𝑋𝑎 −𝑊T𝑋𝑝 = 𝑟𝑊T𝑊

𝑊= 𝑟 𝑊

𝑊T𝑋𝑎 + 𝑤𝑛+1 − 𝑊T𝑋𝑝 + 𝑤𝑛+1 = 𝑟𝑊T𝑊

𝑊= 𝑟 𝑊

因为𝑋𝑝位于决策面上，故

𝐺 𝑋𝑝 = 𝑊T𝑋𝑝 + 𝑤𝑛+1 = 0

3. 求点𝑋𝑎到决策面G 𝑋 = 𝑊𝑇𝑋 + 𝑤𝑛+1 = 0的距离大小，同时证明点𝑋𝑎到决策面的投影𝑋𝑝是使得 𝑋 − 𝑋𝑎 取值最小的𝑋。

答：而𝐺 𝑋a = 𝑊T𝑋𝑎 + 𝑤𝑛+1，所以𝐺 𝑋a = 𝑟 𝑊

也即

𝑟 =𝐺 𝑋a𝑊

(P30-P31)

2) 反证法：

假设在决策面上存在异于𝑋𝑝的一点𝑋𝑝′到𝑋𝑎的距离最短，即

𝑋𝑝′ − 𝑋𝑎 < 𝑋𝑝 − 𝑋𝑎

考虑到𝑋𝑝 − 𝑋𝑎垂直于𝑋𝑝 − 𝑋𝑝′，这与勾股定理相矛盾，假设不成立.

4.有三个模式类：𝜔1: 𝑋1 = 1, 1 𝑇，𝜔2: 𝑋2 = −2, 1 𝑇，𝜔3: 𝑋3 = 2,−3 𝑇

1) 是否总体线性可分？是否成对线性可分？

2) 采用感知器算法设计合适的分类器（W 0 = 0, 𝜌 = 1），请给出迭代过程，以及结果示意图。

答：1)既是总体线性可分，又是成对线性可分。

2) (使用三种情况的解答都可以，但推荐用第三种情况，可以得到没有不确定区域的解)

模式类的增广形式：𝑋1 = [1, 1, 1]𝑇，𝜔2: 𝑋2 = [−2, 1, 1]𝑇，𝜔3: 𝑋3 = [2, −3, 1]𝑇

三个判别函数：g1(𝑋) = 𝑊1𝑇𝑋，g2(𝑋) = 𝑊2

𝑇𝑋，g3(𝑋) = 𝑊3𝑇𝑋

初始权向量：𝑊1 0 = 𝑊2 0 = 𝑊3 0 = [0, 0, 0]𝑇， 𝜌 = 1

① 第一次迭代，𝑘 = 0，𝑁𝑐 = 0：g1(𝑋1) = 0，g2(𝑋1) = 0，g3(𝑋1) = 0

由于g1(𝑋1) = g2(𝑋1)且g1(𝑋1) = g3(𝑋1)

所以对权向量𝑊1，𝑊2和𝑊3进行修正：

൞

𝑊1 1 = 𝑊1 0 + 𝜌𝑋1 = [1, 1, 1]𝑇

𝑊2 1 = 𝑊2 0 − 𝜌𝑋1 = [−1,−1,−1]𝑇

𝑊3 1 = 𝑊3 0 − 𝜌𝑋1 = [−1,−1,−1]𝑇




答：模式类的增广形式：𝑋1 = [1, 1, 1]𝑇，𝜔2: 𝑋2 = [−2, 1, 1]𝑇，𝜔3: 𝑋3 = [2,−3, 1]𝑇



② 第二次迭代，𝑘 = 2，𝑁𝑐 = 0：g1(𝑋2) = 0，g2(𝑋2) = 0，g3(𝑋2) = 0

由于g2(𝑋2) = g1(𝑋2)且g2(𝑋2) = g3(𝑋2)

所以对权向量𝑊1，𝑊2和𝑊3进行修正：

൞

𝑊1 2 = 𝑊1 1 − 𝜌𝑋2 = [3, 0, 0]𝑇

𝑊2 2 = 𝑊2 1 + 𝜌𝑋2 = [−3, 0, 0]𝑇

𝑊3 2 = 𝑊3 1 − 𝜌𝑋2 = [1,−2, −2]𝑇







③ 第三次迭代，𝑘 = 3，𝑁𝑐 = 0：g1(𝑋3) = 6，g2 𝑋3 = −6，g3(𝑋3) = 6

由于g3(𝑋3) = g1(𝑋3)

所以对权向量𝑊1和𝑊3进行修正：

൞

𝑊1 3 = 𝑊1 2 − 𝜌𝑋3 = [1, 3, −1]𝑇

𝑊2 3 = 𝑊2 2 = [−3, 0, 0]𝑇

𝑊3 3 = 𝑊3 2 + 𝜌𝑋3 = [3, −5,−1]𝑇







④ 第四次迭代，𝑘 = 4，𝑁𝑐 = 1：g1(𝑋1) = 3，g2 𝑋1 = −3，g3 𝑋1 = −3

൞

𝑊1 4 = 𝑊1 3 = 1, 3, −1 𝑇

𝑊2 4 = 𝑊2 3 = [−3, 0, 0]𝑇

𝑊3 4 = 𝑊3 3 = [3, −5, −1]𝑇

⑤ 第五次迭代，𝑘 = 5，𝑁𝑐 = 2：g1(𝑋2) = 0，g2 𝑋2 = 6，g3 𝑋2 = −12

൞

𝑊1 5 = 𝑊1 4 = 1, 3, −1 𝑇

𝑊2 5 = 𝑊2 4 = [−3, 0, 0]𝑇

𝑊3 5 = 𝑊3 4 = [3, −5, −1]𝑇







⑥ 第六次迭代，𝑘 = 6，𝑁𝑐 = 3：g1 𝑋3 = −8，g2 𝑋3 = −6，g3 𝑋3 = 20

൞

𝑊1 6 = 𝑊1 5 = 1, 3, −1 𝑇

𝑊2 6 = 𝑊2 5 = [−3, 0, 0]𝑇

𝑊3 6 = 𝑊3 5 = [3,−5,−1]𝑇

得到判别函数：决策面函数：

൞

g1 𝑋 = 1, 3, −1 𝑇𝑋

g2 𝑋 = −3, 0, 0 𝑇𝑋

g3(𝑋) = [3,−5,−1]𝑇𝑋

൞

𝐺12 𝑋 = g1 𝑋 − g2 𝑋 = 4, 3, −1 𝑇𝑋

𝐺13 𝑋 = g1 𝑋 − g3 𝑋 = −2, 8, 0 𝑇𝑋

𝐺23 𝑋 = g2 𝑋 − g3 𝑋 = −6, 5, 1 𝑇𝑋

5. 对于二维线性判别函数g 𝑋 = 3𝑥1 + 2𝑥2 − 5

1)将判别函数写成矩阵形式g 𝑋 = 𝑊𝑇𝑋 + 𝑤𝑛+1；

2)映射成广义齐次线性函数𝑓 𝑌 = 𝑊 ,𝑇𝑌，Y = 𝑦1, 𝑦2, 𝑦3𝑇 = 𝑥1, 𝑥2, 1

𝑇；

3)试证明上述𝑋空间只是𝑌空间的一个子空间，且𝑓 𝑌 = 0对𝑋空间的划分结果与g 𝑋 = 0相同，画图表示。

答：1) 令𝑊 = 3, 2 𝑇，𝑋 = 𝑥1, 𝑥2𝑇，𝑤𝑛+1 = −5

可得g 𝑋 = 𝑊𝑇𝑋 + 𝑤𝑛+1 = 3𝑥1 + 2𝑥2 − 5

2) 令𝑊′ = 3, 2, −5 𝑇

可得𝑓 𝑋 = 𝑊′𝑇𝑌 = 3𝑥1 + 2𝑥2 − 5

3) 对于𝑋空间中任意的一点𝑋 = 𝑥1, 𝑥2𝑇，其对应的点𝑌 = 𝑦1, 𝑦2, 𝑦3

𝑇 = 𝑥1, 𝑥2, 1𝑇，

都位于空间的一个平面上，所以𝑋空间只是𝑌空间的一个子空间；

由𝑓 𝑌 = 0 ⇒ 3𝑦1 + 2𝑦2 − 5𝑦3 = 0 ⇒ 3𝑥1 + 2𝑥2 − 5 = 0

g 𝑋 = 0 ⇒ 3𝑥1 + 2𝑥2 − 5 = 0

所以𝑓 𝑌 = 0对𝑋空间的划分结果与g 𝑋 = 0相同。

6. 试用广义线性判别函数法解决异或问题：𝜔1: 1,0𝑇 , 0, 1 𝑇 ; 𝜔2: 0,0

𝑇 , 1, 1 𝑇并给出一个扩维后的决策面函数g 𝑌 ，以及所需的变换𝑦𝑖 = 𝑓𝑖 𝑥1, 𝑥2 , 𝑖 = 1, 2,⋯。

答：令g 𝑌 = 𝑦1 − 2𝑦2 + 𝑦3 − 0.5

其中𝑦1 = 𝑥12，𝑦2 = 𝑥1𝑥2，𝑦3 = 𝑥2

2

即g 𝑌 = 𝑦1 − 2𝑦2 + 𝑦3 − 0.5

= 𝑥12 − 2𝑥1𝑥2 + 𝑥2

2 − 0.5

= 𝑥1 −𝑥22 − 0.5

7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇

1)用LMSE算法进行训练（ρ = 1, b 0 = 1, 1, 1, 1 𝑇），给出最终的e与G 𝑋 ；

2)利用位势函数法实现分类，位势函数选取K 𝑋, 𝑋𝑛 = exp − 𝑥 − 𝑥𝑛2 , 𝐾𝐴,0 𝑥 = 0；

3)用Fisher线性判别法构造分类器，确定最佳投影方向。并简要说明类内总离散度矩阵的含义。

答：1) 有训练样本集构建增广矩阵 𝑋

𝑋 =

01

02

11

−1−3

10

−1−1

求其伪逆 𝑋 # = 𝑋 𝑇 𝑋−1

𝑋 𝑇

𝑋 # =−0.2667 −0.0333 0.0667 −0.3667−0.0667 0.3667 0.2667 0.03330.6000 0.2000 −0.4000 0.2000

赋算法初值：𝑘 = 0，b 0 = 1, 1, 1, 1 𝑇， ρ = 1

得𝑊 0 = 𝑋 #b 0 = [−0.6, 0.6, 0.6]𝑇，𝑒(0) = [𝑋]𝑊(0) − 𝑏(0) = [−0.4, 0.2, −0.4, 0.2]𝑇

7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇




答：1) 完成更新计算：𝑊 1 = 𝑊 0 + 𝜌 𝑋 #(𝑒 0 + 𝑒(0) )

𝑏 1 = 𝑏 0 + 𝜌 (𝑒 0 + 𝑒(0) )

迭代直至𝑒 k 的各分量均接近于0…

可得：𝑒 = [0, 0, 0, 0]𝑇

𝑊 = [−1, 1, 1]𝑇

G 𝑋 = −𝑥1 + 𝑥2 + 1

7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇




答：2) ① 𝑘 = 0，𝑁𝑐 = 0

取样本𝑋′ = [0, 0]𝑇， 𝐾𝐴,0 𝑋′ = 0

因为𝑋′ ∈ 𝜔1，且𝐾𝐴,0 𝑋′ ≤ 0，则𝐾𝐴,1 𝑋 = 𝐾𝐴,0 𝑋 + 𝐾 𝑋, 𝑋′ = exp − 𝑋 2

② 𝑘 = 1

取样本𝑋′ = [1, 2]𝑇， 𝐾𝐴,1 𝑋′ = exp −5 > 0

因为𝑋′ ∈ 𝜔1，且𝐾𝐴,1 𝑋′ > 0，则𝐾𝐴,2 𝑋 = 𝐾𝐴,1 𝑋 = exp − 𝑋 2 ，𝑁𝑐 = 1

7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇




答：2) ③ 𝑘 = 2

取样本𝑋′ = [1,−1]𝑇， 𝐾𝐴,2 𝑋′ = exp −2 > 0

因为𝑋′ ∈ 𝜔2，且𝐾𝐴,0 𝑋′ ≥ 0，

则𝐾𝐴,3 𝑋 = 𝐾𝐴,2 𝑋 − 𝐾 𝑋, 𝑋′ = exp − 𝑋 2 −exp − 𝑋 − [1,−1]𝑇 2 ，𝑁𝑐 = 0

④ 𝑘 = 3

取样本𝑋′ = [3, 0]𝑇， 𝐾𝐴,3 𝑋′ = exp −9 − exp −5 < 0

因为𝑋′ ∈ 𝜔2，且𝐾𝐴,1 𝑋′ < 0，

则𝐾𝐴,4 𝑋 = 𝐾𝐴,3 𝑋 = exp − 𝑋 2 −exp − 𝑋 − [1,−1]𝑇 2 ，𝑁𝑐 = 1

7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇




答：2) ⑤ 𝑘 = 4

取样本𝑋′ = [0, 0]𝑇， 𝐾𝐴,4 𝑋′ = 1 − exp −2 > 0

因为𝑋′ ∈ 𝜔1，且𝐾𝐴,4 𝑋′ > 0，


⑥ 𝑘 = 5

取样本𝑋′ = [1, 2]𝑇， 𝐾𝐴,5 𝑋′ = exp −5 − exp −9 > 0

因为𝑋′ ∈ 𝜔1，且𝐾𝐴,5 𝑋′ > 0，


7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇




答：2) ⑦ 𝑘 = 6

取样本𝑋′ = [1,−1]𝑇， 𝐾𝐴,6 𝑋′ = exp −2 − 1 < 0

因为𝑋′ ∈ 𝜔2，且𝐾𝐴,6 𝑋′ < 0，

则𝐾𝐴,7 𝑋 = 𝐾𝐴,6 𝑋 = exp − 𝑋 2 −exp − 𝑋 − [1,−1]𝑇 2 ，𝑁𝑐 = 4 ≥ 𝑁

得到基于位势函数的判别函数𝐾𝐴,7 𝑋 = exp − 𝑋 2 −exp − 𝑋 − [1,−1]𝑇 2

7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇




答：3)① 计算两个样本的均值向量：

𝑚𝑥1 =

1

𝑛1

𝑋𝑘∈𝜔1

𝑋𝑘 = [0.5, 1]𝑇

𝑚𝑥2 =

1

𝑛2

𝑋𝑘∈𝜔2

𝑋𝑘 = [2,−0.5]𝑇

② 计算类内总离散度矩阵：

𝑆𝑤 =

𝑋𝑘∈𝜔1

(𝑋𝑘 −𝑚𝑥1)(𝑋𝑘 −𝑚𝑥

1)𝑇 +

𝑋𝑘∈𝜔2

(𝑋𝑘 −𝑚𝑥2)(𝑋𝑘 −𝑚𝑥

2)𝑇

=0.5 11 2

+2 11 0.5

=2.5 22 2.5

7. 有两个模式类：𝜔1: 0,0𝑇 , 1, 2 𝑇 ; 𝜔2: 1, −1

𝑇 , 3, 0 𝑇




答：3)③ 计算𝑆𝑤的逆矩阵𝑆𝑤−1：

𝑆𝑤−1 =

10

9−8

9

−8

9

10

9

④ 最佳投影：𝑊∗ = 𝑆𝑤

−1 𝑚𝑥1 −𝑚𝑥

2

= [−3, 3]𝑇

类内总离散度矩阵刻画了投影后两类样本偏离各自均值的总的差异程度。

第二章习题解答 - ustchome.ustc.edu.cn/~hizhangp/pr/files/answer2.pdf第二章习题解答 ......

Documents