跨媒体数据挖掘和理解 · 2011. 5. 7. · 2011.5.7 2011/5/7 史忠植 ... tbox+actbox+abox...

INS

TIT

UTE

OF

CO

MP

UTIN

G T

EC

HN

OL

OG

Y

第四届中国数据挖掘学术会议

特邀报告

跨媒体数据挖掘和理解

史忠植

智能信息处理重点实验室中国科学院计算技术研究所

2011.5.7

2011/5/7 史忠植跨媒体数据挖掘和理解 1

INSTITUTE OF COMPUTING

TECHNOLOGY

致谢

973 国家重大基础研究计划

No.2007CB311004

国家自然科学基金项目No. 61035003



TECHNOLOGY


跨媒体语义关联

跨媒体语义理解

内容提要

引言

跨媒体语义分析

认知模型CAM

结束语


TECHNOLOGY


互联网发展路线图

Spivack 2008


TECHNOLOGY


Yebol（耶宝）搜索引擎


TECHNOLOGY

视频图像基于内容检索

图像数据

用户

预处理

特征提取索引/过滤

目标标识

特征提取

检索引擎

知识辅助

图像库特征库知识库

特征提取子系统查询子系统



TECHNOLOGY

视频图像基于语义检索

高

维

索

引

图像分割&特征提取

语义映射

原始图像

系统接口（图像检索、相关反馈）

全局&局部低层视觉特征

高层语义描述

先验知识

语义鸿沟

用

户



TECHNOLOGY


跨媒体挖掘


TECHNOLOGY




内容提要

引言


认知模型CAM

结束语


TECHNOLOGY


感知学习

Environment

Visual Learning

Audio Learning

Linguistic Learning

Intelligent Behavior

Perceptual Theories Perceptua

l Theories

Visual Learning

Linguistic Cognition

Audio Learning


TECHNOLOGY

2011/5/7 史忠植跨媒体数据挖掘和理解 11 2011/5/7 史忠植 11

视觉感知信息处理

视网膜特征整合

视觉皮层

高层认知（记忆、注意）

视觉信息（非结构化）

特征提取

一只虎

语义描述（结构化）

视觉感知信息处理流程


TECHNOLOGY


视觉感知认知过程


TECHNOLOGY

认知模型CAM

TBox+ActBox+ABox

CBR-based Event

Retrieval Model

Action Sequence

Assertion Formulas

ABox



TECHNOLOGY

情景记忆

Episodic Memory(情景记忆)

存储了具有上下文的长期信息。典型的情景记忆包括个体过去所经历的事件，如昨天看过的某场电影，或者上个暑假参加的某项旅游活动等。



TECHNOLOGY

情景记忆

信息存储

以记忆片段(episode)为存储单元,记忆片段包括了关于记忆的符号描述以及与符号关联的感知信息。我们以RDF graph形式对与记忆片段相关的对象，感知信息等进行描述，表示以及存储。

cue



TECHNOLOGY

16

重用REUSE propose solutions

from retrieved cases

修改REVISE adapt and repair

proposed solution

CBR

存储RETAIN integrate in

case-base

检索RETRIEVE find similar

problems

案例推理

2011/5/7 史忠植跨媒体数据挖掘和理解


TECHNOLOGY

内省学习

Monitoring

failure

Case retrieval and select

repair strategy

Diagnosis and

explaining failure

Supervised

protocol

Symptom

of failure

Lack of information

Reasons

of failure

Without

expectation failure

Ontology-based Knowledge base

Failure

ontology

Trace of

reasoning

Repair

suggestion

Reasons of

failure

Symptom of

failure

Penalty

function



TECHNOLOGY




内容提要

引言


心智模型CAM

结束语


TECHNOLOGY

视频图像处理的三层模型

视频图像处理中视觉信息的表示、低层特征分析、中层目标

识别以及高层语义分析等问题都还需要进一步研究。



TECHNOLOGY


视觉计算

Marr Vision Theory

图像基本要素图

2.5维要素图

3维模型

Hierarchy

Bottom Up

Gestalt Vision Theory

Whole

Top Down


TECHNOLOGY

2011/5/7 史忠植跨媒体数据挖掘和理解 21 2011/5/7 21

统计学习模型匹配

语义分析

认知机理

图像语义分析


TECHNOLOGY

22

视频图像语义标注

建模连续视觉特征的图像自动标注

混合生成式和判别式模型的图像自动标注

融合语义主题的图像自动标注

基于语义的图像多模态检索

PLSA 连续PLSA 多标记学习

关键技术

2011/5/7

图像语义分析

史忠植跨媒体数据挖掘和理解


TECHNOLOGY

图像词袋表示

…

v2 v3 v1

v4

…

区域检测

图像的词袋表示

特征提取向量量化

2011/5/7 23 史忠植跨媒体数据挖掘和理解


TECHNOLOGY

图像词袋表示



TECHNOLOGY

概率潜在语义分析PLSA

PLSA是Hofmann提出的最早的主题模型，它的初衷是为改进基于线性代数的方法LSA(latent semantic analysis)[DDF+90] 。PLSA提出了对文本

集进行主题建模的基本思想，可以将一个文本文档建模为若干潜在主题的混合，而每个主题都表示为一个词的多项分布。

PLSA的图模型表示如图(a)所示。使用PLSA模型可以将一个文档表示为一个对应于主题分布的K维向量，这等价于图(b)中所示的矩阵分解。

PLSA的模型参数是两个条件概率分布P(x|z)和P(z|d)，这两个参数都满足多项分布。可以通过EM算法或EM算法的不完全版本——folding-in算法来估计模型参数。

P(di) d z x

P(zk|di) P(xj|zk)

N M

=

x x

d d z

z

P(x|d) P(x|z)

P(z|d)

(a)

(b)



TECHNOLOGY

连续视觉特征的GM-PLSA

GM-PLSA（Gaussian-multinomial PLSA）根据不同模态数据各自的特点而对其分别进行处理，采用连续PLSA建模图像的视觉特征，采用标准的PLSA建模文本关键词，并通过共享相同的潜在主题分布进行关联。

每幅图像既可以视为视觉模态下的连续的高斯分量的混合，同时也可以视为在文本模态下的离散的关键词的混合。

由于GM-PLSA结合连续PLSA和标准PLSA建模图像训练集的视觉和文本信息，并采用不对称学习方法估计模型参数，故而能更准确地获取未知图像的语义信息。

李志欣, 施智平, 刘曦, 史忠植. 建模连续视觉特征的图像语义标注方法[J]. 计算机辅助设计与图形学学报.



TECHNOLOGY

GM-PLSA的标注算法

为了估计未知的模型参数，采用了不对称的学习算法，因为不对称学习算法能在潜在空间的定义中更好的控制各个模态的数据产生的影响。

该算法在给定的图像文档中首先选择文本模态的数据来估计各个主题的混合分布，然后再根据主题分布估计视觉数据的混合高斯分布。这使得潜在空间被限制在文本模态数据上并保持连续性，同时也保持关联视觉模态数据的能力。



TECHNOLOGY

tiger

rocks

…

连续PLSA建模

P(zk|di)

和 θk μk 和Σk

folding-in方法

文本关键词

视觉特征

测试图像

连续PLSA 建模

P(zk|dnew)

folding-in方法

计算P(w|dnew)

选择5个关键词

作为图像标注

标准PLSA建模

视觉特征

… …

… … 训练图像

GM-PLSA的学习和标注过程



TECHNOLOGY

多标签分类传统的单标记分类任务是将单一的标记l（来自于标记的有限集合L，|L| >

1）赋给一个示例x。一个单标记数据集D由n个训练样本(x1, l1), (x2, l2), …,

(xn, ln)组成。

多标记分类任务将一个标记子集Y ⊆ L赋给每一个示例。一个多标记数据集

D则由下面n个训练样本组成：(x1, Y1), (x2, Y 2), …, (xn, Y n)。

多标记学习的方法可分为两类：一类是“问题转化”，将学习任务转化为

一个或多个单标记分类任务；另一类是“算法改进”，直接对特定算法进

行改进以处理多标记数据。

BR(binary relevance)是一种流行的问题转化方法，它学习|L|个分类器，每

一个对应于L中的一个标记。



TECHNOLOGY

多标签分类性能评价指标

1. 汉明距离（HammingLoss）

2. 准确度、精确度、查全率（Accuracy,Precision,Recall）

3. microF1、macroF1测度

1 1

1 1

1 1

1 1

2* *

1

Q Q

i true pos i true posi i

Q Q

i pos i truei i

Q Q

i true pos i true posi i

Q Q

i pos i truei i

N N

N N

microN N

N N

F

1

211

Q j j

macro jj j

p rF

Q p r

i true pos

i

i pos

Np

N

i true pos

i

i true

Nr

N

Ni-true是测试集中标签li的正例个数，Ni-pos是标签li预测的正例个数，Ni-true-pos是对标签li预测中正确的正例个数

(10) (11)

其中 (12) (13)



TECHNOLOGY

基于全标注集的拓扑序标签链分类器方法

10(森林,forest)-23(老虎,tiger)-6(猫,cat)， 12(房子,house)-22(街道,street)-15(人,people)

Corel集上生成的标签链

MediaMill集上生成的标签链

7(人脸,face)-1(主持人,anchor)-20(分屏,split screen)， 8(政府大楼,government building)-

4(法庭,court)-25(暴力,violence)

所生的拓扑序标签链



TECHNOLOGY

基于全标注集的拓扑序标签链分类器方法

在Corel集和MediaMill集上与其他方法比较比较结果方法

数据集本文方法 ECC BR MLSSM

Corel5k

(25类)

microF1 46.72 43.29 35.69 47.08

macroF1 41.82 39.54 26.16 40.14

MediaMill

(25类)

microF1 39.56 37.28 33.49 40.72

macroF1 34.99 30.36 25.42 32.33 标签预测示意图



TECHNOLOGY

基于弱标注集的模型共享分类方法

该框架采用Boosting框架训练若干轮，在每一轮中训练一个关于某标

签的二类分类器，每一轮训练的标签分类器将根据标签之间的关联程度以对其他标签进行不同信任度的分类。

采用一种基于正例和无标注样例学习（Positive and Unlabeled data Learning, PU-learning）算法来训练二类分类器。 2011/5/7 史忠植跨媒体数据挖掘和理解 35


TECHNOLOGY


弱标注学习算法Roc-SVM

将未标定样本集U中所有样本视为负例，正样本集P中所有样本视为正例，初始化一个负例集RN = 𝛷。

由公式(22)和(23)分别计算正例和负例模板

按计算每个样本与正例和负例模板的相似度，如果与负例模板相似度更大，那么该样本认为是负样本,加入到RN中

如果|RN| > |P|，随机地从RN中删除|RN|-|P|个样本否则，随机地从P中删除|P|-|RN|个样本。

利用P和RN训练一个SVM分类器h

1 1

| | || || | | || ||x U x P

x xc

U x P x

1 1

| | || || | | || ||x P x U

x xc

P x U x

( , )|| || ||| |

x csim x c

x c

(22) (23)



TECHNOLOGY


目标函数

D={x1, x2, … , xn}是图像数据集，每幅图像是由d维向量表示且由一个二值向量yi=(yi1, yi2, … , yin)

T标注，其中 yik =1表明第i个样本有第k个标签，但是yik =0不能说明第i个样本不含有第k个标签

借助于LogitBoost和harmonic函数的思想，我们可以得出如下目标函数：

cos ( )t LL LU UUF F F F

1 1

1log(1 exp( ( ( ) ( ))))

LlL N t t

LL il l i l il iLl

F y H x h xN

L

1 1 1

1log(1 exp( ( ( ) ( ))))

l UlL N N t t

LU ij il l j l jl i jLl Ul

F S y H x h xN N

1 1 1

1 1log(1 exp( ( ( ) ( ) ( ) ( ))))

2

L Nu Nut t t t

UU ij l i l i l j l j

l i jUl Ul

F S H x h x H x h xN N

(18)

(19)

(20)

(21)



TECHNOLOGY


模型共享弱标注学习MSWL算法

21cos cos

2 0

( ) ( )[ ] | t

l

t tt t l t ll t t

l l

F F

( ( ) ( ))/21 1

( ( ) ( )) / 21 1

1

u u

l j l i

N Nj i

ij H x H xi jUl Ul

h x h xS

N N e

2

cos

( ) ( )( ) ( )2 01 1 1

( ) 1 1 1 1 1|

2 2

l l u

til l j il l jil l i il l il

N N Nt

t lij y H x y H xy H x y H xt

i i jl Ll Ll u

FS

N e e N N e e

2

( ( ) ( ))/2 ( ( ) ( ))/21 1

[( ( ) ( )) / 2]1 1

2

u u

l j l i l i l j

N Nj i

ij H x H x H x H xi ju u

h x h xS

N N e e

cos

( )( )01 1 1

( )( ) 1 ( ) 1 1|

1 1

l l u

til l jil l il

N N Ntil jt l il i

ij y H xy H xti i jl Ll Ll u

y h xF y h xS

N e N N e

Liu Xi, Li Zhixin, Shi Zhiping, Shi Zhongzhi. Model-shared weak learning for multi-label

images. 投稿到Journal of Visual Communication and Image Representation. 2011/5/7 史忠植跨媒体数据挖掘和理解 38


TECHNOLOGY


实验结果分析

数据集

COREL5K- 20个label 1500幅图像 MEDIAMILL – 20个label 1500幅图像

与其他方法比较

1）RS-BR方法 2）S-EM-BR方法3）ML-KNN方法 4）MLSSM方法

采用评价指标: microF1、macroF1

方法自动发掘的标签关联：

5-cat, 8-forest, 14-rock,18-tiger

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 4 5 6 7 8 9 1011121314151617181920

5-cat, 8-forest, 14-rock, 18-tiger 2011/5/7 史忠植跨媒体数据挖掘和理解 39


TECHNOLOGY


在Corel集上与其他方法比较

评价指

标

标定百

分比 p

方法

MSWL RS-BR S-EM-BR ML-KNN MLSSM

microF1

10% 0.208 0.233 0.188 0.110 0.083

20% 0.289 0.275 0.256 0.185 0.192

30% 0.334 0.310 0.309 0.246 0.208

40% 0.435 0.367 0.341 0.303 0.257

50% 0.485 0.410 0.407 0.353 0.327

macroF1

10% 0.192 0.194 0.167 0.071 0.064

20% 0.266 0.256 0.209 0.162 0.162

30% 0.301 0.244 0.233 0.199 0.186

40% 0.387 0.302 0.296 0.245 0.225

50% 0.422 0.341 0.332 0.324 0.305



TECHNOLOGY


在MediaMill集上与其他方法比较

评价指标标定百分

比 p

方法

MSWL RS-BR S-EM-BR ML-KNN MLSSM

microF1

10% 0.142 0.153 0.138 0.098 0.077

20% 0.224 0.215 0.214 0.142 0.168

30% 0.315 0.293 0.285 0.216 0.242

40% 0.365 0.311 0.317 0.268 0.287

50% 0.445 0.377 0.344 0.321 0.311

macroF1

10% 0.101 0.114 0.098 0.086 0.055

20% 0.179 0.176 0.173 0.128 0.133

30% 0.287 0.252 0.249 0.205 0.216

40% 0.348 0.292 0.288 0.266 0.256

50% 0.382 0.336 0.329 0.302 0.281



TECHNOLOGY

SSIM更适合评价图像质量

42 2011/5/7

原图像和各类与原图像之间MSE均为210的失真图像。（a）原图像；（b）对比拉伸后的失真图像，SSIM = 0.9168；（c）均值平移后的失真图像，SSIM = 0.9900；（d）JPEG压缩后的失真图像，SSIM = 0.6949；（e）图像模糊后的失真图像，SSIM = 0.7052；（f）添加椒盐噪声后的失真图像，SSIM = 0.7748。根据主观感知的结果，显然SSIM更加适合评价图像质量。史忠植跨媒体数据挖掘和理解


TECHNOLOGY

基于结构相似度的稀疏编码模型

引入结构相似度到稀疏编码模型中，使得重构图像块尽量保持原图像块的结构信息，提出了基于结构相似度的稀疏编码模型（SS_SC：Sparse Coding Model Based on Structural Similarity）。

43 2011/5/7

2

1 2 3

1 1

E , 1 ,N M

ii i

i i i

aA S I Y SSIM I Y S

2 1 2

1 2 32 2 2 21 11 2

2 2E , 1

N MI Y IY i

i i

i i iI Y I Y

C C aA S I Y S

C C

李志清, 施智平, 李志欣, 史忠植. 基于结构相似度的稀疏编码模型. 软件学报.(已录用) Zhiqing Li, Zhiping Shi, Xi Liu and Zhongzhi Shi. A Novel Sparse Coding Model Based On Structural

Similarity. The 35th IEEE International Conference on Acoustics, Speech, and Signal Processing, Dallas,

2010 (Accepted). 史忠植跨媒体数据挖掘和理解


TECHNOLOGY

模型推导

44 2011/5/7

21 22 23 2421 22

1 1 2 3 3

23 24 21 22 23 24

*E , *

*

i i i i

i i i

a a a a

a a a

B B B BB BA S B B

B B B B B B

, , , ,, ,

21 22 23 2421 221 1 2

23 24 21 22 23 24

*E , *

*

i j i j i j i j

i j i j

B B B BB BA S B

B B B B B B



TECHNOLOGY

优化学习算法

获取基函数集合的算法.

Step 1. 对训练数据集进行白化低通滤波预处理;随机初始化基函数矩阵A;

Step 2. 固定A,使用共轭梯度下降法和式(13)优化E(A, S),得到"响应"S;

Step 3. 固定S,使用简单梯度下降法和式(14)优化E(A, S),得到A;

Step 4. 若训练次数达到设定值,得到训练好的基函数矩阵A；否则,转入Step 2继续进行优化.

45 2011/5/7 史忠植跨媒体数据挖掘和理解


TECHNOLOGY

SS_SC的基函数

46 2011/5/7

SS_SC模型学习得到的144个基函数，它们具有与视皮层简单细胞类似的性质，表现为良好的位置选择性、方向选择性以及空间频率选择特性。



TECHNOLOGY

稀疏响应

47 2011/5/7

一个图像块的原始像素值和两种“响应”。无论是应用标准稀疏编码模型得到的“响应”，还是应用SS_SC模型得到的“响应”，都比图像块原始像素值的分布要稀疏得多。史忠植跨媒体数据挖掘和理解


TECHNOLOGY

模型性能比较

48 2011/5/7

注：SC指标准稀疏编码模型，SS_SC指基于结构相似度的稀疏编码模型；Avg_SSim表示平均结构相似度，Avg_Error表示平均误差平方和，Avg_Sparseness表示平均稀疏代价函数值。



TECHNOLOGY




内容提要

引言


心智模型CAM

结束语


TECHNOLOGY


典型相关性分析(Canonical Correlation Analysis．CCA是一种标准的统计分析方法，最早应用于经济学、医学和气象等领域，

CCA的核心思想是：寻找两个变量场X，Y对应的两组基向量Wx, Wy, 使得X，Y 在Wx, Wy上投影后的结果最大程度地保持与X，Y 之间的相关性一致。CCA方法已经

被应用到Web图像标注领域。

由于典型相关性分析是建立在两个不同变量场所对应矩阵的基础上，因此，同样也适用于对图像与音频、音频与文奉等跨媒体特征的相关性分析。

相关性分析


TECHNOLOGY

典型相关分析

设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yq)′是两组随机变量，且V(x)=Σ11(>0)，V(y)=Σ22(>0)，Cov(x, y)=Σ12，即有

其中Σ21=Σ12′。

研究u=a′x与v=b′y之间的相关关系，其中

a=(a1,a2,⋯,ap)′，b=(b1,b2,⋯,bq)′

现来计算一下u与v的相关系数。

Cov(u,v)=Cov(a′x,b′y)=a′Cov(x,y)b=a′Σ12b

V(u)=V(a′x)=a′V(x)a=a′Σ11a

V(v)=V(b′y)=b′V(y)b=b′Σ22b

11 12

21 22

V

Σ Σx

Σ Σy



TECHNOLOGY

u与v的相关系数

由于对任意非零常数k1和k2，有 ρ(k1u,k2v)=ρ(u,v)

因此，为避免不必要的结果重复，我们常常限定u与v均为标准化的变量，即附加约束条件

V(u)=1，V(v)=1 即

a′Σ11a=1，b′Σ22b=1 在此约束条件下，求a∈Rp和b∈Rq，使得

ρ(u,v)=a′Σ12b

达到最大。

12

11 22

,u v

a Σ b

a Σ a b Σ b

典型相关分析



TECHNOLOGY

11 12, ..., 1

21 22, ..., 2

......

1 2, ...,

,

,'

,

m

m

n n nm

x x x

x x xX

x x x

11 12, ..., 1

21 22, ..., 2

......

1 2, ...,

,

,'

,

m

m

n n nm

y y y

y y yY

y y y

输出：

11 12, ..., 1

21 22, ..., 2

......

1 2, ...,

,

,

,

p

p

n n np

x x x

x x xX

x x x

11 12, ......, 1

21 22, ......, 2

......

1 2, ......,

,

,

,

q

q

n n nq

y y y

y y yY

y y y

图像特征矩阵声音特征矩阵输入： npX nqY

X 与 Y 不同维数!

X 与 Y 相同维数!

跨媒体相关分析典

型相

关分

析



TECHNOLOGY

典型相关分析

张鸿，吴飞，庄越挺：跨媒体相关性推理与检索研究.计算机研究与发展，2008,45（5）：869-876



TECHNOLOGY

55


2011/5/7 史忠植跨媒体数据挖掘和理解


TECHNOLOGY

56 2011/5/7

高效稳定的链接分析算法

IPHITS

基于双重约束的非负矩阵分

解方法

基于突发检测的热点话题提取

主题生成

PHITS Link-PLSA 非负矩阵分解突发检测

融合链接文本的联合主题模

型

主题生成



TECHNOLOGY


跨媒体搜索引擎演示系统

基于信息粒度的专题组织与展示

基于概念语义空间的多媒体信息融合

开发了多媒体搜索引擎演示系统，有效地支持多媒体信息的理解与检索。

用户界面

输入关键词或语音

输入范例音、像特征分析

关键词检索

特征检索

图像视频库

Spider

文本网页

音像感知特征分析

语义索引

感知特征索引

概念语义分析语义相关

特征聚类

聚类结果或者多媒体专题

相关反馈：语义和感知特征

文本标注库

数据组织视觉特征库

数据组织音频特征库

数据组织

索引库


TECHNOLOGY




内容提要

引言


心智模型CAM

结束语


TECHNOLOGY


特征捆绑

• Scenes are broken down and

analyzed via many pathways, each

with different feature preference.

• How are these disparate features

bound into a single percept?

• How are different objects

distinguished?


TECHNOLOGY


特征抽取


TECHNOLOGY


脉冲耦合神经网络模型

w'1

w'2

w'm

…wn

w2

w1

+

P(f1)

*

…

P(lm)

P(l2)

P(l1)

P(fn)

P(f2)P(X)

Lin

kin

g

input

Feed

ing

input


TECHNOLOGY

特征捆绑计算模型自然界中的物体是由各种不同基本属性组成的，如颜色、大小、方位等，这些属性在大脑不同部位被加工。为了能够把物体知觉成一个整体而不仅是零散的特征，需要把散布于不同皮层区的属性信息合理地组合在一起，这就是所谓的“捆绑问题”。

Bayesian Linking Field模型是一种三层结构特征捆绑计算模型，自底向上分别为初级感受域层、中间特征连接层、输出层。每个神经元包括两部分输入：feeding输入和linking输入，输出由两部分输入耦合获得。

初级感受域层

…

中间特征链接层

同类神经元

… 输出层类1 类 2 类 m-1 类 m

… …

同类的神经元簇

… …

Bayesian Linking Field模型 2011/5/7 史忠植跨媒体数据挖掘和理解 62


TECHNOLOGY

基于特征捆绑计算模型的物体识别

初级特征选择

特征捆绑的实现

每维Gabor特征的贡献度：TotalConA(i)=0.2*KurA(i)+0.8*LinkConA(i)，

KurA是类A在各维Gabor特征下的峰度值，

计算出各维Gabor原始特征的贡献值并由大到小排序，选择前指定个数

（如20）为类A对应的特定维数的Gabor特征。

* ( )( )

* ( )

TotalNum NearMaxValASampleNum iLinkConA i

TotalNumA NearMaxValAAllSampleNum i

模型中所有的同类神经元组合构成同类神经元群，同类神经元之间相互连接，

非同类神经元之间以及输出层神经元之间相互竞争

底层神经元到中间层神经元的连接权值均设为1；中间层神经元有两种连接，

分别是来自于同类其他中间层神经元和相应输出神经元之间连接。

（1）



TECHNOLOGY

基于特征捆绑计算模型的物体识别

连接权值计算同类中间层神经元之间的连接权值由(2)计算，中间层神经元与输出神经元之

间连接权值由(3)计算。

* ( , ', ), '( )

( , ) * ( ', )

TotalNum NearMaxValSampleNum j j mWj j m

NearMaxValSampleNum j m NearMaxValSampleNum j m

* ( , ), ( )

* ( , )

TotalNum NearMaxValMSampleNum j mWj k m

TotalNumM NearMaxValSampleNum j m

（2）

（3）

))(

)"|"(log()"",(

OP

AXOPAXOMI

)log()"",(

ab

cNAXOMIwij

对象O的神经元为xi，语义特征“X = A”的神经元为xj，则由xj到xi的Feeding连接的连接权wij

c为O与“X = A”在训练集共同出现的次数, N为训练集样本总数, a为O在训练集中出现的次数，b为“X = A”在训练集中出现的次数



TECHNOLOGY

基于特征捆绑计算模型的物体识别物体识别模型建立

选择初级特征，确定模型所有神经元；同时由特征捆绑实现部分计算出神经元之间的连接权值。

初级感受域层神经元的feeding输入Pfi1(t) 为相应的Gabor特征值，该层神经元的输出由公式 (4)计算，

中间层神经元的feeding输入由 (5)计算,linking输入Plj2(t)是与其连接的同类其他神经元以及对应输出神经元的输出，这一层神经元输出 Pilayer1(t) 最后用 (6)计算求得；

输出层神经元的feeding输入Pfi3(t)是与其相连的中间层神经元的输出，它的输出由 (7)计算

模型输出层神经元的初始t=0时输出为1/m，模型中各神经元的输出将进行不断更新调整t=1,2,…，当整个过程收敛时,输出层中具有最大输出的神经元所表征的类别即为所识别的结果

1 1( ) ( )ilayer fiP t P t

2

2 2 1( ) exp( 1*( ( ) ) )fi i layerP t P t MaxVal

'

2 2 2 2 2

2 2

( ) ( ( ))( ( ))ilayer i fi j lji j

P t w P t w P t

3 3 3

3

( ) ( )ilayer i fii

P t w P t



TECHNOLOGY

实验结果分析 Caltech256物体识别

Caltech256数据库，6类，100幅图像训练，50幅图像测试

刘曦, 史忠植, 石志伟, 施智平. 一种基于特征捆绑计算模型的物体识别方法, 软件学报.

分类器

对应每类的

中间层神经元个数

平均识别精度

Feature Binding

Model SVM AdaBoost

20 78.7% 71.0% 73.0%

40 82.3% 77.7% 78.0%



TECHNOLOGY

2011/5/7 史忠植跨媒体数据挖掘和理解 67 史忠植

物体识别

分类器

(每类物体中

间层神经元个数)

平均正确识别率

Feature

Binding

Model

SVM

AdaBoost

20

78.7%

71.0%

73.0%

40

82.3%

77.7%

78.0%

软件学报

分类器

测试样本

人脸正确识别率

Feature Binding

Model

SVM AdaBoost

所有测试样本(1000幅) 83.0% 77.9% 81.1% 所有正面测试样本(200幅) 96.5% 87.5% 93%

所有非正面测试样本(800幅 79.6% 75.5% 78.1% 平均每幅图像所用时间(ms) 2.64 4.48 0.16


TECHNOLOGY

跨媒体检索系统框架

查询子系统

用户

图像集

视觉特征库

文本标注库

索引库

用户界面查询接口检索引擎

图像数据图像预处理

输入标签

搜索引擎

特征提取

弱标注集弱标注学习自动标注

自动获取物体图像

学习物体分类器

分类器标注

手动标注图像标注子系统

聚类索引特征提取子系统

全标注集生成/多标签建模自动标注



TECHNOLOGY

跨媒体检索系统框架

特征提取子系统

图像格式转换，图像的增强与去噪等图像预处理功能；图像自动分割算

法；多种图像视觉特征的提取算法及图像标注的预处理算法。

图像标注子系统

(1)基于全标注集自动标注，拓扑序标签链分类器或者PLSA

(2)基于弱标注集自动标注，基于弱标注集的模型共享分类方法

(3)基于图像搜索引擎返回结果的自动标注，基于外观及空域特

征的半监督物体识别方法

查询子系统

(1)基于图像范例查询 (2)基于标签查询 2011/5/7 史忠植跨媒体数据挖掘和理解 69


TECHNOLOGY

系统演示

基于图范例查询

抓取图区域基于图区域范例查询 2011/5/7 史忠植跨媒体数据挖掘和理解 70


TECHNOLOGY

系统演示

基于标签查询系统后台界面 2011/5/7 史忠植跨媒体数据挖掘和理解 71


TECHNOLOGY

2011/5/7 史忠植跨媒体数据挖掘和理解 72 2011/5/7 72

交通事故图像的理解

在CAM的基础上，提出一种图像理解模式。首先对图像（视

频）进行特征抽取和语义分析，在此基础上采用本体描述图

像（视频），然后通过基于案例推理或逻辑推理理解图像的

语义。

视频信息（非结构化）

语义分析语义理解语义描述

（结构化）

应急联动


TECHNOLOGY


图像语义表征

2011/5/7 73

基本RDF


TECHNOLOGY


图像语义表征

2011/5/7 74

我们将基本的RDF模型扩展为五元组

< S, P, O, NG, T>，

S表示主体(Subject)，

P表示谓词(Predicate)，

O表示客体（Object），

NG表示命名图（named graph）：标识RDF图中来

自不同数据源的节点。

T表示时间：根据Allen's Interval Algebra，

定义两个客体在不同时间段的关系。


TECHNOLOGY


展望

认知模型


跨媒体关联挖掘

跨媒体理解


TECHNOLOGY

Thank You

Intelligence Science

http://www.intsci.ac.cn/


跨媒体数据挖掘和理解 · 2011. 5. 7. · 2011.5.7 2011/5/7 史忠植 ... tbox+actbox+abox...

Documents