跨媒体数据挖掘和理解 · 2011. 5. 7. · 2011.5.7 2011/5/7 史忠植 ... tbox+actbox+abox...
TRANSCRIPT
-
INS
TIT
UTE
OF
CO
MP
UTIN
G T
EC
HN
OL
OG
Y
第四届中国数据挖掘学术会议
特邀报告
跨媒体数据挖掘和理解
史忠植
智能信息处理重点实验室 中国科学院计算技术研究所
2011.5.7
2011/5/7 史忠植 跨媒体数据挖掘和理解 1
-
INSTITUTE OF COMPUTING
TECHNOLOGY
致谢
973 国 家 重 大 基 础 研 究 计 划
No.2007CB311004
国家自然科学基金项目No. 61035003
2011/5/7 史忠植 跨媒体数据挖掘和理解 2
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 3
跨媒体语义关联
跨媒体语义理解
内容提要
引言
跨媒体语义分析
认知模型CAM
结束语
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 4
互联网发展路线图
Spivack 2008
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 5
Yebol(耶宝)搜索引擎
-
INSTITUTE OF COMPUTING
TECHNOLOGY
视频图像基于内容检索
图像数据
用户
预处理
特征提取 索引/过滤
目标标识
特征提取
检索引擎
知识辅助
图像库 特征库 知识库
特征提取子系统 查询子系统
2011/5/7 史忠植 跨媒体数据挖掘和理解 6
-
INSTITUTE OF COMPUTING
TECHNOLOGY
视频图像基于语义检索
高
维
索
引
图像分割&特征提取
语义映射
原始图像
系统接口(图像检索、相关反馈)
全局&局部 低层视觉特征
高层语义描述
先验知识
语义鸿沟
用
户
2011/5/7 史忠植 跨媒体数据挖掘和理解 7
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 8
跨媒体挖掘
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 9
跨媒体语义关联
跨媒体语义理解
内容提要
引言
跨媒体语义分析
认知模型CAM
结束语
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 10
感知学习
Environment
Visual Learning
Audio Learning
Linguistic Learning
Intelligent Behavior
Perceptual Theories Perceptua
l Theories
Visual Learning
Linguistic Cognition
Audio Learning
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 11 2011/5/7 史忠植 11
视觉感知信息处理
视网膜 特征整合
视觉皮层
高层认知(记忆、注意)
视觉信息 (非结构化)
特征提取
一只虎
语义描述(结构化)
视觉感知信息处理流程
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 12
视觉感知认知过程
-
INSTITUTE OF COMPUTING
TECHNOLOGY
认知模型CAM
TBox+ActBox+ABox
CBR-based Event
Retrieval Model
Action Sequence
Assertion Formulas
ABox
2011/5/7 史忠植 跨媒体数据挖掘和理解 13
-
INSTITUTE OF COMPUTING
TECHNOLOGY
情景记忆
Episodic Memory(情景记忆)
存储了具有上下文的长期信息。典型的情景记忆包括个体过去所经历的事件,如昨天看过的某场电影,或者上个暑假参加的某项旅游活动等。
2011/5/7 史忠植 跨媒体数据挖掘和理解 14
-
INSTITUTE OF COMPUTING
TECHNOLOGY
情景记忆
信息存储
以记忆片段(episode)为存储单元,记忆片段包括了关于记忆的符号描述以及与符号关联的感知信息。我们以RDF graph形式对与记忆片段相关的对象,感知信息等进行描述,表示以及存储。
cue
2011/5/7 史忠植 跨媒体数据挖掘和理解 15
-
INSTITUTE OF COMPUTING
TECHNOLOGY
16
重用REUSE propose solutions
from retrieved cases
修改REVISE adapt and repair
proposed solution
CBR
存储RETAIN integrate in
case-base
检索RETRIEVE find similar
problems
案例推理
2011/5/7 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
内省学习
Monitoring
failure
Case retrieval and select
repair strategy
Diagnosis and
explaining failure
Supervised
protocol
Symptom
of failure
Lack of information
Reasons
of failure
Without
expectation failure
Ontology-based Knowledge base
Failure
ontology
Trace of
reasoning
Repair
suggestion
Reasons of
failure
Symptom of
failure
Penalty
function
2011/5/7 史忠植 跨媒体数据挖掘和理解 17
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 18
跨媒体语义关联
跨媒体语义理解
内容提要
引言
跨媒体语义分析
心智模型CAM
结束语
-
INSTITUTE OF COMPUTING
TECHNOLOGY
视频图像处理的三层模型
视频图像处理中视觉信息的表示、低层特征分析、中层目标
识别以及高层语义分析等问题都还需要进一步研究。
2011/5/7 史忠植 跨媒体数据挖掘和理解 19
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 20
视觉计算
Marr Vision Theory
图像 基本要素图
2.5维要素图
3维模型
Hierarchy
Bottom Up
Gestalt Vision Theory
Whole
Top Down
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 21 2011/5/7 21
统计学习 模型匹配
语义分析
认知机理
图像语义分析
-
INSTITUTE OF COMPUTING
TECHNOLOGY
22
视频图像语义标注
建模连续视觉特征的图像自动标注
混合生成式和判别式模型的图像自动标注
融合语义主题的图像自动标注
基于语义的图像多模态检索
PLSA 连续PLSA 多标记学习
关键技术
2011/5/7
图像语义分析
史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
图像词袋表示
…
v2 v3 v1
v4
…
区域检测
图像的词袋表示
特征提取 向量量化
2011/5/7 23 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
图像词袋表示
2011/5/7 24 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
概率潜在语义分析PLSA
PLSA是Hofmann提出的最早的主题模型,它的初衷是为改进基于线性代数的方法LSA(latent semantic analysis)[DDF+90] 。PLSA提出了对文本
集进行主题建模的基本思想,可以将一个文本文档建模为若干潜在主题的混合,而每个主题都表示为一个词的多项分布。
PLSA的图模型表示如图(a)所示。使用PLSA模型可以将一个文档表示为一个对应于主题分布的K维向量,这等价于图(b)中所示的矩阵分解。
PLSA的模型参数是两个条件概率分布P(x|z)和P(z|d),这两个参数都满足多项分布。可以通过EM算法或EM算法的不完全版本——folding-in算法来估计模型参数。
P(di) d z x
P(zk|di) P(xj|zk)
N M
=
x x
d d z
z
P(x|d) P(x|z)
P(z|d)
(a)
(b)
2011/5/7 25 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
概率潜在语义分析PLSA
使用PLSA进行图像自动标注的基本原理是:
首先学习训练集中各个图像的主题分布P(z|d);
然后依据这个参数进一步学习视觉词和文本词在给定各个语义主题下的分布P(v|z)和P(w|z)。由PLSA的条件独立假设,这两个分布独立于具体的训练图像,对于训练集之外的图像也是有效的。
于是,给定一幅未知图像dnew,可以依据自动获取的视觉词表示v(dnew)和训练得到的参数P(v|z),使用folding-in算法计算该图像的主题分布P(z|dnew),从而计算概率P(w|dnew)并经过排序得到对应的标注关键词集合。
2011/5/7 26 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
连续视觉特征的GM-PLSA
GM-PLSA(Gaussian-multinomial PLSA)根据不同模态数据各自的特点而对其分别进行处理,采用连续PLSA建模图像的视觉特征,采用标准的PLSA建模文本关键词,并通过共享相同的潜在主题分布进行关联。
每幅图像既可以视为视觉模态下的连续的高斯分量的混合,同时也可以视为在文本模态下的离散的关键词的混合。
由于GM-PLSA结合连续PLSA和标准PLSA建模图像训练集的视觉和文本信息,并采用不对称学习方法估计模型参数,故而能更准确地获取未知图像的语义信息。
李志欣, 施智平, 刘曦, 史忠植. 建模连续视觉特征的图像语义标注方法[J]. 计算机辅助设计与图形学学报.
2011/5/7 27 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
GM-PLSA的图模型表示
GM-PLSA可用下列的生成式过程描述: 以概率P(di)选择一个文档di; 在给定文档di的条件下,以概率P(zk|di)采样满足多项
分布的潜在主题zk; 在给定潜在主题zk的条件下,以多项分布Mult(x|θk)采
样各个文本关键词wm; 在给定潜在主题zk的条件下,以高斯分布N(x|μk,Σk)采
样各个视觉特征向量fn。
d z
f
P(zk|di)
P(wm|zk)
P(di)
μk
Σk
w θk
P(fn|zk)
D K
K
2011/5/7 28 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
GM-PLSA的标注算法
为了估计未知的模型参数,采用了不对称的学习算法,因为不对称学习算法能在潜在空间的定义中更好的控制各个模态的数据产生的影响。
该算法在给定的图像文档中首先选择文本模态的数据来估计各个主题的混合分布,然后再根据主题分布估计视觉数据的混合高斯分布。这使得潜在空间被限制在文本模态数据上并保持连续性,同时也保持关联视觉模态数据的能力。
2011/5/7 29 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
tiger
rocks
…
连续PLSA建模
P(zk|di)
和 θk μk 和Σk
folding-in方法
文本关键词
视觉特征
测试图像
连续PLSA 建模
P(zk|dnew)
folding-in方法
计算P(w|dnew)
选择5个关键词
作为图像标注
标准PLSA建模
视觉特征
… …
… … 训练图像
GM-PLSA的学习和标注过程
2011/5/7 30 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
多标签分类 传统的单标记分类任务是将单一的标记l(来自于标记的有限集合L,|L| >
1)赋给一个示例x。一个单标记数据集D由n个训练样本(x1, l1), (x2, l2), …,
(xn, ln)组成。
多标记分类任务将一个标记子集Y ⊆ L赋给每一个示例。一个多标记数据集
D则由下面n个训练样本组成:(x1, Y1), (x2, Y 2), …, (xn, Y n)。
多标记学习的方法可分为两类:一类是“问题转化”,将学习任务转化为
一个或多个单标记分类任务 ;另一类是“算法改进”,直接对特定算法进
行改进以处理多标记数据。
BR(binary relevance)是一种流行的问题转化方法,它学习|L|个分类器,每
一个对应于L中的一个标记。
2011/5/7 史忠植 跨媒体数据挖掘和理解 31
-
INSTITUTE OF COMPUTING
TECHNOLOGY
多标签分类 性能评价指标
1. 汉明距离(HammingLoss)
2. 准确度、精确度、查全率(Accuracy,Precision,Recall)
3. microF1、macroF1测度
1 1
1 1
1 1
1 1
2* *
1
Q Q
i true pos i true posi i
Q Q
i pos i truei i
Q Q
i true pos i true posi i
Q Q
i pos i truei i
N N
N N
microN N
N N
F
1
211
Q j j
macro jj j
p rF
Q p r
i true pos
i
i pos
Np
N
i true pos
i
i true
Nr
N
Ni-true是测试集中标签li的正例个数,Ni-pos是标签li预测的正例个数,Ni-true-pos是对标签li预测中正确的正例个数
(10) (11)
其中 (12) (13)
2011/5/7 史忠植 跨媒体数据挖掘和理解 32
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于全标注集的拓扑序标签链分类器方法
10(森林,forest)-23(老虎,tiger)-6(猫,cat), 12(房子,house)-22(街道,street)-15(人,people)
Corel集上生成的标签链
MediaMill集上生成的标签链
7(人脸,face)-1(主持人,anchor)-20(分屏,split screen), 8(政府大楼,government building)-
4(法庭,court)-25(暴力,violence)
所生的拓扑序标签链
2011/5/7 史忠植 跨媒体数据挖掘和理解 33
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于全标注集的拓扑序标签链分类器方法
在Corel集和MediaMill集上与其他方法比较 比较结果 方法
数据集 本文方法 ECC BR MLSSM
Corel5k
(25类)
microF1 46.72 43.29 35.69 47.08
macroF1 41.82 39.54 26.16 40.14
MediaMill
(25类)
microF1 39.56 37.28 33.49 40.72
macroF1 34.99 30.36 25.42 32.33 标签预测示意图
2011/5/7 史忠植 跨媒体数据挖掘和理解 34
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于弱标注集的模型共享分类方法
该框架采用Boosting框架训练若干轮,在每一轮中训练一个关于某标
签的二类分类器,每一轮训练的标签分类器将根据标签之间的关联程度以对其他标签进行不同信任度的分类。
采用一种基于正例和无标注样例学习(Positive and Unlabeled data Learning, PU-learning)算法来训练二类分类器。 2011/5/7 史忠植 跨媒体数据挖掘和理解 35
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于弱标注集的模型共享分类方法
弱标注学习算法Roc-SVM
将未标定样本集U中所有样本视为负例,正样本集P中所有样本视为正例,初始化一个负例集RN = 𝛷。
由公式(22)和(23)分别计算正例和负例模板
按 计算每个样本与正例和负例模板的相似度,如果与负例模板相似度更大,那么该样本认为是负样本,加入到RN中
如果|RN| > |P|, 随机地从RN中删除|RN|-|P|个样本 否则, 随机地从P中删除|P|-|RN|个样本。
利用P和RN训练一个SVM分类器h
1 1
| | || || | | || ||x U x P
x xc
U x P x
1 1
| | || || | | || ||x P x U
x xc
P x U x
( , )|| || ||| |
x csim x c
x c
(22) (23)
2011/5/7 史忠植 跨媒体数据挖掘和理解 36
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于弱标注集的模型共享分类方法
目标函数
D={x1, x2, … , xn}是图像数据集,每幅图像是由d维向量表示且由一个二值向量yi=(yi1, yi2, … , yin)
T标注,其中 yik =1表明第i个样本有第k个标签,但是yik =0不能说明第i个样本不含有第k个标签
借助于LogitBoost和harmonic函数的思想,我们可以得出如下目标函数:
cos ( )t LL LU UUF F F F
1 1
1log(1 exp( ( ( ) ( ))))
LlL N t t
LL il l i l il iLl
F y H x h xN
L
1 1 1
1log(1 exp( ( ( ) ( ))))
l UlL N N t t
LU ij il l j l jl i jLl Ul
F S y H x h xN N
1 1 1
1 1log(1 exp( ( ( ) ( ) ( ) ( ))))
2
L Nu Nut t t t
UU ij l i l i l j l j
l i jUl Ul
F S H x h x H x h xN N
(18)
(19)
(20)
(21)
2011/5/7 史忠植 跨媒体数据挖掘和理解 37
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于弱标注集的模型共享分类方法
模型共享弱标注学习MSWL算法
21cos cos
2 0
( ) ( )[ ] | t
l
t tt t l t ll t t
l l
F F
( ( ) ( ))/21 1
( ( ) ( )) / 21 1
1
u u
l j l i
N Nj i
ij H x H xi jUl Ul
h x h xS
N N e
2
cos
( ) ( )( ) ( )2 01 1 1
( ) 1 1 1 1 1|
2 2
l l u
til l j il l jil l i il l il
N N Nt
t lij y H x y H xy H x y H xt
i i jl Ll Ll u
FS
N e e N N e e
2
( ( ) ( ))/2 ( ( ) ( ))/21 1
[( ( ) ( )) / 2]1 1
2
u u
l j l i l i l j
N Nj i
ij H x H x H x H xi ju u
h x h xS
N N e e
cos
( )( )01 1 1
( )( ) 1 ( ) 1 1|
1 1
l l u
til l jil l il
N N Ntil jt l il i
ij y H xy H xti i jl Ll Ll u
y h xF y h xS
N e N N e
Liu Xi, Li Zhixin, Shi Zhiping, Shi Zhongzhi. Model-shared weak learning for multi-label
images. 投稿到Journal of Visual Communication and Image Representation. 2011/5/7 史忠植 跨媒体数据挖掘和理解 38
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于弱标注集的模型共享分类方法
实验结果分析
数据集
COREL5K- 20个label 1500幅图像 MEDIAMILL – 20个label 1500幅图像
与其他方法比较
1)RS-BR方法 2)S-EM-BR方法3)ML-KNN方法 4)MLSSM方法
采用评价指标: microF1、macroF1
方法自动发掘的标签关联:
5-cat, 8-forest, 14-rock,18-tiger
0
0.05
0.1
0.15
0.2
0.25
0.3
1 2 3 4 5 6 7 8 9 1011121314151617181920
5-cat, 8-forest, 14-rock, 18-tiger 2011/5/7 史忠植 跨媒体数据挖掘和理解 39
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于弱标注集的模型共享分类方法
在Corel集上与其他方法比较
评价指
标
标定百
分比 p
方法
MSWL RS-BR S-EM-BR ML-KNN MLSSM
microF1
10% 0.208 0.233 0.188 0.110 0.083
20% 0.289 0.275 0.256 0.185 0.192
30% 0.334 0.310 0.309 0.246 0.208
40% 0.435 0.367 0.341 0.303 0.257
50% 0.485 0.410 0.407 0.353 0.327
macroF1
10% 0.192 0.194 0.167 0.071 0.064
20% 0.266 0.256 0.209 0.162 0.162
30% 0.301 0.244 0.233 0.199 0.186
40% 0.387 0.302 0.296 0.245 0.225
50% 0.422 0.341 0.332 0.324 0.305
2011/5/7 史忠植 跨媒体数据挖掘和理解 40
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于弱标注集的模型共享分类方法
在MediaMill集上与其他方法比较
评价指标 标定百分
比 p
方法
MSWL RS-BR S-EM-BR ML-KNN MLSSM
microF1
10% 0.142 0.153 0.138 0.098 0.077
20% 0.224 0.215 0.214 0.142 0.168
30% 0.315 0.293 0.285 0.216 0.242
40% 0.365 0.311 0.317 0.268 0.287
50% 0.445 0.377 0.344 0.321 0.311
macroF1
10% 0.101 0.114 0.098 0.086 0.055
20% 0.179 0.176 0.173 0.128 0.133
30% 0.287 0.252 0.249 0.205 0.216
40% 0.348 0.292 0.288 0.266 0.256
50% 0.382 0.336 0.329 0.302 0.281
2011/5/7 史忠植 跨媒体数据挖掘和理解 41
-
INSTITUTE OF COMPUTING
TECHNOLOGY
SSIM更适合评价图像质量
42 2011/5/7
原图像和各类与原图像之间MSE均为210的失真图像。(a)原图像;(b)对比拉伸后的失真图像,SSIM = 0.9168;(c)均值平移后的失真图像,SSIM = 0.9900;(d)JPEG压缩后的失真图像,SSIM = 0.6949;(e)图像模糊后的失真图像,SSIM = 0.7052;(f)添加椒盐噪声后的失真图像,SSIM = 0.7748。根据主观感知的结果,显然SSIM更加适合评价图像质量。 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于结构相似度的稀疏编码模型
引入结构相似度到稀疏编码模型中,使得重构图像块尽量保持原图像块的结构信息,提出了基于结构相似度的稀疏编码模型(SS_SC:Sparse Coding Model Based on Structural Similarity)。
43 2011/5/7
2
1 2 3
1 1
E , 1 ,N M
ii i
i i i
aA S I Y SSIM I Y S
2 1 2
1 2 32 2 2 21 11 2
2 2E , 1
N MI Y IY i
i i
i i iI Y I Y
C C aA S I Y S
C C
李志清, 施智平, 李志欣, 史忠植. 基于结构相似度的稀疏编码模型. 软件学报.(已录用) Zhiqing Li, Zhiping Shi, Xi Liu and Zhongzhi Shi. A Novel Sparse Coding Model Based On Structural
Similarity. The 35th IEEE International Conference on Acoustics, Speech, and Signal Processing, Dallas,
2010 (Accepted). 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
模型推导
44 2011/5/7
21 22 23 2421 22
1 1 2 3 3
23 24 21 22 23 24
*E , *
*
i i i i
i i i
a a a a
a a a
B B B BB BA S B B
B B B B B B
, , , ,, ,
21 22 23 2421 221 1 2
23 24 21 22 23 24
*E , *
*
i j i j i j i j
i j i j
B B B BB BA S B
B B B B B B
史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
优化学习算法
获取基函数集合的算法.
Step 1. 对训练数据集进行白化低通滤波预处理;随机初始化基函数矩阵A;
Step 2. 固定A,使用共轭梯度下降法和式(13)优化E(A, S),得到"响应"S;
Step 3. 固定S,使用简单梯度下降法和式(14)优化E(A, S),得到A;
Step 4. 若训练次数达到设定值,得到训练好的基函数矩阵A;否则,转入Step 2继续进行优化.
45 2011/5/7 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
SS_SC的基函数
46 2011/5/7
SS_SC模型学习得到的144个基函数,它们具有与视皮层简单细胞类似的性质,表现为良好的位置选择性、方向选择性以及空间频率选择特性。
史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
稀疏响应
47 2011/5/7
一个图像块的原始像素值和两种“响应”。无论是应用标准稀疏编码模型得到的“响应”,还是应用SS_SC模型得到的“响应”,都比图像块原始像素值的分布要稀疏得多。 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
模型性能比较
48 2011/5/7
注:SC指标准稀疏编码模型,SS_SC指基于结构相似度的稀疏编码模型;Avg_SSim表示平均结构相似度,Avg_Error表示平均误差平方和,Avg_Sparseness表示平均稀疏代价函数值。
史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 49
跨媒体语义关联
跨媒体语义理解
内容提要
引言
跨媒体语义分析
心智模型CAM
结束语
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 50
典型相关性分析(Canonical Correlation Analysis.CCA是一种标准的统计分析方法,最早应用于经济学、医学和气象等领域,
CCA的核心思想是:寻找两个变量场X,Y对应的两组基向量Wx, Wy, 使得X,Y 在Wx, Wy上投影后的结果最大程度地保持与X,Y 之间的相关性一致。CCA方法已经
被应用到Web图像标注领域。
由于典型相关性分析是建立在两个不同变量场所对应矩阵的基础上,因此,同样也适用于对图像与音频、音频与文奉等跨媒体特征的相关性分析。
相关性分析
-
INSTITUTE OF COMPUTING
TECHNOLOGY
典型相关分析
设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yq)′是两组随机变量,且V(x)=Σ11(>0),V(y)=Σ22(>0),Cov(x, y)=Σ12,即有
其中Σ21=Σ12′。
研究u=a′x与v=b′y之间的相关关系,其中
a=(a1,a2,⋯,ap)′,b=(b1,b2,⋯,bq)′
现来计算一下u与v的相关系数。
Cov(u,v)=Cov(a′x,b′y)=a′Cov(x,y)b=a′Σ12b
V(u)=V(a′x)=a′V(x)a=a′Σ11a
V(v)=V(b′y)=b′V(y)b=b′Σ22b
11 12
21 22
V
Σ Σx
Σ Σy
2011/5/7 史忠植 跨媒体数据挖掘和理解 51
-
INSTITUTE OF COMPUTING
TECHNOLOGY
u与v的相关系数
由于对任意非零常数k1和k2,有 ρ(k1u,k2v)=ρ(u,v)
因此,为避免不必要的结果重复,我们常常限定u与v均为标准化的变量,即附加约束条件
V(u)=1,V(v)=1 即
a′Σ11a=1,b′Σ22b=1 在此约束条件下,求a∈Rp和b∈Rq,使得
ρ(u,v)=a′Σ12b
达到最大。
12
11 22
,u v
a Σ b
a Σ a b Σ b
典型相关分析
2011/5/7 史忠植 跨媒体数据挖掘和理解 52
-
INSTITUTE OF COMPUTING
TECHNOLOGY
11 12, ..., 1
21 22, ..., 2
......
1 2, ...,
,
,'
,
m
m
n n nm
x x x
x x xX
x x x
11 12, ..., 1
21 22, ..., 2
......
1 2, ...,
,
,'
,
m
m
n n nm
y y y
y y yY
y y y
输出:
11 12, ..., 1
21 22, ..., 2
......
1 2, ...,
,
,
,
p
p
n n np
x x x
x x xX
x x x
11 12, ......, 1
21 22, ......, 2
......
1 2, ......,
,
,
,
q
q
n n nq
y y y
y y yY
y y y
图像特征矩阵 声音特征矩阵 输入: npX nqY
X 与 Y 不同维数!
X 与 Y 相同维数!
跨媒体相关分析 典
型相
关分
析
2011/5/7 史忠植 跨媒体数据挖掘和理解 53
-
INSTITUTE OF COMPUTING
TECHNOLOGY
典型相关分析
张鸿,吴飞,庄越挺:跨媒体相关性推理与检索研究.计算机研究与发展,2008,45(5):869-876
2011/5/7 史忠植 跨媒体数据挖掘和理解 54
-
INSTITUTE OF COMPUTING
TECHNOLOGY
55
跨媒体语义关联
2011/5/7 史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
56 2011/5/7
高效稳定的链接分析算法
IPHITS
基于双重约束的非负矩阵分
解方法
基于突发检测的热点话题提取
主题生成
PHITS Link-PLSA 非负矩阵分解 突发检测
融合链接文本的联合主题模
型
主题生成
史忠植 跨媒体数据挖掘和理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 57
跨媒体搜索引擎演示系统
基于信息粒度的专题组织与展示
基于概念语义空间的多媒体信息融合
开发了多媒体搜索引擎演示系统,有效地支持多媒体信息的理解与检索。
用户 界面
输入关键词或语音
输入范例音、像 特征分析
关键词检索
特征检索
图像视频库
Spider
文本网页
音 像 感知特征分析
语义索引
感知特征索引
概念语义分析 语义相关
特征聚类
聚类结果 或者多媒体专题
相关反馈:语义和感知特征
文本标注库
数据组织 视觉特征库
数据组织 音频特征库
数据组织
索引库
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 58
跨媒体语义关联
跨媒体语义理解
内容提要
引言
跨媒体语义分析
心智模型CAM
结束语
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 59
特征捆绑
• Scenes are broken down and
analyzed via many pathways, each
with different feature preference.
• How are these disparate features
bound into a single percept?
• How are different objects
distinguished?
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 60
特征抽取
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 61
脉冲耦合神经网络模型
w'1
w'2
w'm
…wn
w2
w1
+
P(f1)
*
…
P(lm)
P(l2)
P(l1)
P(fn)
P(f2)P(X)
Lin
kin
g
input
Feed
ing
input
-
INSTITUTE OF COMPUTING
TECHNOLOGY
特征捆绑计算模型 自然界中的物体是由各种不同基本属性组成的,如颜色、大小、方位等,这些属性在大脑不同部位被加工。为了能够把物体知觉成一个整体而不仅是零散的特征,需要把散布于不同皮层区的属性信息合理地组合在一起,这就是所谓的“捆绑问题”。
Bayesian Linking Field模型是一种三层结构特征捆绑计算模型,自底向上分别为初级感受域层、中间特征连接层、输出层。每个神经元包括两部分输入:feeding输入和linking输入,输出由两部分输入耦合获得。
初级感受域层
…
中间特征链接层
同类神经元
… 输出层 类1 类 2 类 m-1 类 m
… …
同类的神经元簇
… …
Bayesian Linking Field模型 2011/5/7 史忠植 跨媒体数据挖掘和理解 62
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于特征捆绑计算模型的物体识别
初级特征选择
特征捆绑的实现
每维Gabor特征的贡献度:TotalConA(i)=0.2*KurA(i)+0.8*LinkConA(i),
KurA是类A在各维Gabor特征下的峰度值,
计算出各维Gabor原始特征的贡献值并由大到小排序,选择前指定个数
(如20)为类A对应的特定维数的Gabor特征。
* ( )( )
* ( )
TotalNum NearMaxValASampleNum iLinkConA i
TotalNumA NearMaxValAAllSampleNum i
模型中所有的同类神经元组合构成同类神经元群,同类神经元之间相互连接,
非同类神经元之间以及输出层神经元之间相互竞争
底层神经元到中间层神经元的连接权值均设为1;中间层神经元有两种连接,
分别是来自于同类其他中间层神经元和相应输出神经元之间连接。
(1)
2011/5/7 史忠植 跨媒体数据挖掘和理解 63
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于特征捆绑计算模型的物体识别
连接权值计算 同类中间层神经元之间的连接权值由(2)计算,中间层神经元与输出神经元之
间连接权值由(3)计算。
* ( , ', ), '( )
( , ) * ( ', )
TotalNum NearMaxValSampleNum j j mWj j m
NearMaxValSampleNum j m NearMaxValSampleNum j m
* ( , ), ( )
* ( , )
TotalNum NearMaxValMSampleNum j mWj k m
TotalNumM NearMaxValSampleNum j m
(2)
(3)
))(
)"|"(log()"",(
OP
AXOPAXOMI
)log()"",(
ab
cNAXOMIwij
对象O的神经元为xi,语义特征“X = A”的神经元为xj,则由xj到xi的Feeding连接的连接权wij
c为O与“X = A”在训练集共同出现的次数, N为训练集样本总数, a为O在训练集中出现的次数,b为“X = A”在训练集中出现的次数
2011/5/7 史忠植 跨媒体数据挖掘和理解 64
-
INSTITUTE OF COMPUTING
TECHNOLOGY
基于特征捆绑计算模型的物体识别 物体识别模型建立
选择初级特征,确定模型所有神经元;同时由特征捆绑实现部分计算出神经元之间的连接权值。
初级感受域层神经元的feeding输入Pfi1(t) 为相应的Gabor特征值, 该层神经元的输出由公式 (4)计算,
中间层神经元的feeding输入由 (5)计算,linking输入Plj2(t)是与其连接的同类其他神经元以及对应输出神经元的输出,这一层神经元输出 Pilayer1(t) 最后用 (6)计算求得;
输出层神经元的feeding输入Pfi3(t)是与其相连的中间层神经元的输出, 它的输出由 (7)计算
模型输出层神经元的初始t=0时输出为1/m,模型中各神经元的输出将进行不断更新调整t=1,2,…,当整个过程收敛时,输出层中具有最大输出的神经元所表征的类别即为所识别的结果
1 1( ) ( )ilayer fiP t P t
2
2 2 1( ) exp( 1*( ( ) ) )fi i layerP t P t MaxVal
'
2 2 2 2 2
2 2
( ) ( ( ))( ( ))ilayer i fi j lji j
P t w P t w P t
3 3 3
3
( ) ( )ilayer i fii
P t w P t
2011/5/7 史忠植 跨媒体数据挖掘和理解 65
-
INSTITUTE OF COMPUTING
TECHNOLOGY
实验结果分析 Caltech256物体识别
Caltech256数据库,6类,100幅图像训练,50幅图像测试
刘曦, 史忠植, 石志伟, 施智平. 一种基于特征捆绑计算模型的物体识别方法, 软件学报.
分类器
对应每类的
中间层神经元个数
平均识别精度
Feature Binding
Model SVM AdaBoost
20 78.7% 71.0% 73.0%
40 82.3% 77.7% 78.0%
2011/5/7 史忠植 跨媒体数据挖掘和理解 66
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 67 史忠植
物体识别
分类器
(每类物体中
间层神经元个数)
平均正确识别率
Feature
Binding
Model
SVM
AdaBoost
20
78.7%
71.0%
73.0%
40
82.3%
77.7%
78.0%
软件学报
分类器
测试样本
人脸正确识别率
Feature Binding
Model
SVM AdaBoost
所有测试样本(1000幅) 83.0% 77.9% 81.1% 所有正面测试样本(200幅) 96.5% 87.5% 93%
所有非正面测试样本(800幅 79.6% 75.5% 78.1% 平均每幅图像所用时间(ms) 2.64 4.48 0.16
-
INSTITUTE OF COMPUTING
TECHNOLOGY
跨媒体检索系统框架
查询子系统
用户
图像集
视觉特征库
文本标注库
索引库
用户界面 查询接口 检索引擎
图像数据 图像预处理
输入标签
搜索引擎
特征提取
弱标注集 弱标注学习 自动标注
自动获取物体图像
学习物体分类器
分类器标注
手动标注 图像标注子系统
聚类索引 特征提取子系统
全标注集 生成/多标签建模 自动标注
2011/5/7 史忠植 跨媒体数据挖掘和理解 68
-
INSTITUTE OF COMPUTING
TECHNOLOGY
跨媒体检索系统框架
特征提取子系统
图像格式转换,图像的增强与去噪等图像预处理功能;图像自动分割算
法;多种图像视觉特征的提取算法及图像标注的预处理算法。
图像标注子系统
(1)基于全标注集自动标注,拓扑序标签链分类器或者PLSA
(2)基于弱标注集自动标注,基于弱标注集的模型共享分类方法
(3)基于图像搜索引擎返回结果的自动标注,基于外观及空域特
征的半监督物体识别方法
查询子系统
(1)基于图像范例查询 (2)基于标签查询 2011/5/7 史忠植 跨媒体数据挖掘和理解 69
-
INSTITUTE OF COMPUTING
TECHNOLOGY
系统演示
基于图范例查询
抓取图区域 基于图区域范例查询 2011/5/7 史忠植 跨媒体数据挖掘和理解 70
-
INSTITUTE OF COMPUTING
TECHNOLOGY
系统演示
基于标签查询 系统后台界面 2011/5/7 史忠植 跨媒体数据挖掘和理解 71
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 72 2011/5/7 72
交通事故图像的理解
在CAM的基础上,提出一种图像理解模式。首先对图像(视
频)进行特征抽取和语义分析,在此基础上采用本体描述图
像(视频),然后通过基于案例推理或逻辑推理理解图像的
语义。
视频信息 (非结构化)
语义分析 语义理解 语义描述
(结构化)
应急联动
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 73
图像语义表征
2011/5/7 73
基本RDF
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 74
图像语义表征
2011/5/7 74
我们将基本的RDF模型扩展为五元组
< S, P, O, NG, T>,
S表示主体(Subject),
P表示谓词(Predicate),
O表示客体(Object),
NG表示命名图(named graph):标识RDF图中来
自不同数据源的节点。
T表示时间:根据Allen's Interval Algebra,
定义两个客体在不同时间段的关系。
-
INSTITUTE OF COMPUTING
TECHNOLOGY
2011/5/7 史忠植 跨媒体数据挖掘和理解 75
展 望
认知模型
跨媒体语义分析
跨媒体关联挖掘
跨媒体理解
-
INSTITUTE OF COMPUTING
TECHNOLOGY
Thank You
Intelligence Science
http://www.intsci.ac.cn/
2011/5/7 史忠植 跨媒体数据挖掘和理解 76