跨媒体数据挖掘和理解 · 2011. 5. 7. · 2011.5.7 2011/5/7 史忠植 ... tbox+actbox+abox...

76
INSTITUTE OF COMPUTING TECHNOLOGY 第四届中国数据挖掘学术会议 特邀报告 跨媒体数据挖掘和理解 史忠植 智能信息处理重点实验室 中国科学院计算技术研究所 2011.5.7 2011/5/7 史忠植 跨媒体数据挖掘和理解 1

Upload: others

Post on 13-Feb-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • INS

    TIT

    UTE

    OF

    CO

    MP

    UTIN

    G T

    EC

    HN

    OL

    OG

    Y

    第四届中国数据挖掘学术会议

    特邀报告

    跨媒体数据挖掘和理解

    史忠植

    智能信息处理重点实验室 中国科学院计算技术研究所

    2011.5.7

    2011/5/7 史忠植 跨媒体数据挖掘和理解 1

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    致谢

    973 国 家 重 大 基 础 研 究 计 划

    No.2007CB311004

    国家自然科学基金项目No. 61035003

    2011/5/7 史忠植 跨媒体数据挖掘和理解 2

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 3

    跨媒体语义关联

    跨媒体语义理解

    内容提要

    引言

    跨媒体语义分析

    认知模型CAM

    结束语

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 4

    互联网发展路线图

    Spivack 2008

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 5

    Yebol(耶宝)搜索引擎

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    视频图像基于内容检索

    图像数据

    用户

    预处理

    特征提取 索引/过滤

    目标标识

    特征提取

    检索引擎

    知识辅助

    图像库 特征库 知识库

    特征提取子系统 查询子系统

    2011/5/7 史忠植 跨媒体数据挖掘和理解 6

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    视频图像基于语义检索

    图像分割&特征提取

    语义映射

    原始图像

    系统接口(图像检索、相关反馈)

    全局&局部 低层视觉特征

    高层语义描述

    先验知识

    语义鸿沟

    2011/5/7 史忠植 跨媒体数据挖掘和理解 7

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 8

    跨媒体挖掘

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 9

    跨媒体语义关联

    跨媒体语义理解

    内容提要

    引言

    跨媒体语义分析

    认知模型CAM

    结束语

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 10

    感知学习

    Environment

    Visual Learning

    Audio Learning

    Linguistic Learning

    Intelligent Behavior

    Perceptual Theories Perceptua

    l Theories

    Visual Learning

    Linguistic Cognition

    Audio Learning

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 11 2011/5/7 史忠植 11

    视觉感知信息处理

    视网膜 特征整合

    视觉皮层

    高层认知(记忆、注意)

    视觉信息 (非结构化)

    特征提取

    一只虎

    语义描述(结构化)

    视觉感知信息处理流程

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 12

    视觉感知认知过程

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    认知模型CAM

    TBox+ActBox+ABox

    CBR-based Event

    Retrieval Model

    Action Sequence

    Assertion Formulas

    ABox

    2011/5/7 史忠植 跨媒体数据挖掘和理解 13

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    情景记忆

    Episodic Memory(情景记忆)

    存储了具有上下文的长期信息。典型的情景记忆包括个体过去所经历的事件,如昨天看过的某场电影,或者上个暑假参加的某项旅游活动等。

    2011/5/7 史忠植 跨媒体数据挖掘和理解 14

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    情景记忆

    信息存储

    以记忆片段(episode)为存储单元,记忆片段包括了关于记忆的符号描述以及与符号关联的感知信息。我们以RDF graph形式对与记忆片段相关的对象,感知信息等进行描述,表示以及存储。

    cue

    2011/5/7 史忠植 跨媒体数据挖掘和理解 15

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    16

    重用REUSE propose solutions

    from retrieved cases

    修改REVISE adapt and repair

    proposed solution

    CBR

    存储RETAIN integrate in

    case-base

    检索RETRIEVE find similar

    problems

    案例推理

    2011/5/7 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    内省学习

    Monitoring

    failure

    Case retrieval and select

    repair strategy

    Diagnosis and

    explaining failure

    Supervised

    protocol

    Symptom

    of failure

    Lack of information

    Reasons

    of failure

    Without

    expectation failure

    Ontology-based Knowledge base

    Failure

    ontology

    Trace of

    reasoning

    Repair

    suggestion

    Reasons of

    failure

    Symptom of

    failure

    Penalty

    function

    2011/5/7 史忠植 跨媒体数据挖掘和理解 17

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 18

    跨媒体语义关联

    跨媒体语义理解

    内容提要

    引言

    跨媒体语义分析

    心智模型CAM

    结束语

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    视频图像处理的三层模型

    视频图像处理中视觉信息的表示、低层特征分析、中层目标

    识别以及高层语义分析等问题都还需要进一步研究。

    2011/5/7 史忠植 跨媒体数据挖掘和理解 19

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 20

    视觉计算

    Marr Vision Theory

    图像 基本要素图

    2.5维要素图

    3维模型

    Hierarchy

    Bottom Up

    Gestalt Vision Theory

    Whole

    Top Down

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 21 2011/5/7 21

    统计学习 模型匹配

    语义分析

    认知机理

    图像语义分析

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    22

    视频图像语义标注

    建模连续视觉特征的图像自动标注

    混合生成式和判别式模型的图像自动标注

    融合语义主题的图像自动标注

    基于语义的图像多模态检索

    PLSA 连续PLSA 多标记学习

    关键技术

    2011/5/7

    图像语义分析

    史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    图像词袋表示

    v2 v3 v1

    v4

    区域检测

    图像的词袋表示

    特征提取 向量量化

    2011/5/7 23 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    图像词袋表示

    2011/5/7 24 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    概率潜在语义分析PLSA

    PLSA是Hofmann提出的最早的主题模型,它的初衷是为改进基于线性代数的方法LSA(latent semantic analysis)[DDF+90] 。PLSA提出了对文本

    集进行主题建模的基本思想,可以将一个文本文档建模为若干潜在主题的混合,而每个主题都表示为一个词的多项分布。

    PLSA的图模型表示如图(a)所示。使用PLSA模型可以将一个文档表示为一个对应于主题分布的K维向量,这等价于图(b)中所示的矩阵分解。

    PLSA的模型参数是两个条件概率分布P(x|z)和P(z|d),这两个参数都满足多项分布。可以通过EM算法或EM算法的不完全版本——folding-in算法来估计模型参数。

    P(di) d z x

    P(zk|di) P(xj|zk)

    N M

    =

    x x

    d d z

    z

    P(x|d) P(x|z)

    P(z|d)

    (a)

    (b)

    2011/5/7 25 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    概率潜在语义分析PLSA

    使用PLSA进行图像自动标注的基本原理是:

    首先学习训练集中各个图像的主题分布P(z|d);

    然后依据这个参数进一步学习视觉词和文本词在给定各个语义主题下的分布P(v|z)和P(w|z)。由PLSA的条件独立假设,这两个分布独立于具体的训练图像,对于训练集之外的图像也是有效的。

    于是,给定一幅未知图像dnew,可以依据自动获取的视觉词表示v(dnew)和训练得到的参数P(v|z),使用folding-in算法计算该图像的主题分布P(z|dnew),从而计算概率P(w|dnew)并经过排序得到对应的标注关键词集合。

    2011/5/7 26 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    连续视觉特征的GM-PLSA

    GM-PLSA(Gaussian-multinomial PLSA)根据不同模态数据各自的特点而对其分别进行处理,采用连续PLSA建模图像的视觉特征,采用标准的PLSA建模文本关键词,并通过共享相同的潜在主题分布进行关联。

    每幅图像既可以视为视觉模态下的连续的高斯分量的混合,同时也可以视为在文本模态下的离散的关键词的混合。

    由于GM-PLSA结合连续PLSA和标准PLSA建模图像训练集的视觉和文本信息,并采用不对称学习方法估计模型参数,故而能更准确地获取未知图像的语义信息。

    李志欣, 施智平, 刘曦, 史忠植. 建模连续视觉特征的图像语义标注方法[J]. 计算机辅助设计与图形学学报.

    2011/5/7 27 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    GM-PLSA的图模型表示

    GM-PLSA可用下列的生成式过程描述: 以概率P(di)选择一个文档di; 在给定文档di的条件下,以概率P(zk|di)采样满足多项

    分布的潜在主题zk; 在给定潜在主题zk的条件下,以多项分布Mult(x|θk)采

    样各个文本关键词wm; 在给定潜在主题zk的条件下,以高斯分布N(x|μk,Σk)采

    样各个视觉特征向量fn。

    d z

    f

    P(zk|di)

    P(wm|zk)

    P(di)

    μk

    Σk

    w θk

    P(fn|zk)

    D K

    K

    2011/5/7 28 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    GM-PLSA的标注算法

    为了估计未知的模型参数,采用了不对称的学习算法,因为不对称学习算法能在潜在空间的定义中更好的控制各个模态的数据产生的影响。

    该算法在给定的图像文档中首先选择文本模态的数据来估计各个主题的混合分布,然后再根据主题分布估计视觉数据的混合高斯分布。这使得潜在空间被限制在文本模态数据上并保持连续性,同时也保持关联视觉模态数据的能力。

    2011/5/7 29 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    tiger

    rocks

    连续PLSA建模

    P(zk|di)

    和 θk μk 和Σk

    folding-in方法

    文本关键词

    视觉特征

    测试图像

    连续PLSA 建模

    P(zk|dnew)

    folding-in方法

    计算P(w|dnew)

    选择5个关键词

    作为图像标注

    标准PLSA建模

    视觉特征

    … …

    … … 训练图像

    GM-PLSA的学习和标注过程

    2011/5/7 30 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    多标签分类 传统的单标记分类任务是将单一的标记l(来自于标记的有限集合L,|L| >

    1)赋给一个示例x。一个单标记数据集D由n个训练样本(x1, l1), (x2, l2), …,

    (xn, ln)组成。

    多标记分类任务将一个标记子集Y ⊆ L赋给每一个示例。一个多标记数据集

    D则由下面n个训练样本组成:(x1, Y1), (x2, Y 2), …, (xn, Y n)。

    多标记学习的方法可分为两类:一类是“问题转化”,将学习任务转化为

    一个或多个单标记分类任务 ;另一类是“算法改进”,直接对特定算法进

    行改进以处理多标记数据。

    BR(binary relevance)是一种流行的问题转化方法,它学习|L|个分类器,每

    一个对应于L中的一个标记。

    2011/5/7 史忠植 跨媒体数据挖掘和理解 31

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    多标签分类 性能评价指标

    1. 汉明距离(HammingLoss)

    2. 准确度、精确度、查全率(Accuracy,Precision,Recall)

    3. microF1、macroF1测度

    1 1

    1 1

    1 1

    1 1

    2* *

    1

    Q Q

    i true pos i true posi i

    Q Q

    i pos i truei i

    Q Q

    i true pos i true posi i

    Q Q

    i pos i truei i

    N N

    N N

    microN N

    N N

    F

    1

    211

    Q j j

    macro jj j

    p rF

    Q p r

    i true pos

    i

    i pos

    Np

    N

    i true pos

    i

    i true

    Nr

    N

    Ni-true是测试集中标签li的正例个数,Ni-pos是标签li预测的正例个数,Ni-true-pos是对标签li预测中正确的正例个数

    (10) (11)

    其中 (12) (13)

    2011/5/7 史忠植 跨媒体数据挖掘和理解 32

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于全标注集的拓扑序标签链分类器方法

    10(森林,forest)-23(老虎,tiger)-6(猫,cat), 12(房子,house)-22(街道,street)-15(人,people)

    Corel集上生成的标签链

    MediaMill集上生成的标签链

    7(人脸,face)-1(主持人,anchor)-20(分屏,split screen), 8(政府大楼,government building)-

    4(法庭,court)-25(暴力,violence)

    所生的拓扑序标签链

    2011/5/7 史忠植 跨媒体数据挖掘和理解 33

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于全标注集的拓扑序标签链分类器方法

    在Corel集和MediaMill集上与其他方法比较 比较结果 方法

    数据集 本文方法 ECC BR MLSSM

    Corel5k

    (25类)

    microF1 46.72 43.29 35.69 47.08

    macroF1 41.82 39.54 26.16 40.14

    MediaMill

    (25类)

    microF1 39.56 37.28 33.49 40.72

    macroF1 34.99 30.36 25.42 32.33 标签预测示意图

    2011/5/7 史忠植 跨媒体数据挖掘和理解 34

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于弱标注集的模型共享分类方法

    该框架采用Boosting框架训练若干轮,在每一轮中训练一个关于某标

    签的二类分类器,每一轮训练的标签分类器将根据标签之间的关联程度以对其他标签进行不同信任度的分类。

    采用一种基于正例和无标注样例学习(Positive and Unlabeled data Learning, PU-learning)算法来训练二类分类器。 2011/5/7 史忠植 跨媒体数据挖掘和理解 35

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于弱标注集的模型共享分类方法

    弱标注学习算法Roc-SVM

    将未标定样本集U中所有样本视为负例,正样本集P中所有样本视为正例,初始化一个负例集RN = 𝛷。

    由公式(22)和(23)分别计算正例和负例模板

    按 计算每个样本与正例和负例模板的相似度,如果与负例模板相似度更大,那么该样本认为是负样本,加入到RN中

    如果|RN| > |P|, 随机地从RN中删除|RN|-|P|个样本 否则, 随机地从P中删除|P|-|RN|个样本。

    利用P和RN训练一个SVM分类器h

    1 1

    | | || || | | || ||x U x P

    x xc

    U x P x

    1 1

    | | || || | | || ||x P x U

    x xc

    P x U x

    ( , )|| || ||| |

    x csim x c

    x c

    (22) (23)

    2011/5/7 史忠植 跨媒体数据挖掘和理解 36

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于弱标注集的模型共享分类方法

    目标函数

    D={x1, x2, … , xn}是图像数据集,每幅图像是由d维向量表示且由一个二值向量yi=(yi1, yi2, … , yin)

    T标注,其中 yik =1表明第i个样本有第k个标签,但是yik =0不能说明第i个样本不含有第k个标签

    借助于LogitBoost和harmonic函数的思想,我们可以得出如下目标函数:

    cos ( )t LL LU UUF F F F

    1 1

    1log(1 exp( ( ( ) ( ))))

    LlL N t t

    LL il l i l il iLl

    F y H x h xN

    L

    1 1 1

    1log(1 exp( ( ( ) ( ))))

    l UlL N N t t

    LU ij il l j l jl i jLl Ul

    F S y H x h xN N

    1 1 1

    1 1log(1 exp( ( ( ) ( ) ( ) ( ))))

    2

    L Nu Nut t t t

    UU ij l i l i l j l j

    l i jUl Ul

    F S H x h x H x h xN N

    (18)

    (19)

    (20)

    (21)

    2011/5/7 史忠植 跨媒体数据挖掘和理解 37

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于弱标注集的模型共享分类方法

    模型共享弱标注学习MSWL算法

    21cos cos

    2 0

    ( ) ( )[ ] | t

    l

    t tt t l t ll t t

    l l

    F F

    ( ( ) ( ))/21 1

    ( ( ) ( )) / 21 1

    1

    u u

    l j l i

    N Nj i

    ij H x H xi jUl Ul

    h x h xS

    N N e

    2

    cos

    ( ) ( )( ) ( )2 01 1 1

    ( ) 1 1 1 1 1|

    2 2

    l l u

    til l j il l jil l i il l il

    N N Nt

    t lij y H x y H xy H x y H xt

    i i jl Ll Ll u

    FS

    N e e N N e e

    2

    ( ( ) ( ))/2 ( ( ) ( ))/21 1

    [( ( ) ( )) / 2]1 1

    2

    u u

    l j l i l i l j

    N Nj i

    ij H x H x H x H xi ju u

    h x h xS

    N N e e

    cos

    ( )( )01 1 1

    ( )( ) 1 ( ) 1 1|

    1 1

    l l u

    til l jil l il

    N N Ntil jt l il i

    ij y H xy H xti i jl Ll Ll u

    y h xF y h xS

    N e N N e

    Liu Xi, Li Zhixin, Shi Zhiping, Shi Zhongzhi. Model-shared weak learning for multi-label

    images. 投稿到Journal of Visual Communication and Image Representation. 2011/5/7 史忠植 跨媒体数据挖掘和理解 38

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于弱标注集的模型共享分类方法

    实验结果分析

    数据集

    COREL5K- 20个label 1500幅图像 MEDIAMILL – 20个label 1500幅图像

    与其他方法比较

    1)RS-BR方法 2)S-EM-BR方法3)ML-KNN方法 4)MLSSM方法

    采用评价指标: microF1、macroF1

    方法自动发掘的标签关联:

    5-cat, 8-forest, 14-rock,18-tiger

    0

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    1 2 3 4 5 6 7 8 9 1011121314151617181920

    5-cat, 8-forest, 14-rock, 18-tiger 2011/5/7 史忠植 跨媒体数据挖掘和理解 39

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于弱标注集的模型共享分类方法

    在Corel集上与其他方法比较

    评价指

    标定百

    分比 p

    方法

    MSWL RS-BR S-EM-BR ML-KNN MLSSM

    microF1

    10% 0.208 0.233 0.188 0.110 0.083

    20% 0.289 0.275 0.256 0.185 0.192

    30% 0.334 0.310 0.309 0.246 0.208

    40% 0.435 0.367 0.341 0.303 0.257

    50% 0.485 0.410 0.407 0.353 0.327

    macroF1

    10% 0.192 0.194 0.167 0.071 0.064

    20% 0.266 0.256 0.209 0.162 0.162

    30% 0.301 0.244 0.233 0.199 0.186

    40% 0.387 0.302 0.296 0.245 0.225

    50% 0.422 0.341 0.332 0.324 0.305

    2011/5/7 史忠植 跨媒体数据挖掘和理解 40

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于弱标注集的模型共享分类方法

    在MediaMill集上与其他方法比较

    评价指标 标定百分

    比 p

    方法

    MSWL RS-BR S-EM-BR ML-KNN MLSSM

    microF1

    10% 0.142 0.153 0.138 0.098 0.077

    20% 0.224 0.215 0.214 0.142 0.168

    30% 0.315 0.293 0.285 0.216 0.242

    40% 0.365 0.311 0.317 0.268 0.287

    50% 0.445 0.377 0.344 0.321 0.311

    macroF1

    10% 0.101 0.114 0.098 0.086 0.055

    20% 0.179 0.176 0.173 0.128 0.133

    30% 0.287 0.252 0.249 0.205 0.216

    40% 0.348 0.292 0.288 0.266 0.256

    50% 0.382 0.336 0.329 0.302 0.281

    2011/5/7 史忠植 跨媒体数据挖掘和理解 41

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    SSIM更适合评价图像质量

    42 2011/5/7

    原图像和各类与原图像之间MSE均为210的失真图像。(a)原图像;(b)对比拉伸后的失真图像,SSIM = 0.9168;(c)均值平移后的失真图像,SSIM = 0.9900;(d)JPEG压缩后的失真图像,SSIM = 0.6949;(e)图像模糊后的失真图像,SSIM = 0.7052;(f)添加椒盐噪声后的失真图像,SSIM = 0.7748。根据主观感知的结果,显然SSIM更加适合评价图像质量。 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于结构相似度的稀疏编码模型

    引入结构相似度到稀疏编码模型中,使得重构图像块尽量保持原图像块的结构信息,提出了基于结构相似度的稀疏编码模型(SS_SC:Sparse Coding Model Based on Structural Similarity)。

    43 2011/5/7

    2

    1 2 3

    1 1

    E , 1 ,N M

    ii i

    i i i

    aA S I Y SSIM I Y S

    2 1 2

    1 2 32 2 2 21 11 2

    2 2E , 1

    N MI Y IY i

    i i

    i i iI Y I Y

    C C aA S I Y S

    C C

    李志清, 施智平, 李志欣, 史忠植. 基于结构相似度的稀疏编码模型. 软件学报.(已录用) Zhiqing Li, Zhiping Shi, Xi Liu and Zhongzhi Shi. A Novel Sparse Coding Model Based On Structural

    Similarity. The 35th IEEE International Conference on Acoustics, Speech, and Signal Processing, Dallas,

    2010 (Accepted). 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    模型推导

    44 2011/5/7

    21 22 23 2421 22

    1 1 2 3 3

    23 24 21 22 23 24

    *E , *

    *

    i i i i

    i i i

    a a a a

    a a a

    B B B BB BA S B B

    B B B B B B

    , , , ,, ,

    21 22 23 2421 221 1 2

    23 24 21 22 23 24

    *E , *

    *

    i j i j i j i j

    i j i j

    B B B BB BA S B

    B B B B B B

    史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    优化学习算法

    获取基函数集合的算法.

    Step 1. 对训练数据集进行白化低通滤波预处理;随机初始化基函数矩阵A;

    Step 2. 固定A,使用共轭梯度下降法和式(13)优化E(A, S),得到"响应"S;

    Step 3. 固定S,使用简单梯度下降法和式(14)优化E(A, S),得到A;

    Step 4. 若训练次数达到设定值,得到训练好的基函数矩阵A;否则,转入Step 2继续进行优化.

    45 2011/5/7 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    SS_SC的基函数

    46 2011/5/7

    SS_SC模型学习得到的144个基函数,它们具有与视皮层简单细胞类似的性质,表现为良好的位置选择性、方向选择性以及空间频率选择特性。

    史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    稀疏响应

    47 2011/5/7

    一个图像块的原始像素值和两种“响应”。无论是应用标准稀疏编码模型得到的“响应”,还是应用SS_SC模型得到的“响应”,都比图像块原始像素值的分布要稀疏得多。 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    模型性能比较

    48 2011/5/7

    注:SC指标准稀疏编码模型,SS_SC指基于结构相似度的稀疏编码模型;Avg_SSim表示平均结构相似度,Avg_Error表示平均误差平方和,Avg_Sparseness表示平均稀疏代价函数值。

    史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 49

    跨媒体语义关联

    跨媒体语义理解

    内容提要

    引言

    跨媒体语义分析

    心智模型CAM

    结束语

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 50

    典型相关性分析(Canonical Correlation Analysis.CCA是一种标准的统计分析方法,最早应用于经济学、医学和气象等领域,

    CCA的核心思想是:寻找两个变量场X,Y对应的两组基向量Wx, Wy, 使得X,Y 在Wx, Wy上投影后的结果最大程度地保持与X,Y 之间的相关性一致。CCA方法已经

    被应用到Web图像标注领域。

    由于典型相关性分析是建立在两个不同变量场所对应矩阵的基础上,因此,同样也适用于对图像与音频、音频与文奉等跨媒体特征的相关性分析。

    相关性分析

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    典型相关分析

    设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yq)′是两组随机变量,且V(x)=Σ11(>0),V(y)=Σ22(>0),Cov(x, y)=Σ12,即有

    其中Σ21=Σ12′。

    研究u=a′x与v=b′y之间的相关关系,其中

    a=(a1,a2,⋯,ap)′,b=(b1,b2,⋯,bq)′

    现来计算一下u与v的相关系数。

    Cov(u,v)=Cov(a′x,b′y)=a′Cov(x,y)b=a′Σ12b

    V(u)=V(a′x)=a′V(x)a=a′Σ11a

    V(v)=V(b′y)=b′V(y)b=b′Σ22b

    11 12

    21 22

    V

    Σ Σx

    Σ Σy

    2011/5/7 史忠植 跨媒体数据挖掘和理解 51

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    u与v的相关系数

    由于对任意非零常数k1和k2,有 ρ(k1u,k2v)=ρ(u,v)

    因此,为避免不必要的结果重复,我们常常限定u与v均为标准化的变量,即附加约束条件

    V(u)=1,V(v)=1 即

    a′Σ11a=1,b′Σ22b=1 在此约束条件下,求a∈Rp和b∈Rq,使得

    ρ(u,v)=a′Σ12b

    达到最大。

    12

    11 22

    ,u v

    a Σ b

    a Σ a b Σ b

    典型相关分析

    2011/5/7 史忠植 跨媒体数据挖掘和理解 52

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    11 12, ..., 1

    21 22, ..., 2

    ......

    1 2, ...,

    ,

    ,'

    ,

    m

    m

    n n nm

    x x x

    x x xX

    x x x

    11 12, ..., 1

    21 22, ..., 2

    ......

    1 2, ...,

    ,

    ,'

    ,

    m

    m

    n n nm

    y y y

    y y yY

    y y y

    输出:

    11 12, ..., 1

    21 22, ..., 2

    ......

    1 2, ...,

    ,

    ,

    ,

    p

    p

    n n np

    x x x

    x x xX

    x x x

    11 12, ......, 1

    21 22, ......, 2

    ......

    1 2, ......,

    ,

    ,

    ,

    q

    q

    n n nq

    y y y

    y y yY

    y y y

    图像特征矩阵 声音特征矩阵 输入: npX nqY

    X 与 Y 不同维数!

    X 与 Y 相同维数!

    跨媒体相关分析 典

    型相

    关分

    2011/5/7 史忠植 跨媒体数据挖掘和理解 53

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    典型相关分析

    张鸿,吴飞,庄越挺:跨媒体相关性推理与检索研究.计算机研究与发展,2008,45(5):869-876

    2011/5/7 史忠植 跨媒体数据挖掘和理解 54

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    55

    跨媒体语义关联

    2011/5/7 史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    56 2011/5/7

    高效稳定的链接分析算法

    IPHITS

    基于双重约束的非负矩阵分

    解方法

    基于突发检测的热点话题提取

    主题生成

    PHITS Link-PLSA 非负矩阵分解 突发检测

    融合链接文本的联合主题模

    主题生成

    史忠植 跨媒体数据挖掘和理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 57

    跨媒体搜索引擎演示系统

    基于信息粒度的专题组织与展示

    基于概念语义空间的多媒体信息融合

    开发了多媒体搜索引擎演示系统,有效地支持多媒体信息的理解与检索。

    用户 界面

    输入关键词或语音

    输入范例音、像 特征分析

    关键词检索

    特征检索

    图像视频库

    Spider

    文本网页

    音 像 感知特征分析

    语义索引

    感知特征索引

    概念语义分析 语义相关

    特征聚类

    聚类结果 或者多媒体专题

    相关反馈:语义和感知特征

    文本标注库

    数据组织 视觉特征库

    数据组织 音频特征库

    数据组织

    索引库

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 58

    跨媒体语义关联

    跨媒体语义理解

    内容提要

    引言

    跨媒体语义分析

    心智模型CAM

    结束语

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 59

    特征捆绑

    • Scenes are broken down and

    analyzed via many pathways, each

    with different feature preference.

    • How are these disparate features

    bound into a single percept?

    • How are different objects

    distinguished?

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 60

    特征抽取

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 61

    脉冲耦合神经网络模型

    w'1

    w'2

    w'm

    …wn

    w2

    w1

    +

    P(f1)

    *

    P(lm)

    P(l2)

    P(l1)

    P(fn)

    P(f2)P(X)

    Lin

    kin

    g

    input

    Feed

    ing

    input

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    特征捆绑计算模型 自然界中的物体是由各种不同基本属性组成的,如颜色、大小、方位等,这些属性在大脑不同部位被加工。为了能够把物体知觉成一个整体而不仅是零散的特征,需要把散布于不同皮层区的属性信息合理地组合在一起,这就是所谓的“捆绑问题”。

    Bayesian Linking Field模型是一种三层结构特征捆绑计算模型,自底向上分别为初级感受域层、中间特征连接层、输出层。每个神经元包括两部分输入:feeding输入和linking输入,输出由两部分输入耦合获得。

    初级感受域层

    中间特征链接层

    同类神经元

    … 输出层 类1 类 2 类 m-1 类 m

    … …

    同类的神经元簇

    … …

    Bayesian Linking Field模型 2011/5/7 史忠植 跨媒体数据挖掘和理解 62

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于特征捆绑计算模型的物体识别

    初级特征选择

    特征捆绑的实现

    每维Gabor特征的贡献度:TotalConA(i)=0.2*KurA(i)+0.8*LinkConA(i),

    KurA是类A在各维Gabor特征下的峰度值,

    计算出各维Gabor原始特征的贡献值并由大到小排序,选择前指定个数

    (如20)为类A对应的特定维数的Gabor特征。

    * ( )( )

    * ( )

    TotalNum NearMaxValASampleNum iLinkConA i

    TotalNumA NearMaxValAAllSampleNum i

    模型中所有的同类神经元组合构成同类神经元群,同类神经元之间相互连接,

    非同类神经元之间以及输出层神经元之间相互竞争

    底层神经元到中间层神经元的连接权值均设为1;中间层神经元有两种连接,

    分别是来自于同类其他中间层神经元和相应输出神经元之间连接。

    (1)

    2011/5/7 史忠植 跨媒体数据挖掘和理解 63

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于特征捆绑计算模型的物体识别

    连接权值计算 同类中间层神经元之间的连接权值由(2)计算,中间层神经元与输出神经元之

    间连接权值由(3)计算。

    * ( , ', ), '( )

    ( , ) * ( ', )

    TotalNum NearMaxValSampleNum j j mWj j m

    NearMaxValSampleNum j m NearMaxValSampleNum j m

    * ( , ), ( )

    * ( , )

    TotalNum NearMaxValMSampleNum j mWj k m

    TotalNumM NearMaxValSampleNum j m

    (2)

    (3)

    ))(

    )"|"(log()"",(

    OP

    AXOPAXOMI

    )log()"",(

    ab

    cNAXOMIwij

    对象O的神经元为xi,语义特征“X = A”的神经元为xj,则由xj到xi的Feeding连接的连接权wij

    c为O与“X = A”在训练集共同出现的次数, N为训练集样本总数, a为O在训练集中出现的次数,b为“X = A”在训练集中出现的次数

    2011/5/7 史忠植 跨媒体数据挖掘和理解 64

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    基于特征捆绑计算模型的物体识别 物体识别模型建立

    选择初级特征,确定模型所有神经元;同时由特征捆绑实现部分计算出神经元之间的连接权值。

    初级感受域层神经元的feeding输入Pfi1(t) 为相应的Gabor特征值, 该层神经元的输出由公式 (4)计算,

    中间层神经元的feeding输入由 (5)计算,linking输入Plj2(t)是与其连接的同类其他神经元以及对应输出神经元的输出,这一层神经元输出 Pilayer1(t) 最后用 (6)计算求得;

    输出层神经元的feeding输入Pfi3(t)是与其相连的中间层神经元的输出, 它的输出由 (7)计算

    模型输出层神经元的初始t=0时输出为1/m,模型中各神经元的输出将进行不断更新调整t=1,2,…,当整个过程收敛时,输出层中具有最大输出的神经元所表征的类别即为所识别的结果

    1 1( ) ( )ilayer fiP t P t

    2

    2 2 1( ) exp( 1*( ( ) ) )fi i layerP t P t MaxVal

    '

    2 2 2 2 2

    2 2

    ( ) ( ( ))( ( ))ilayer i fi j lji j

    P t w P t w P t

    3 3 3

    3

    ( ) ( )ilayer i fii

    P t w P t

    2011/5/7 史忠植 跨媒体数据挖掘和理解 65

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    实验结果分析 Caltech256物体识别

    Caltech256数据库,6类,100幅图像训练,50幅图像测试

    刘曦, 史忠植, 石志伟, 施智平. 一种基于特征捆绑计算模型的物体识别方法, 软件学报.

    分类器

    对应每类的

    中间层神经元个数

    平均识别精度

    Feature Binding

    Model SVM AdaBoost

    20 78.7% 71.0% 73.0%

    40 82.3% 77.7% 78.0%

    2011/5/7 史忠植 跨媒体数据挖掘和理解 66

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 67 史忠植

    物体识别

    分类器

    (每类物体中

    间层神经元个数)

    平均正确识别率

    Feature

    Binding

    Model

    SVM

    AdaBoost

    20

    78.7%

    71.0%

    73.0%

    40

    82.3%

    77.7%

    78.0%

    软件学报

    分类器

    测试样本

    人脸正确识别率

    Feature Binding

    Model

    SVM AdaBoost

    所有测试样本(1000幅) 83.0% 77.9% 81.1% 所有正面测试样本(200幅) 96.5% 87.5% 93%

    所有非正面测试样本(800幅 79.6% 75.5% 78.1% 平均每幅图像所用时间(ms) 2.64 4.48 0.16

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    跨媒体检索系统框架

    查询子系统

    用户

    图像集

    视觉特征库

    文本标注库

    索引库

    用户界面 查询接口 检索引擎

    图像数据 图像预处理

    输入标签

    搜索引擎

    特征提取

    弱标注集 弱标注学习 自动标注

    自动获取物体图像

    学习物体分类器

    分类器标注

    手动标注 图像标注子系统

    聚类索引 特征提取子系统

    全标注集 生成/多标签建模 自动标注

    2011/5/7 史忠植 跨媒体数据挖掘和理解 68

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    跨媒体检索系统框架

    特征提取子系统

    图像格式转换,图像的增强与去噪等图像预处理功能;图像自动分割算

    法;多种图像视觉特征的提取算法及图像标注的预处理算法。

    图像标注子系统

    (1)基于全标注集自动标注,拓扑序标签链分类器或者PLSA

    (2)基于弱标注集自动标注,基于弱标注集的模型共享分类方法

    (3)基于图像搜索引擎返回结果的自动标注,基于外观及空域特

    征的半监督物体识别方法

    查询子系统

    (1)基于图像范例查询 (2)基于标签查询 2011/5/7 史忠植 跨媒体数据挖掘和理解 69

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    系统演示

    基于图范例查询

    抓取图区域 基于图区域范例查询 2011/5/7 史忠植 跨媒体数据挖掘和理解 70

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    系统演示

    基于标签查询 系统后台界面 2011/5/7 史忠植 跨媒体数据挖掘和理解 71

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 72 2011/5/7 72

    交通事故图像的理解

    在CAM的基础上,提出一种图像理解模式。首先对图像(视

    频)进行特征抽取和语义分析,在此基础上采用本体描述图

    像(视频),然后通过基于案例推理或逻辑推理理解图像的

    语义。

    视频信息 (非结构化)

    语义分析 语义理解 语义描述

    (结构化)

    应急联动

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 73

    图像语义表征

    2011/5/7 73

    基本RDF

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 74

    图像语义表征

    2011/5/7 74

    我们将基本的RDF模型扩展为五元组

    < S, P, O, NG, T>,

    S表示主体(Subject),

    P表示谓词(Predicate),

    O表示客体(Object),

    NG表示命名图(named graph):标识RDF图中来

    自不同数据源的节点。

    T表示时间:根据Allen's Interval Algebra,

    定义两个客体在不同时间段的关系。

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    2011/5/7 史忠植 跨媒体数据挖掘和理解 75

    展 望

    认知模型

    跨媒体语义分析

    跨媒体关联挖掘

    跨媒体理解

  • INSTITUTE OF COMPUTING

    TECHNOLOGY

    Thank You

    Intelligence Science

    http://www.intsci.ac.cn/

    2011/5/7 史忠植 跨媒体数据挖掘和理解 76