向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangpagefile/talks/tecent.pdf ·...

28
向规模开放域知 识库问答系统 中国科学院动化研究所 模式识别国家重点实验室 2015325

Upload: phungnhan

Post on 26-Jul-2018

353 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

⾯面向⼤大规模开放域知识库问答系统

刘 康

中国科学院⾃自动化研究所 模式识别国家重点实验室

2015年3⽉月25⽇日

Page 2: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

搜索急需⼀一场变⾰革• IDC统计,全球数据量以每年58%的速度增⻓长,2020年将达到40ZB,是2011年数据总量的22倍

Page 3: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

交互⽅方式的转变需要信息服务模式的转变

• 移动互联⺴⽹网以及可穿戴设备的⻜飞速发展需要⾼高效、准确的⾃自然语⾔言形式的信息服务⽅方式

Page 4: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

问答系统是下⼀一代搜索引擎的基本形态

以直接⽽而准确的⽅方式回答⽤用户⾃自然语⾔言提问的⾃自动问答系统将构成下⼀一代搜索引擎的基本形态

—《Nature》2011.8

Prof. Oren Etzioni

Turing Center University of Washington

Page 5: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

IBM Watson• 沃森(Watson):2011年,IBM研发的超级计算机“沃森”在美国知识竞赛节⺫⽬目《危险边缘Jeopardy! 》中上演“⼈人机问答⼤大战”,战胜⼈人类选⼿手Ken和Brad

辅助医疗

⾦金融辅助决策

企业服务

Page 6: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

问答系统是未来信息技术的重要突破⼝口

• 世界权威IT市场调查咨询公司⾼高德纳(Gartner)2012年8⽉月发布《2012新兴技术成熟度曲线》

⾃自然语⾔言问答

在未来5-10年将成为主要新兴技术关注点,极有可能迎来技术突破

Page 7: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

问答系统历史Expert System

1960 1990

NLDB

2000 2010

IR-based QAKB-based QA

Community QA

BaseBallLUNAR

MACSYMA

MASQUETREC

IR-based QA

基于关键词匹配 + 信 息 抽取,仍然是基于浅层语义分析

Community QA

依赖于⺴⽹网民贡献,问答过程仍然依赖于关键词检索技术

KB-based QA

Knowledge Graph

Page 8: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

知识图谱

• The Knowledge Graph is a system that understands facts about people, places and things and how these entities are all connected.

Page 9: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

知识库问答关键问题• ⾃自然语⾔言问句改写为结构化查询语句

Which software has been developed by organizations founded in California, USA?

System Android {Answer}

Software type

Apache_License

license

Java

programmedIn

California

2(Integer)

version

developer

Google

foundationplace

SELECT DISTINCT ?uri WHERE { ?uri rdf:type dbo:Software. ?uri dbo:developer ?x1. ?x1 rdf:type dbo:Company. ?x1 dbr:foundationPlace dbo:California. } SPARQL

developer Oracle

Page 10: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

⼤大规模知识图谱

����!�����!

Page 11: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

⼤大规模开放域知识图谱带来的挑战

Page 12: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

挑战1:⼤大规模• 实体链接

• Entity Mention • 关系发现

• Relation Pattern

• 传统⽅方法:同义词词典、⼈人⼯工关系模板

• ⼤大规模知识库:

实体数 关系数 类别数

Freebase 47,429,245 20,715 7,477

Page 13: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

挑战1:⼤大规模(续)• Entity Mention(实体同义词)

• Query Log • ⺴⽹网⻚页锚⽂文本 • …

• Pattern Relation(关系模板) • [subj married to obj] —> spouse(subj, obj) • 问题:

• 需要NLP⼯工具分析词性、句法等 • 错误累积、语⾔言依赖

• 需要标注数据 • ⼤大规模开放域知识库下难以获得充⾜足标注

Page 14: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

Relation Identification based on Deep Convolutional Neural Network

. . 1

Component(Whole(e1,e2)

convolutionallayer

Daojian  Zeng,  Kang  Liu,  Siwei  Lai,  Guangyou  Zhou  and  Jun  Zhao.  Rela%on  Classifica%on  via  Convolu%onal  Deep  Neural  Network,  in  Proceedings  of  COLING  2014,  Dublin,  Ireland,  August,  23-­‐29  (Best  Paper  Award)

Page 15: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

Relation Identification based on Deep Convolutional Neural Network

实验表明,我们所提出⽅方法在需要NLP预处理和⼈人⼯工设计复杂特征前提下,能够有效提升实体关系分类性能

Daojian  Zeng,  Kang  Liu,  Siwei  Lai,  Guangyou  Zhou  and  Jun  Zhao.  Rela%on  Classifica%on  via  Convolu%onal  Deep  Neural  Network,  in  Proceedings  of  COLING  2014,  Dublin,  Ireland,  August,  23-­‐29  (Best  Paper  Award)

Page 16: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

Distant Supervision for Relation Identification via Deep Convolutional Neural Network

• Distant Supervision:解决⼤大规模知识图谱下语义关系标注问题 • 问题:标注错误

• 解决:Multi-instance Learning

Page 17: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

挑战2:⾃自然语⾔言问句歧义、多样• ⾃自然语⾔言问句表达⽅方式复杂、关系类型多样、歧义现象严重,这⼀一问题在⾯面对⼤大规模知识库时更加明显

• 短语切分歧义

• 资源映射

• 组合歧义

Which software has been developed by organizations founded in California, USA?

{ California }, { California, USA }

California: {California_State}, {California_Film} founded: {foundationPlace},{founder} developed by: {developer}

{dbo:Software, dbr:developer, dbo:Company} {dbo:Software, dbr:foundationPlace, dbo:Company}

各种歧义间相互影响,如何建⽴立⾼高效的消歧模型?

Page 18: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

Joint Disambiguation using Markov Logic Network

• Joint Inference vis Markov Logic Network

p4(A)&

p2(A)&

p3(A,A)&

p1(B,A)&

p2(B)&

p1(A,B)&

p4(B)&

p3(B,B)&

( , )

1( ) exp( ( ))i

n ii i

i cw L c C

p y w f yZ φ

φ

φ ∈ ∈

= ∑ ∑

hasPhrase(i) The$ith$candidate$phrase$has$been$chosen hasResource(i,/j) The$ith$phrase$is$mapped$to$the$jth$seman1c$

item hasRela2on/(ri,/rj,/rr) The$ seman1c$ item$ ri$ and$ rj$ can$ be$ grouped$

together$with$the$rela1on$type$rr

Hidden Predicates

Observed Predicates

Shizhu  He,  Kang  Liu,  Yuanzhe  Zhang,  Liheng  Xu  and  Jun  Zhao.  Ques%oning  Answering  over  Linked  Data  Using  Markov  First-­‐order  Logic,  in  Proceedings  of  EMNLP  2014,  Doha,  Qatar,  October,  25-­‐29  

Page 19: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

Joint Disambiguation using Markov Logic Network

Shizhu  He,  Kang  Liu,  Yuanzhe  Zhang,  Liheng  Xu  and  Jun  Zhao.  Ques%oning  Answering  over  Linked  Data  Using  Markov  First-­‐order  Logic,  in  Proceedings  of  EMNLP  2014,  Doha,  Qatar,  October,  25-­‐29  

Page 20: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

挑战3:知识库多源异构• 开放域环境下,⽤用户的问题复杂多样,很多场景下,单单只⽤用⼀一个知识库的信息不能完全回答⽤用户的问题

• 难点 • 多知识库间冗余、异构 • 需要对⻬齐 • Pipeline处理:错误传递

谁出演了《变形⾦金刚》并且和《Monkey Business》的演唱者结婚了?

电影知识库 ⾳音乐知识库 ⼈人物知识库

Page 21: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

Joint Model• Joint Inference

• 问句语义解析 • 知识库对⻬齐 • Integer Linear Programming

Page 22: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

Joint Model

Page 23: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

⼩小结• ⾯面向⼤大规模知识图谱的问答系统

• ⼤大规模:海量实体关系 • 复杂问句:问句歧义现象严重 • 多源异构:需要⾼高质量的知识库间对⻬齐

• Future • 不完备:需要知识推理

Page 24: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

知识库不完备• 不完备

实体数 关系数 三元组 平均实体关系数

Freebase 4千万 2万 6.37亿 15

需要知识推理技术对于知识库进⾏行补全

Page 25: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

知识推理• 逻辑推理

• ⼈人⼯工规则不适⽤用 • ⾃自动学习⾼高阶规则性能差

• 基于表⽰示学习的知识推理 • 推理过程—>相似度计算

Prevents(food,disease):IsHighIn(food,nutrient)∧Prevents(nutrient,disease)

!�e11�

e9�

e10�

e12�

e2�

e1�

e3�

e4�

!�e7�

e5�

e6�

e8�

��

Page 26: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

知识推理• 刘德华的作品?

刘德华 作品 阿虎 失孤 ⻔门徒 墨攻 投名状

再说⼀一次我爱你 孤星泪

.

.

.

+ =?

!�e11�

e9�

e10�

e12�

e2�

e1�

e3�

e4�

!�e7�

e5�

e6�

e8�

��

刘德华 作品的

Similarity

Link Prediction

Question Answering

Page 27: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

知识库表⽰示学习• 学习实体、类别、关系的向量表⽰示

• 难点:⼀一对多、多对⼀一、多对多、可反关系

TransE:h+r=t

h+r=t1h+r=t2 t1=t2<⽑毛泽东,⼉儿⼦子,⽑毛岸⻘青>

<⽑毛泽东,⼉儿⼦子,⽑毛岸英>⽑毛岸⻘青=⽑毛岸英

h+r=tt+r=h h=t<张三,朋友,李四>

<李四,朋友,张三>张三=李四

Page 28: 向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangPageFile/talks/tecent.pdf · 问的动问答系统 ... 》中 上演“机问答战 ”,战胜类选 Ken和Brad

谢谢! Any Question!

Email: [email protected] Weibo: 刘康_⾃自动化所

Search: Kang Liu NLPR