向规模开放域知 识库问答系统 - nlpr.ia.ac.cnliukang/liukangpagefile/talks/tecent.pdf ·...
Post on 26-Jul-2018
353 Views
Preview:
TRANSCRIPT
⾯面向⼤大规模开放域知识库问答系统
刘 康
中国科学院⾃自动化研究所 模式识别国家重点实验室
2015年3⽉月25⽇日
搜索急需⼀一场变⾰革• IDC统计,全球数据量以每年58%的速度增⻓长,2020年将达到40ZB,是2011年数据总量的22倍
交互⽅方式的转变需要信息服务模式的转变
• 移动互联⺴⽹网以及可穿戴设备的⻜飞速发展需要⾼高效、准确的⾃自然语⾔言形式的信息服务⽅方式
问答系统是下⼀一代搜索引擎的基本形态
以直接⽽而准确的⽅方式回答⽤用户⾃自然语⾔言提问的⾃自动问答系统将构成下⼀一代搜索引擎的基本形态
—《Nature》2011.8
Prof. Oren Etzioni
Turing Center University of Washington
IBM Watson• 沃森(Watson):2011年,IBM研发的超级计算机“沃森”在美国知识竞赛节⺫⽬目《危险边缘Jeopardy! 》中上演“⼈人机问答⼤大战”,战胜⼈人类选⼿手Ken和Brad
辅助医疗
⾦金融辅助决策
企业服务
问答系统是未来信息技术的重要突破⼝口
• 世界权威IT市场调查咨询公司⾼高德纳(Gartner)2012年8⽉月发布《2012新兴技术成熟度曲线》
⾃自然语⾔言问答
在未来5-10年将成为主要新兴技术关注点,极有可能迎来技术突破
问答系统历史Expert System
1960 1990
NLDB
2000 2010
IR-based QAKB-based QA
Community QA
BaseBallLUNAR
MACSYMA
MASQUETREC
IR-based QA
基于关键词匹配 + 信 息 抽取,仍然是基于浅层语义分析
Community QA
依赖于⺴⽹网民贡献,问答过程仍然依赖于关键词检索技术
KB-based QA
Knowledge Graph
知识图谱
• The Knowledge Graph is a system that understands facts about people, places and things and how these entities are all connected.
知识库问答关键问题• ⾃自然语⾔言问句改写为结构化查询语句
Which software has been developed by organizations founded in California, USA?
System Android {Answer}
Software type
Apache_License
license
Java
programmedIn
California
2(Integer)
version
developer
foundationplace
SELECT DISTINCT ?uri WHERE { ?uri rdf:type dbo:Software. ?uri dbo:developer ?x1. ?x1 rdf:type dbo:Company. ?x1 dbr:foundationPlace dbo:California. } SPARQL
developer Oracle
⼤大规模知识图谱
����!�����!
⼤大规模开放域知识图谱带来的挑战
挑战1:⼤大规模• 实体链接
• Entity Mention • 关系发现
• Relation Pattern
• 传统⽅方法:同义词词典、⼈人⼯工关系模板
• ⼤大规模知识库:
实体数 关系数 类别数
Freebase 47,429,245 20,715 7,477
挑战1:⼤大规模(续)• Entity Mention(实体同义词)
• Query Log • ⺴⽹网⻚页锚⽂文本 • …
• Pattern Relation(关系模板) • [subj married to obj] —> spouse(subj, obj) • 问题:
• 需要NLP⼯工具分析词性、句法等 • 错误累积、语⾔言依赖
• 需要标注数据 • ⼤大规模开放域知识库下难以获得充⾜足标注
Relation Identification based on Deep Convolutional Neural Network
. . 1
Component(Whole(e1,e2)
convolutionallayer
Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao. Rela%on Classifica%on via Convolu%onal Deep Neural Network, in Proceedings of COLING 2014, Dublin, Ireland, August, 23-‐29 (Best Paper Award)
Relation Identification based on Deep Convolutional Neural Network
实验表明,我们所提出⽅方法在需要NLP预处理和⼈人⼯工设计复杂特征前提下,能够有效提升实体关系分类性能
Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao. Rela%on Classifica%on via Convolu%onal Deep Neural Network, in Proceedings of COLING 2014, Dublin, Ireland, August, 23-‐29 (Best Paper Award)
Distant Supervision for Relation Identification via Deep Convolutional Neural Network
• Distant Supervision:解决⼤大规模知识图谱下语义关系标注问题 • 问题:标注错误
• 解决:Multi-instance Learning
挑战2:⾃自然语⾔言问句歧义、多样• ⾃自然语⾔言问句表达⽅方式复杂、关系类型多样、歧义现象严重,这⼀一问题在⾯面对⼤大规模知识库时更加明显
• 短语切分歧义
• 资源映射
• 组合歧义
Which software has been developed by organizations founded in California, USA?
{ California }, { California, USA }
California: {California_State}, {California_Film} founded: {foundationPlace},{founder} developed by: {developer}
{dbo:Software, dbr:developer, dbo:Company} {dbo:Software, dbr:foundationPlace, dbo:Company}
各种歧义间相互影响,如何建⽴立⾼高效的消歧模型?
Joint Disambiguation using Markov Logic Network
• Joint Inference vis Markov Logic Network
p4(A)&
p2(A)&
p3(A,A)&
p1(B,A)&
p2(B)&
p1(A,B)&
p4(B)&
p3(B,B)&
( , )
1( ) exp( ( ))i
n ii i
i cw L c C
p y w f yZ φ
φ
φ ∈ ∈
= ∑ ∑
hasPhrase(i) The$ith$candidate$phrase$has$been$chosen hasResource(i,/j) The$ith$phrase$is$mapped$to$the$jth$seman1c$
item hasRela2on/(ri,/rj,/rr) The$ seman1c$ item$ ri$ and$ rj$ can$ be$ grouped$
together$with$the$rela1on$type$rr
Hidden Predicates
Observed Predicates
Shizhu He, Kang Liu, Yuanzhe Zhang, Liheng Xu and Jun Zhao. Ques%oning Answering over Linked Data Using Markov First-‐order Logic, in Proceedings of EMNLP 2014, Doha, Qatar, October, 25-‐29
Joint Disambiguation using Markov Logic Network
Shizhu He, Kang Liu, Yuanzhe Zhang, Liheng Xu and Jun Zhao. Ques%oning Answering over Linked Data Using Markov First-‐order Logic, in Proceedings of EMNLP 2014, Doha, Qatar, October, 25-‐29
挑战3:知识库多源异构• 开放域环境下,⽤用户的问题复杂多样,很多场景下,单单只⽤用⼀一个知识库的信息不能完全回答⽤用户的问题
• 难点 • 多知识库间冗余、异构 • 需要对⻬齐 • Pipeline处理:错误传递
谁出演了《变形⾦金刚》并且和《Monkey Business》的演唱者结婚了?
电影知识库 ⾳音乐知识库 ⼈人物知识库
Joint Model• Joint Inference
• 问句语义解析 • 知识库对⻬齐 • Integer Linear Programming
Joint Model
⼩小结• ⾯面向⼤大规模知识图谱的问答系统
• ⼤大规模:海量实体关系 • 复杂问句:问句歧义现象严重 • 多源异构:需要⾼高质量的知识库间对⻬齐
• Future • 不完备:需要知识推理
知识库不完备• 不完备
实体数 关系数 三元组 平均实体关系数
Freebase 4千万 2万 6.37亿 15
需要知识推理技术对于知识库进⾏行补全
知识推理• 逻辑推理
• ⼈人⼯工规则不适⽤用 • ⾃自动学习⾼高阶规则性能差
• 基于表⽰示学习的知识推理 • 推理过程—>相似度计算
Prevents(food,disease):IsHighIn(food,nutrient)∧Prevents(nutrient,disease)
!�e11�
e9�
e10�
e12�
e2�
e1�
e3�
e4�
!�e7�
e5�
e6�
e8�
��
�
�
�
�
知识推理• 刘德华的作品?
刘德华 作品 阿虎 失孤 ⻔门徒 墨攻 投名状
再说⼀一次我爱你 孤星泪
.
.
.
+ =?
!�e11�
e9�
e10�
e12�
e2�
e1�
e3�
e4�
!�e7�
e5�
e6�
e8�
��
�
�
�
�
刘德华 作品的
Similarity
Link Prediction
Question Answering
知识库表⽰示学习• 学习实体、类别、关系的向量表⽰示
• 难点:⼀一对多、多对⼀一、多对多、可反关系
TransE:h+r=t
h+r=t1h+r=t2 t1=t2<⽑毛泽东,⼉儿⼦子,⽑毛岸⻘青>
<⽑毛泽东,⼉儿⼦子,⽑毛岸英>⽑毛岸⻘青=⽑毛岸英
h+r=tt+r=h h=t<张三,朋友,李四>
<李四,朋友,张三>张三=李四
谢谢! Any Question!
Email: kliu@nlpr.ia.ac.cn Weibo: 刘康_⾃自动化所
Search: Kang Liu NLPR
top related