Вычислительная лексическая семантика: метрики...

108
Лексическая семантика Обзор метрик PatternSim HybridSim Прило Вычислительная лексическая семантика: метрики семантической близости и их приложения Серия лекций в НИУ ВШЭ, факультет бизнес-информатики и прикладной математики (Нижний Новгород) Александр Панченко Digital Society Laboratory & Universit´ e catholique de Louvain [email protected] 4 декабря 2013 г. Александр Панченко 1/108

Upload: alexander-panchenko

Post on 10-May-2015

1.095 views

Category:

Technology


4 download

DESCRIPTION

Вычислительная лексическая семантика: метрики семантической близости и их приложения Серия лекций в НИУ ВШЭ, факультет бизнес-информатики и прикладной математики (Нижний Новгород)

TRANSCRIPT

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Вычислительная лексическаясемантика: метрики семантической

близости и их приложенияСерия лекций в НИУ ВШЭ, факультет бизнес-информатики

и прикладной математики (Нижний Новгород)

Александр ПанченкоDigital Society Laboratory & Universite catholique de Louvain

[email protected]

4 декабря 2013 г.

Александр Панченко 1/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 2/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 3/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Введение

О себе

1 PhD (Natural Language Processing)co-tutelle Universite catholique de Louvain и МГТУ им.Н.Э.Баумана;http://cental.fltr.ucl.ac.be/team/~panchenko/[email protected]

2 Старший исследователь в Digital Society Laboratory.3 Ассоциированный исследователь в Universite catholiquede Louvain.

4 Область научных интересов – Natural Language Processing:

Вычислительная лексическая семантика.Классификация (коротких) текстов.АОТ для анализа социальных сетей.

Александр Панченко 4/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Вычислительная лексическая семантика

* рисунок адаптирован из курса Computational Linguistics LINGI2263http://www.uclouvain.be/en-cours-2013-LINGI2263.html

Александр Панченко 5/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Введение в область лексической семантики

Jurafsky D. and Martin J.H. An Introduction to NaturalLanguage Processing, Computational Linguistics, andSpeech Recognition (2009), chapters 19,20, 22.Cruys T. Mining for meaning: the extraction oflexico-semantic knowledge from text (2010). PhD thesis.http://dissertations.ub.rug.nl/faculties/arts/2010/t.van.de.cruys/

Panchenko A. Similarity Measures for Semantic RelationExtraction (2013) http://cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf

Введение в обработку текста. ИСП РАН, ВМК МГУ,Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/uploads/2011/10/lecture6-2013.pdf

Александр Панченко 6/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические отношения

Рис. : Семантический ресурс из 29 отношений.

Александр Панченко 7/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические отношения: типы

Рис. : Семантический ресурс с (a) типизированными и (b)нетипизированными отношениями.

Александр Панченко 8/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические отношения: типы

Александр Панченко 9/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические отношения: типы

Александр Панченко 10/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические отношения: выразительность

Рис. : Выразительность различных моделей представлениясемантичеких ресурсов.

Александр Панченко 11/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические ресурсы: таксонония

Рис. : A part of the taxonomy of economical activities NACE.

Александр Панченко 12/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические ресурсы: тезаурус

Рис. : The Eurovoc thesaurus: the term “energy industry” and itssemantic relations. Here, hypernyms are denoted with arrows andassociations are denoted with dashed lines.

Александр Панченко 13/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические ресурсы: лексическая база данных

Рис. : Lexical database WordNet: synset engineer and its semanticrelations.

Александр Панченко 14/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Семантические ресурсы: онтология

Рис. : SUMO upper ontology: a part of the class hierarchy.

Александр Панченко 15/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Извлечение семантических отношений из текста

Александр Панченко 16/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики семантической близости

Мотивация исследования

1 Метрики семантической близости полезны для:систем обработки коротких текстов (Saric et al., 2012;Panchenko at., 2012);расширешия поисковых запросов (Hsu et al., 2006);вопросно-ответных систем (Sun et al., 2005);разрешения омонимии (Patwardhan et al., 2003);. . .

Лексико-семантическое знание о языке.Вычислительная лексическая семантика.Computational Lexical Semantics.

Александр Панченко 17/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики семантической близости

Определение

Метрика семантической близости численно выражаетсемантическую связность слов ci и cj : sij = sim(ci , cj):

sij =

{велико если 〈ci , cj〉 – пара syn, hyper , cohypo0 иначе

Свойства

Неотрицательность: 0 ≤ sij ≤ 1;Рефлективность: sij = 1⇔ ci = cj ;Симметричность: sij = sji ;sij ≤ sik + skj

Александр Панченко 18/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики семантической близости: распределение

Малое количество подобных пар: sij ∼ exp(λ).

Распределение сем. близости слова “doctor”:

Александр Панченко 19/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики семантической близости: распределение

Рис. : Number of relations (synonyms and hyponyms) per term in thedictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and aunion of these three resources.

Александр Панченко 20/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Системы измерения семантической близости

Terms

Similarity Measure

R

S

NormalizerS

Semantic Similarity Measure

Semantic Relations

Feature Extractor

Text-Based Data

kNN Procedure

F

C

Semantic Relation Extractor

Как построить систему с высокой точностью и лексическимпокрытием?

Александр Панченко 21/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Оценка качества метрики семантической близости

1 Корреляция с суждениями человека о сем. близости:

Статистики: корреляция Пирсона (ρ) и Спирмена (r).Проверочные данные: MC, RG, WordSim.

2 Ранжирование семантических отношений:Точность, Полнота, F-мера.Проверочные данные: BLESS, SN.

3 Точность извлечения семантических отношений:Статистики: Точность@k.Проверочные данные: аннотирование и/или тезаурусы.

4 Использование метрики в системе АОТ:в системе классификации имен файлов (iCOP);с системе поиска семантически связанных слов (Serelex).

Panchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013, (Chapter 1).

Александр Панченко 22/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Критерии, основанные на суждениях субъектов осемантической близости

слово, ci слово, cj субъект, s sim, s субъект (ранг), r sim (ранг), rtiger cat 7.35 0.85 1 3book paper 7.46 0.95 2 2

computer keyboard 7.62 0.81 3 1... ... ... ... . . . . . .

possibility girl 1.94 0.25 64 65sugar approach 0.88 0.05 65 23

Данные:WordSim353 – 353 пар слов (Finkelstein, 2002)MC – 30 пар слов (Miller Charles, 1991)RG – 65 пар слов (Rubenstein Goodenough, 1965)

Коэффициент корреляции Пирсона: ρ = cov(s,s)σ(s)σ(s)

Коэффициент корреляции Спирмена:: r = cov(r,r)σ(r)σ(r)

Александр Панченко 23/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Критерии, основанные на суждениях субъектов осемантической близости

Александр Панченко 24/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Критерии, основанные на суждениях субъектов осемантической близости

Рис. : Ранговая корреляция Спирмена на наборе данныхMiller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляцияслучайных данных -0.173 (p=0.360).

Александр Панченко 25/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Критерии точности извлечения отношений

слово, ci слово, cj тип отношения, tjudge adjudicate synjudge arbitrate synjudge asessor synjudge chancellor synjudge gendarmerie synjudge sheriff syn... ... ...

judge pc randomjudge fare randomjudge lemon random

Данные:BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper,coord, mero, event, attri, random)SN (Panchenko, 2012) – 14682 отношений (syn, random)

Александр Панченко 26/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Критерии точности извлечения отношений

Основаны на количестве правильно отранжированныхотношений.R – все семантические отношения, не являющиесяслучайными (〈animal , random, bishop〉 и т.п.)R(k) множество извлеченных отношений при количествеближайших соседей k

Критерии

Точность: P(k) = |R∩R(k)||R(k)| ,

Полнота: R(k) = |R∩R(k)||R| ,

F1-мера: F (k) = 2 · P(k)·R(k)P(k)+R(k) ,

Мы используем P(10), P(20), P(50), R(50).

Александр Панченко 27/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Пример: оценка точности извлечения отношений

Точность P(k = 50) = 17 ≈ 0.86

слово, ci слово, cj тип отношения sijaficionado enthusiast syn 0.07197aficionado fan syn 0.05195aficionado admirer syn 0.01964aficionado addict syn 0.01326aficionado devotee syn 0.01163aficionado foundling random 0.00777aficionado fanatic syn 0.00414aficionado adherent syn 0.00353aficionado capital random 0.00232aficionado statute random 0.00029aficionado blot random 0.00025aficionado meddler random 0.00005aficionado enlargement random 0.00003aficionado bawdyhouse random 0.00000

Александр Панченко 28/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 29/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Обзор метрик семантической близости

ПубликацииPanchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013: Chapters 2.1, 3.1.Panchenko A. A Study of Heterogeneous SimilarityMeasures for Semantic Relation Extraction. // InJEP-TALN-RECITAL 2012 — Grenoble (France), 2012.ACL Anthology / Google Scholar: “semantic similaritymeasure”, “semantic similarity”.

Александр Панченко 30/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Обзор метрик семантической близости

Публикации (анализ 37 базовых метрик):Panchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013, (Chapter 3).Panchenko A. A Study of Heterogeneous SimilarityMeasures for Semantic Relation Extraction. // InJEP-TALN-RECITAL 2012 — Grenoble (France), 2012.

Александр Панченко 31/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на семантической сети

Данные: семантическая сеть WordNet 3.0, корпус SemCor.Переменные:

len(ci , cj) – длина кратчайшего пути между ci и cj

len(ci , lcs(ci , cj)) – длина кратчайшего пути от ci доближайшего общего предка (БОП) слов ci и cj

Ближайший Общий Предок (БОП) – Lowest CommonSubsumers (LCS)len(croot , lcs(ci , cj)) – длина кратчайшего пути от корняcroot до БОП слов ci и cj (глубина БОП)P(c) – вероятность слова c , оцененная из корпусаP(lcs(ci , cj)) – вероятность БОП слов ci и cj

Метрики: Инвертированная длина пути, Leacock-Chodorow,Wu-Palmer, Resnik, Jiang-Conrath, Lin.

Александр Панченко 32/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Lowest common subsumer (LCS)

Рис. : Ближайшие общие предки в семантической сети.

(car , food)→ object(beef , pork)→ meat(pork , coupe)→ object(vegetable, pork)→ food

Александр Панченко 33/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на семантической сети

Инвертированная длина пути:

sij = len(ci , cj)−1.

LeacockChodorow:

sij = − loglen(ci , cj)

2h.

Resnik:sij = − logP(cij).

JiangConrath:

dij = 2 logP(cij)− (logP(ci ) + logP(cj)).

Александр Панченко 34/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на семантической сети

Lin:sij =

2 log(P(cij))

log(P(ci ) + log(P(cj))

WuPalmer:

sij =2len(cr , cij)

len(ci , cij) + len(cj , cij) + 2 · len(cr , cij)

Александр Панченко 35/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на семантической сети

Инструменты:

WordNet::Similarity tool (Perl, command-line):http://wn-similarity.sourceforge.net/

NTLK (Python): http://nltk.org

Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html

Александр Панченко 36/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на Веб корпусе текстов

Данные: количество документов возвращенных ИПС: Google,Yahoo, AltaVista, Bing, и т.п.Переменные:

hi – количество документов возвращенных по запросуслова ”ci”

hij – количество документов возвращенных по запросу”ci AND cj”

Метрики:Normalized Google Distance (NGD) (Cilibrasi and Vitanyi,2007)Pointwise Mutual Information - Information Retrieval (PMI-IR)(Turney, 2001)

Александр Панченко 37/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Веб-метрики: пример

Александр Панченко 38/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на Веб корпусе текстов

Normalized Google Distance (NGD):

sij =max(log(hi ), log(hj))− log(hij)

log(M)−min(log(hi ), log(hj))

Pointwise Mutual Information Information Retrieval(PMIIR):

sij = logP(ci , cj)

P(ci )P(cj)= log

hij∑i,j hij

hi∑i,j hij

hj∑i,j hij

≈ loghij

hihj.

Александр Панченко 39/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Дистрибутивные метрики

Данные: корпус, такой как Википедия или ukWaC

Метрики:Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006)Syntactic Distributional Analysis (SDA) (Curran, 2003)

Александр Панченко 40/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Дистрибутивные метрики

Переменные:fi– вектор признаков представляющий слово ci ,основанный на контекстном окнеfsi – вектор признаков представляющий слово ci ,основанный на синтаксическом контекстном окне

Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)

Александр Панченко 41/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Другие метрики, основанные на корпусе текстов

Данные: корпус, такой как Википедия или ukWaCМетрики:

Латентно-cемантический анализ (LSA) (Landauer andDumais, 1997)Вероятностные модели (pLSA, LDA и др.) (Griffiths et al.,2007)NGD и PMI-IR (Veksler et al., 2008). . .

Александр Панченко 42/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Латентно-семантический анализ

Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997):1 Representing the corpus D as an N ×M term-document

matrix F.2 Normalization of the matrix F with TF-IDF:

f ′ij =fij∑i fij· log

|D||d ∈ D : wi ∈ d |

,

3 Singular value decomposition of D: D = UΣVT .4 Low-rank approximation of the matrix U with a reduced M × k

matrix Uk by retaining only the first k column of the U.5 Calculation of similarities between terms ci and cj as a cosine

between respective columns of Uk (uki and uk

i ):

sij =uk

i · ukj

||uki ||||uk

j ||.

Александр Панченко 43/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Латентно-семантический анализ

U is an M ×M matrix which columns are the orthogonaleigenvectors of DDT

VT is an N × N matrix which columns are the orthogonaleigenvectors of DTDΣ is an M × N diagonal matrix:

Σ =

σ11 . . . 0...

. . ....

0 · · · σnn

.

The i-th element on the diagonal σii =√λi , where λi is an

eigenvalue of DDT .The eigenvalues are ordered, such that λi ≥ λi+1.

Источник: Manning et al. Introduction to information retrieval (2008), p.374.

Александр Панченко 44/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Латентно-семантический анализ

Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)

Александр Панченко 45/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на определениях

Данные: определения из WordNet, Википедии, Викисловаряили любого другого словаря.Переменные:

gloss(ci ) – определение слова ci ;fi вектор признаков, построенный из gloss(ci );fi – вектор признаков ci , вычисленный на корпусе из всехопределений методом контекстного окна;exist(ci , cj) – наличие связи между ci и cj в словаре.

Метрики:ExtendedLesk (Banerjee and Pedersen, 2003)GlossVectors (Patwardhan and Pedersen, 2006)DefVectors (Panchenko et al., 2012)

Александр Панченко 46/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на определениях: Extended Lesk

relies on the gloss similarity of terms ci and cj

relies on gloss similarity of all terms related to ci and cj

sij =∑ci∈Ci

∑cj∈Cj

simg (ci , cj),

simg is a gloss-based similarity measure and set Ci includesconcept ci and all concepts directly related to it.

Александр Панченко 47/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрики, основанные на определениях: GlossVectors

a cosine between vectors vi and vj representing concepts ciand cj

a vector vi is a sum of context vectors representing all wordsfrom the definition of ci and the definitions of terms related toci :

sij =vi · vj

||vi ||||vj ||where vi =

∑∀j :cj∈Gi

fj .

fj is a context vector, derived from the corpus of all glossesGi is concatenation of glosses of the concept ci and allconcepts which are directly related to it.

Александр Панченко 48/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Сравнение базовых метрик семантической близости

Александр Панченко 49/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Сравнение базовых метрик семантической близости

Александр Панченко 50/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Сравнение: лучшие базовые метрики

Каждая метрика излекает много ко-гипонимов:〈Canon,Nikon〉,〈Lamborghini ,Ferrari〉,〈Obama,Romney〉.

Александр Панченко 51/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Резюме

Основные ресурсы для построения метрик:

семантические сети и тезаурусы;корпуса текстов;Веб корпус текстов;определения из словарей и энциклопедий.

Метрики дополняют друг друга в терминах:

лексического покрытия;точности;типов извлекаемых отношений.

Александр Панченко 52/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Программное обеспечение

Semantic Vectors:https://code.google.com/p/semanticvectors/S-Space Package:https://code.google.com/p/airhead-research/WordNet::Similarity:http://wn-similarity.sourceforge.netNLTK: http://nltk.googlecode.com/svn/trunk/doc/howto/wordnet.htmlWikiRelate!PatternSim / Serelex: http://serelex.cental.beМетрики, основанные на Веб корпусе:http://cwl-projects.cogsci.rpi.edu/msrLSA: http://lsa.colorado.eduDefVectors: http://github.com/jgc128/defvectors

Александр Панченко 53/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 54/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Публикации

Hearst, M. A. Automatic acquisition of hyponyms from largetext corpora. In ACL, pages 539–545, 1992.Panchenko A., Morozova O., Naets H. A SemanticSimilarity Measure Based on Lexico-Syntactic Patterns.In Proceedings of KONVENS 2012, pp.174–178, 2012Panchenko A., Romanov P., Morozova O., Naets H.,Philippovich A., Fairon C. Serelex: Search and Visualizationof Semantically Related Words. In Proceedings of the 35thEuropean Conference on Information Retrieval (ECIR 2013).Панченко А., Романов П., Романов А., Филиппович А.,Филиппович Ю., Морозова О. Серелекс: поиск ивизуализация семантически связанных слов. АнализИзображений, Сетей и Текстов (АИСТ), Интуит, 2013

Александр Панченко 55/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Демо

http://serelex.cental.be/

Александр Панченко 56/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Лексико-синтаксические паттерны

18 паттернов извлекающих гиперонимы, ко-гипонимы исинонимы

Александр Панченко 57/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Основной каскад преобразователей

Каскад конечных автоматов (FST)В формате Unitex: http://igm.univ-mlv.fr/~unitex/

Александр Панченко 58/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Пример реализации паттерна в виде автомата

Паттерны, основанные на автоматах позволяют учестьлингвистическую вариацию, сохранив точностьВ отличие от паттернов основанных на строках (Bollegalaet al., 2007)

Александр Панченко 59/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

PatternSim: основные этапы

Паттерны извлекают конкордансы

such diverse {[occupations]} as {[doctors]},{[engineers]} and {[scientists]}[PATTERN=1]

such {non-alcoholic [sodas]} as {[root beer]} and{[cream soda]}[PATTERN=1]

{traditional[food]}, such as{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]

Александр Панченко 60/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

PatternSim: основные этапы

Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов

Количество извлечений

Wikipedia – 1.196.468ukWaC – 2.227.025WaCypedia+ukWaC – 3.423.493

Александр Панченко 61/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Метрика семантической близости PatternSim

Александр Панченко 62/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Вычисление подобия: rerank

Efreq: мера подобия равна количеству извлеченныхотношений

sij = sij

Efreq-Cfreq: нормализация по частоте слов

sij =P(ci , cj)

P(ci )P(cj)

P(ci , cj) =eij∑ij eij

– вероятность извлечения отношения〈ci , cj〉, где eij – частота взаимной встречаемости слов ci иcj во множестве конкордансовP(ci ) = fi∑

i fi– вероятность слова ci , где fi – частота ci

Александр Панченко 63/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Вычисление подобия:

Efreq-Rnum-Cfreq-Pnum:

sij =√

pij ·2 · µb

bi∗ + b∗j·

P(ci , cj)

P(ci )P(cj).

P(ci , cj) =eij∑ij eij

– вероятность извлечения отношения〈ci , cj〉, где eij – частота взаимной встречаемости слов ci иcj во множестве конкордансовP(ci ) = fi∑

i fi– вероятность слова ci , где fi – частота ci

bi∗ =∑

j :eij≥β 1 – количество извлечений слова ci с

частотой ≥ β, где µb = 1|C |∑|C |

i=1 bi∗ – среднее количествоизвлечений для отдельного словаpij ∈ [1; 18] – количество отдельных паттернов которыеизвлекли отношение 〈ci , cj〉

Александр Панченко 64/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Ранжирование семантических отношений

Точность сравнима или лучше чем у аналогов;Полнота меньше чем у аналогов.

Рис. : График точность-полнота (коллекция BLESS).Александр Панченко 65/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Извлечение семантических отношений

Точность@1 ≈ 0.80;“Хорошее” лексическое покрытие:

Александр Панченко 66/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Сравнение результатов базовых метрик и PatternSim

Александр Панченко 67/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 68/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Публикациии

Panchenko A., Morozova O. A Study of Hybrid SimilarityMeasures for Semantic Relation Extraction. // InnovativeHybrid Approaches to the Processing of Textual DataWorkshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18Panchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013, (Chapter 4).Panchenko A. A Study of Heterogeneous SimilarityMeasures for Semantic Relation Extraction. // InJEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp.29–42.

Александр Панченко 69/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Отдельные и гибридные метрики

Terms, C

simi

(a) (b)

combination method

Scmb

S1 SN

sim1

S1

simN

normSN

...

...norm

normScmb

knn

R

Si

normSi

knn

Single Similarity Measure

Hybrid Similarity Measure

Relations,

Terms, C

RRelations,

Features

Рис. : Система извлечения семантических отношений основанная на:

(a) отдельной метрике;

(b) гибридной метрике.

Александр Панченко 70/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

16 признаков = 16 отдельных метрик

5 метрик основанных на семантических сетях:1 WuPalmer;2 Leacock and Chodorow;3 Resnik;4 Jiang and Conrath;5 Lin.

3 метрики, основанные на Веб корпусе(NGD-Yahoo/Bing/Google);5 метрики, основанные на корпусе текстов:

2 дистрибутивных (BDA, SDA)1 лексико-синтаксические шаблоны (PatternSim)2 другие (LSA, NGD-Factiva)

3 метрики, основанные на определениях1 ExtendedLesk;2 GlossVectors;3 DefVectors-WktWiki.

Александр Панченко 71/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Методы комбинирования без учителя

skij ∈ [0; 1] – попарное семантическое подобие слов wi и wj ,вычисленное с помощью k-й метрики Sk .

Mean

Среднее между K попарными подобиями слов:

scmbij =

1K

∑k=1,K

skij ;

Mean-Nnz

Среднее между K попарными подобиями слов больше нуля:

scmbij =

1|k : sk

ij > 0, k = 1,K |∑

k=1,K

skij ;

Александр Панченко 72/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Методы комбинирования без учителя

Mean-Zscore

Среднее между нормированными попарными подобиями слов(Z-score):

Scmb =1K

K∑k=1

Sk − µk

σk;

где µk и σk среднее и стандартное отклонение значений k-йметрики (Sk).

Median

Медиана между K попарными подобиями слов:

scmbij = median(s1

ij , . . . , sKij ).

Александр Панченко 73/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Методы комбинирования без учителя

Max

Максимум между K попарными подобиями слов:scmbij = max(s1

ij , . . . , sKij );

RankFusion

Среднее между рангами слов:

scmbij =

1K

∑k=1,K

rkij .

где rkij – ранк, соответствующий значению попарного подобия

skij .

Александр Панченко 74/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Методы комбинирования метрик подобия

RelationFusion

Объединение отношений, извлеченных каждым методом.Отношения, извлеченные несколькими метриками, надежнее.

Input: Матрицы подобия, сгенерированные K метриками{S1, . . . ,SK}, количество ближайших соседей k

Output: Комбинированная матрица подобия, Scmb1 for i=1,N do2 Ri ← knn(Si , k) ;3 Ri ← relation_matrix(Ri )

4 Scmb ← 1N∑N

i=1 Ri ;5 return Scmb ;

relation_matrix : rij =

{1 if 〈ci , cj〉 ∈ Rk0 else

Александр Панченко 75/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Методы комбинирования с учителем

Logit, Logit-L1, Logit-L2

Бинарная логистическая регрессия;Положительные обучающие примеры – синонимы,гиперонимы, ко-гипонимы из BLESS/SN;Отрицательные обучающие примеры – случайныепары семантически несвязных слов из BLESS/SN;Отношение 〈ci , t, cj〉 ∈ R представлено с помощьювектора попарных близостей: x = (s1

ij , . . . , sNij ),N = 2, 16;

Категория yij :

yij =

{0 если 〈ci , t, cj〉 случайное отношение1 иначе

Александр Панченко 76/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Методы комбинирования с учителем

Logit, Logit-L1, Logit-L2

Logit максимизирует следующую функционал:

L(w) = maxw

N∑i=1

ln scmbij +

N∑i=1

ln(1− scmbij )

Использование модели (w1, . . . ,wK ) длякомбинирования:

scmbij = P(rij = 1|s1

ij , . . . , sKij ) =

11 + e−z , где

z =K∑

k=1

wkskij + w0.

Александр Панченко 77/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Модель комбинирования метрик

Рис. : Weights of the similarity measures used by the hybrid measureLogit-E15. The weights were learnt on the BLESS dataset with 10-foldcross validation repeated 10 times.

Александр Панченко 78/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Методы комбинирования с учителем

Машина Опорных Векторов (SVM), линейное ядро

Веса w и опорные вектораSV :

w =∑

xi∈SV

αiyixi .

Использование модели

scmbij = wTx+b =

K∑k=1

wi skij +b.

Александр Панченко 79/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Машина Опорных Векторов (SVM), линейное ядро

Geometrical margin is the distance to the closest data point:

ρ =wTx− b||w||

.

SVM maximizes the margin : ρ = wT x−b||w|| = 1

||w|| .

Result – a set of support vectors: SV = {x1, . . . , xm}, whereyi ∈ {+1,−1} is the label.Weight vector: w =

∑xi∈SV αiyixi .

C -SVM optimizes the following function:

minw,ξ,b

12 ||w||

2 + C∑n

i=1 ξi (1)

subject to yi (wTφ(xi )) ≥ 1− ξi ,ξi ≥ 0.

The function φ(x, x′) is called kernel.Александр Панченко 80/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Какие из отдельных метрик следует комбинировать?

Количество возможных комбинаций

34:∑34

m=2 Cm34 =

∑34m=2

34!m!(34−m)! = 234 = 1.718 · 1010

16:∑16

m=2 Cm16 =

∑16m=2

16!m!(16−m)! = 65536

Экспертный выбор: 5, 9 и 15 метрик из 16Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16Анализ коэффициентов логистической регрессии: 12 из16

Александр Панченко 81/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: базовые метрики, корреляция с суждениямисубъектов

Рис. : Pearson – корреляция Пирсона, Spearman – корреляция Спирмена.

Александр Панченко 82/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: базовые метрики, ранжирование отношний

Александр Панченко 83/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: базовые метрики, ранжирование отношний

Рис. : Графики Точность-Полнота (слева) 4х лучших метрикоснованных на корпусе, семантических сетях, определениях иметрика, основанная на среднем значении 14 метрик; (слева)метрики основанных на определениях Викисловаря и Википедии.

Александр Панченко 84/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: отдельные и комбинированные метрики

Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC,RG, WordSim353 – корреляция с суждениями человека. BLESS, SN –точность извлечения семантических отношений. Наилучшие значения вгруппе (отдельные/комбинированные) обозначены полужирным шрифтом;наилучшие значения обозначены серым цветом.

Александр Панченко 85/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: методы комбинирования с учителем

График Точность-Полнота вычисленный на коллекции BLESS:(a) 16 отдельных метрик и гибридная метрика Logit-E15;(b) 8 гибридных метрик.

Александр Панченко 86/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: метод комбинирования с учителем Logit-E15

Рис. : Значение подобия между 74 словами связанными со словом“acacia”.

Александр Панченко 87/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: методы комбинирования с учителем

Александр Панченко 88/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Результаты: методы комбинирования с учителем(продолжение)

Рис. : Оптимизация мета-параметров метрики C-SVM-radial-E15.

Александр Панченко 89/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 90/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 91/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде списка и графа слов

http://serelex.cental.be/

Александр Панченко 92/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде графа слов

Александр Панченко 93/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде графа слов

Александр Панченко 94/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде графа слов

Александр Панченко 95/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде множества изображений

Александр Панченко 96/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

Оценка качества работы системы Серелекс

Рис. : Удовлетворенность пользователей первыми 20 результатамипоиска для 594 запроса (23 ассесора и 109 пользователей).

Александр Панченко 97/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Поиск и визуализация семантически связанных слов

Оценка качества работы системы Серелекс

Александр Панченко 98/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

План

1 Вычислительная лексическая семантика

2 Обзор метрик семантической близости

3 Метрика основанная на лексико-синтаксических шаблонах

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 99/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

iCop: классификация имен файлов

Рис. : Структура системы.

Использование семантических отношений для расширенияимени файла (Vocabulary Projection).

Александр Панченко 100/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

iCop: пример Vocabulary Projection

Александр Панченко 101/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

Качество классификации

Обучающая выборка Тестовая выборка Accuracy Accuracy (voc. projection)Gallery (train) Gallery 96.41 96.83 (+0.42)PirateBay Title+Desc+Tags PirateBay Title+Desc+Tags 98.92 98.86 (–0.06)PirateBay Title+Tags PirateBay Title+Tags 97.73 97.63 (–0.10)Gallery PirateBay Title+Desc+Tags 90.57 91.48 (+0.91)Gallery PirateBay Title+Tags 84.23 88.89 (+4.66)PirateBay Title+Desc+Tags Gallery 88.83 89.04 (+0.21)PirateBay Title+Tags Gallery 91.16 91.30 (+0.14)

Таблица : Качество классификации с использованием C-SVM-linear cучетом кросс-валидации.

Александр Панченко 102/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

Качество классификации

Рис. : C -SVM-linear trained on the Gallery dataset and tested on thePirateBay dataset.

Александр Панченко 103/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

Анализ работы

Александр Панченко 104/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

Анализ работы

Александр Панченко 105/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

Анализ работы

Александр Панченко 106/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

Анализ работы

Александр Панченко 107/108

Лексическая семантика Обзор метрик PatternSim HybridSim Приложения

Классификация коротких текстов

Спасибо за внимание!Вопросы?

Александр Панченко 108/108