Вычислительная лексическая семантика: метрики...
DESCRIPTION
Вычислительная лексическая семантика: метрики семантической близости и их приложения Серия лекций в НИУ ВШЭ, факультет бизнес-информатики и прикладной математики (Нижний Новгород)TRANSCRIPT
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Вычислительная лексическаясемантика: метрики семантической
близости и их приложенияСерия лекций в НИУ ВШЭ, факультет бизнес-информатики
и прикладной математики (Нижний Новгород)
Александр ПанченкоDigital Society Laboratory & Universite catholique de Louvain
4 декабря 2013 г.
Александр Панченко 1/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 2/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 3/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Введение
О себе
1 PhD (Natural Language Processing)co-tutelle Universite catholique de Louvain и МГТУ им.Н.Э.Баумана;http://cental.fltr.ucl.ac.be/team/~panchenko/[email protected]
2 Старший исследователь в Digital Society Laboratory.3 Ассоциированный исследователь в Universite catholiquede Louvain.
4 Область научных интересов – Natural Language Processing:
Вычислительная лексическая семантика.Классификация (коротких) текстов.АОТ для анализа социальных сетей.
Александр Панченко 4/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Вычислительная лексическая семантика
* рисунок адаптирован из курса Computational Linguistics LINGI2263http://www.uclouvain.be/en-cours-2013-LINGI2263.html
Александр Панченко 5/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Введение в область лексической семантики
Jurafsky D. and Martin J.H. An Introduction to NaturalLanguage Processing, Computational Linguistics, andSpeech Recognition (2009), chapters 19,20, 22.Cruys T. Mining for meaning: the extraction oflexico-semantic knowledge from text (2010). PhD thesis.http://dissertations.ub.rug.nl/faculties/arts/2010/t.van.de.cruys/
Panchenko A. Similarity Measures for Semantic RelationExtraction (2013) http://cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf
Введение в обработку текста. ИСП РАН, ВМК МГУ,Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/uploads/2011/10/lecture6-2013.pdf
Александр Панченко 6/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические отношения
Рис. : Семантический ресурс из 29 отношений.
Александр Панченко 7/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические отношения: типы
Рис. : Семантический ресурс с (a) типизированными и (b)нетипизированными отношениями.
Александр Панченко 8/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические отношения: типы
Александр Панченко 9/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические отношения: типы
Александр Панченко 10/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические отношения: выразительность
Рис. : Выразительность различных моделей представлениясемантичеких ресурсов.
Александр Панченко 11/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические ресурсы: таксонония
Рис. : A part of the taxonomy of economical activities NACE.
Александр Панченко 12/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические ресурсы: тезаурус
Рис. : The Eurovoc thesaurus: the term “energy industry” and itssemantic relations. Here, hypernyms are denoted with arrows andassociations are denoted with dashed lines.
Александр Панченко 13/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические ресурсы: лексическая база данных
Рис. : Lexical database WordNet: synset engineer and its semanticrelations.
Александр Панченко 14/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Семантические ресурсы: онтология
Рис. : SUMO upper ontology: a part of the class hierarchy.
Александр Панченко 15/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Извлечение семантических отношений из текста
Александр Панченко 16/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики семантической близости
Мотивация исследования
1 Метрики семантической близости полезны для:систем обработки коротких текстов (Saric et al., 2012;Panchenko at., 2012);расширешия поисковых запросов (Hsu et al., 2006);вопросно-ответных систем (Sun et al., 2005);разрешения омонимии (Patwardhan et al., 2003);. . .
Лексико-семантическое знание о языке.Вычислительная лексическая семантика.Computational Lexical Semantics.
Александр Панченко 17/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики семантической близости
Определение
Метрика семантической близости численно выражаетсемантическую связность слов ci и cj : sij = sim(ci , cj):
sij =
{велико если 〈ci , cj〉 – пара syn, hyper , cohypo0 иначе
Свойства
Неотрицательность: 0 ≤ sij ≤ 1;Рефлективность: sij = 1⇔ ci = cj ;Симметричность: sij = sji ;sij ≤ sik + skj
Александр Панченко 18/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики семантической близости: распределение
Малое количество подобных пар: sij ∼ exp(λ).
Распределение сем. близости слова “doctor”:
Александр Панченко 19/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики семантической близости: распределение
Рис. : Number of relations (synonyms and hyponyms) per term in thedictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and aunion of these three resources.
Александр Панченко 20/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Системы измерения семантической близости
Terms
Similarity Measure
R
S
NormalizerS
Semantic Similarity Measure
Semantic Relations
Feature Extractor
Text-Based Data
kNN Procedure
F
C
Semantic Relation Extractor
Как построить систему с высокой точностью и лексическимпокрытием?
Александр Панченко 21/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Оценка качества метрики семантической близости
1 Корреляция с суждениями человека о сем. близости:
Статистики: корреляция Пирсона (ρ) и Спирмена (r).Проверочные данные: MC, RG, WordSim.
2 Ранжирование семантических отношений:Точность, Полнота, F-мера.Проверочные данные: BLESS, SN.
3 Точность извлечения семантических отношений:Статистики: Точность@k.Проверочные данные: аннотирование и/или тезаурусы.
4 Использование метрики в системе АОТ:в системе классификации имен файлов (iCOP);с системе поиска семантически связанных слов (Serelex).
Panchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013, (Chapter 1).
Александр Панченко 22/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Критерии, основанные на суждениях субъектов осемантической близости
слово, ci слово, cj субъект, s sim, s субъект (ранг), r sim (ранг), rtiger cat 7.35 0.85 1 3book paper 7.46 0.95 2 2
computer keyboard 7.62 0.81 3 1... ... ... ... . . . . . .
possibility girl 1.94 0.25 64 65sugar approach 0.88 0.05 65 23
Данные:WordSim353 – 353 пар слов (Finkelstein, 2002)MC – 30 пар слов (Miller Charles, 1991)RG – 65 пар слов (Rubenstein Goodenough, 1965)
Коэффициент корреляции Пирсона: ρ = cov(s,s)σ(s)σ(s)
Коэффициент корреляции Спирмена:: r = cov(r,r)σ(r)σ(r)
Александр Панченко 23/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Критерии, основанные на суждениях субъектов осемантической близости
Александр Панченко 24/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Критерии, основанные на суждениях субъектов осемантической близости
Рис. : Ранговая корреляция Спирмена на наборе данныхMiller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляцияслучайных данных -0.173 (p=0.360).
Александр Панченко 25/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Критерии точности извлечения отношений
слово, ci слово, cj тип отношения, tjudge adjudicate synjudge arbitrate synjudge asessor synjudge chancellor synjudge gendarmerie synjudge sheriff syn... ... ...
judge pc randomjudge fare randomjudge lemon random
Данные:BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper,coord, mero, event, attri, random)SN (Panchenko, 2012) – 14682 отношений (syn, random)
Александр Панченко 26/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Критерии точности извлечения отношений
Основаны на количестве правильно отранжированныхотношений.R – все семантические отношения, не являющиесяслучайными (〈animal , random, bishop〉 и т.п.)R(k) множество извлеченных отношений при количествеближайших соседей k
Критерии
Точность: P(k) = |R∩R(k)||R(k)| ,
Полнота: R(k) = |R∩R(k)||R| ,
F1-мера: F (k) = 2 · P(k)·R(k)P(k)+R(k) ,
Мы используем P(10), P(20), P(50), R(50).
Александр Панченко 27/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Пример: оценка точности извлечения отношений
Точность P(k = 50) = 17 ≈ 0.86
слово, ci слово, cj тип отношения sijaficionado enthusiast syn 0.07197aficionado fan syn 0.05195aficionado admirer syn 0.01964aficionado addict syn 0.01326aficionado devotee syn 0.01163aficionado foundling random 0.00777aficionado fanatic syn 0.00414aficionado adherent syn 0.00353aficionado capital random 0.00232aficionado statute random 0.00029aficionado blot random 0.00025aficionado meddler random 0.00005aficionado enlargement random 0.00003aficionado bawdyhouse random 0.00000
Александр Панченко 28/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 29/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Обзор метрик семантической близости
ПубликацииPanchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013: Chapters 2.1, 3.1.Panchenko A. A Study of Heterogeneous SimilarityMeasures for Semantic Relation Extraction. // InJEP-TALN-RECITAL 2012 — Grenoble (France), 2012.ACL Anthology / Google Scholar: “semantic similaritymeasure”, “semantic similarity”.
Александр Панченко 30/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Обзор метрик семантической близости
Публикации (анализ 37 базовых метрик):Panchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013, (Chapter 3).Panchenko A. A Study of Heterogeneous SimilarityMeasures for Semantic Relation Extraction. // InJEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
Александр Панченко 31/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на семантической сети
Данные: семантическая сеть WordNet 3.0, корпус SemCor.Переменные:
len(ci , cj) – длина кратчайшего пути между ci и cj
len(ci , lcs(ci , cj)) – длина кратчайшего пути от ci доближайшего общего предка (БОП) слов ci и cj
Ближайший Общий Предок (БОП) – Lowest CommonSubsumers (LCS)len(croot , lcs(ci , cj)) – длина кратчайшего пути от корняcroot до БОП слов ci и cj (глубина БОП)P(c) – вероятность слова c , оцененная из корпусаP(lcs(ci , cj)) – вероятность БОП слов ci и cj
Метрики: Инвертированная длина пути, Leacock-Chodorow,Wu-Palmer, Resnik, Jiang-Conrath, Lin.
Александр Панченко 32/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Lowest common subsumer (LCS)
Рис. : Ближайшие общие предки в семантической сети.
(car , food)→ object(beef , pork)→ meat(pork , coupe)→ object(vegetable, pork)→ food
Александр Панченко 33/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на семантической сети
Инвертированная длина пути:
sij = len(ci , cj)−1.
LeacockChodorow:
sij = − loglen(ci , cj)
2h.
Resnik:sij = − logP(cij).
JiangConrath:
dij = 2 logP(cij)− (logP(ci ) + logP(cj)).
Александр Панченко 34/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на семантической сети
Lin:sij =
2 log(P(cij))
log(P(ci ) + log(P(cj))
WuPalmer:
sij =2len(cr , cij)
len(ci , cij) + len(cj , cij) + 2 · len(cr , cij)
Александр Панченко 35/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на семантической сети
Инструменты:
WordNet::Similarity tool (Perl, command-line):http://wn-similarity.sourceforge.net/
NTLK (Python): http://nltk.org
Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html
Александр Панченко 36/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на Веб корпусе текстов
Данные: количество документов возвращенных ИПС: Google,Yahoo, AltaVista, Bing, и т.п.Переменные:
hi – количество документов возвращенных по запросуслова ”ci”
hij – количество документов возвращенных по запросу”ci AND cj”
Метрики:Normalized Google Distance (NGD) (Cilibrasi and Vitanyi,2007)Pointwise Mutual Information - Information Retrieval (PMI-IR)(Turney, 2001)
Александр Панченко 37/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Веб-метрики: пример
Александр Панченко 38/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на Веб корпусе текстов
Normalized Google Distance (NGD):
sij =max(log(hi ), log(hj))− log(hij)
log(M)−min(log(hi ), log(hj))
Pointwise Mutual Information Information Retrieval(PMIIR):
sij = logP(ci , cj)
P(ci )P(cj)= log
hij∑i,j hij
hi∑i,j hij
hj∑i,j hij
≈ loghij
hihj.
Александр Панченко 39/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Дистрибутивные метрики
Данные: корпус, такой как Википедия или ukWaC
Метрики:Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006)Syntactic Distributional Analysis (SDA) (Curran, 2003)
Александр Панченко 40/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Дистрибутивные метрики
Переменные:fi– вектор признаков представляющий слово ci ,основанный на контекстном окнеfsi – вектор признаков представляющий слово ci ,основанный на синтаксическом контекстном окне
Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)
Александр Панченко 41/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Другие метрики, основанные на корпусе текстов
Данные: корпус, такой как Википедия или ukWaCМетрики:
Латентно-cемантический анализ (LSA) (Landauer andDumais, 1997)Вероятностные модели (pLSA, LDA и др.) (Griffiths et al.,2007)NGD и PMI-IR (Veksler et al., 2008). . .
Александр Панченко 42/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Латентно-семантический анализ
Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997):1 Representing the corpus D as an N ×M term-document
matrix F.2 Normalization of the matrix F with TF-IDF:
f ′ij =fij∑i fij· log
|D||d ∈ D : wi ∈ d |
,
3 Singular value decomposition of D: D = UΣVT .4 Low-rank approximation of the matrix U with a reduced M × k
matrix Uk by retaining only the first k column of the U.5 Calculation of similarities between terms ci and cj as a cosine
between respective columns of Uk (uki and uk
i ):
sij =uk
i · ukj
||uki ||||uk
j ||.
Александр Панченко 43/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Латентно-семантический анализ
U is an M ×M matrix which columns are the orthogonaleigenvectors of DDT
VT is an N × N matrix which columns are the orthogonaleigenvectors of DTDΣ is an M × N diagonal matrix:
Σ =
σ11 . . . 0...
. . ....
0 · · · σnn
.
The i-th element on the diagonal σii =√λi , where λi is an
eigenvalue of DDT .The eigenvalues are ordered, such that λi ≥ λi+1.
Источник: Manning et al. Introduction to information retrieval (2008), p.374.
Александр Панченко 44/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Латентно-семантический анализ
Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)
Александр Панченко 45/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на определениях
Данные: определения из WordNet, Википедии, Викисловаряили любого другого словаря.Переменные:
gloss(ci ) – определение слова ci ;fi вектор признаков, построенный из gloss(ci );fi – вектор признаков ci , вычисленный на корпусе из всехопределений методом контекстного окна;exist(ci , cj) – наличие связи между ci и cj в словаре.
Метрики:ExtendedLesk (Banerjee and Pedersen, 2003)GlossVectors (Patwardhan and Pedersen, 2006)DefVectors (Panchenko et al., 2012)
Александр Панченко 46/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на определениях: Extended Lesk
relies on the gloss similarity of terms ci and cj
relies on gloss similarity of all terms related to ci and cj
sij =∑ci∈Ci
∑cj∈Cj
simg (ci , cj),
simg is a gloss-based similarity measure and set Ci includesconcept ci and all concepts directly related to it.
Александр Панченко 47/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрики, основанные на определениях: GlossVectors
a cosine between vectors vi and vj representing concepts ciand cj
a vector vi is a sum of context vectors representing all wordsfrom the definition of ci and the definitions of terms related toci :
sij =vi · vj
||vi ||||vj ||where vi =
∑∀j :cj∈Gi
fj .
fj is a context vector, derived from the corpus of all glossesGi is concatenation of glosses of the concept ci and allconcepts which are directly related to it.
Александр Панченко 48/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Сравнение базовых метрик семантической близости
Александр Панченко 49/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Сравнение базовых метрик семантической близости
Александр Панченко 50/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Сравнение: лучшие базовые метрики
Каждая метрика излекает много ко-гипонимов:〈Canon,Nikon〉,〈Lamborghini ,Ferrari〉,〈Obama,Romney〉.
Александр Панченко 51/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Резюме
Основные ресурсы для построения метрик:
семантические сети и тезаурусы;корпуса текстов;Веб корпус текстов;определения из словарей и энциклопедий.
Метрики дополняют друг друга в терминах:
лексического покрытия;точности;типов извлекаемых отношений.
Александр Панченко 52/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Программное обеспечение
Semantic Vectors:https://code.google.com/p/semanticvectors/S-Space Package:https://code.google.com/p/airhead-research/WordNet::Similarity:http://wn-similarity.sourceforge.netNLTK: http://nltk.googlecode.com/svn/trunk/doc/howto/wordnet.htmlWikiRelate!PatternSim / Serelex: http://serelex.cental.beМетрики, основанные на Веб корпусе:http://cwl-projects.cogsci.rpi.edu/msrLSA: http://lsa.colorado.eduDefVectors: http://github.com/jgc128/defvectors
Александр Панченко 53/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 54/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Публикации
Hearst, M. A. Automatic acquisition of hyponyms from largetext corpora. In ACL, pages 539–545, 1992.Panchenko A., Morozova O., Naets H. A SemanticSimilarity Measure Based on Lexico-Syntactic Patterns.In Proceedings of KONVENS 2012, pp.174–178, 2012Panchenko A., Romanov P., Morozova O., Naets H.,Philippovich A., Fairon C. Serelex: Search and Visualizationof Semantically Related Words. In Proceedings of the 35thEuropean Conference on Information Retrieval (ECIR 2013).Панченко А., Романов П., Романов А., Филиппович А.,Филиппович Ю., Морозова О. Серелекс: поиск ивизуализация семантически связанных слов. АнализИзображений, Сетей и Текстов (АИСТ), Интуит, 2013
Александр Панченко 55/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Демо
http://serelex.cental.be/
Александр Панченко 56/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Лексико-синтаксические паттерны
18 паттернов извлекающих гиперонимы, ко-гипонимы исинонимы
Александр Панченко 57/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Основной каскад преобразователей
Каскад конечных автоматов (FST)В формате Unitex: http://igm.univ-mlv.fr/~unitex/
Александр Панченко 58/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Пример реализации паттерна в виде автомата
Паттерны, основанные на автоматах позволяют учестьлингвистическую вариацию, сохранив точностьВ отличие от паттернов основанных на строках (Bollegalaet al., 2007)
Александр Панченко 59/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
PatternSim: основные этапы
Паттерны извлекают конкордансы
such diverse {[occupations]} as {[doctors]},{[engineers]} and {[scientists]}[PATTERN=1]
such {non-alcoholic [sodas]} as {[root beer]} and{[cream soda]}[PATTERN=1]
{traditional[food]}, such as{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]
Александр Панченко 60/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов
Количество извлечений
Wikipedia – 1.196.468ukWaC – 2.227.025WaCypedia+ukWaC – 3.423.493
Александр Панченко 61/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Метрика семантической близости PatternSim
Александр Панченко 62/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Вычисление подобия: rerank
Efreq: мера подобия равна количеству извлеченныхотношений
sij = sij
Efreq-Cfreq: нормализация по частоте слов
sij =P(ci , cj)
P(ci )P(cj)
P(ci , cj) =eij∑ij eij
– вероятность извлечения отношения〈ci , cj〉, где eij – частота взаимной встречаемости слов ci иcj во множестве конкордансовP(ci ) = fi∑
i fi– вероятность слова ci , где fi – частота ci
Александр Панченко 63/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Вычисление подобия:
Efreq-Rnum-Cfreq-Pnum:
sij =√
pij ·2 · µb
bi∗ + b∗j·
P(ci , cj)
P(ci )P(cj).
P(ci , cj) =eij∑ij eij
– вероятность извлечения отношения〈ci , cj〉, где eij – частота взаимной встречаемости слов ci иcj во множестве конкордансовP(ci ) = fi∑
i fi– вероятность слова ci , где fi – частота ci
bi∗ =∑
j :eij≥β 1 – количество извлечений слова ci с
частотой ≥ β, где µb = 1|C |∑|C |
i=1 bi∗ – среднее количествоизвлечений для отдельного словаpij ∈ [1; 18] – количество отдельных паттернов которыеизвлекли отношение 〈ci , cj〉
Александр Панченко 64/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Ранжирование семантических отношений
Точность сравнима или лучше чем у аналогов;Полнота меньше чем у аналогов.
Рис. : График точность-полнота (коллекция BLESS).Александр Панченко 65/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Извлечение семантических отношений
Точность@1 ≈ 0.80;“Хорошее” лексическое покрытие:
Александр Панченко 66/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Сравнение результатов базовых метрик и PatternSim
Александр Панченко 67/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 68/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Публикациии
Panchenko A., Morozova O. A Study of Hybrid SimilarityMeasures for Semantic Relation Extraction. // InnovativeHybrid Approaches to the Processing of Textual DataWorkshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18Panchenko A., Similarity Measures for Semantic RelationExtraction. PhD thesis. Universite catholique de Louvain. 197pages, 2013, (Chapter 4).Panchenko A. A Study of Heterogeneous SimilarityMeasures for Semantic Relation Extraction. // InJEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp.29–42.
Александр Панченко 69/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Отдельные и гибридные метрики
Terms, C
simi
(a) (b)
combination method
Scmb
S1 SN
sim1
S1
simN
normSN
...
...norm
normScmb
knn
R
Si
normSi
knn
Single Similarity Measure
Hybrid Similarity Measure
Relations,
Terms, C
RRelations,
Features
Рис. : Система извлечения семантических отношений основанная на:
(a) отдельной метрике;
(b) гибридной метрике.
Александр Панченко 70/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
16 признаков = 16 отдельных метрик
5 метрик основанных на семантических сетях:1 WuPalmer;2 Leacock and Chodorow;3 Resnik;4 Jiang and Conrath;5 Lin.
3 метрики, основанные на Веб корпусе(NGD-Yahoo/Bing/Google);5 метрики, основанные на корпусе текстов:
2 дистрибутивных (BDA, SDA)1 лексико-синтаксические шаблоны (PatternSim)2 другие (LSA, NGD-Factiva)
3 метрики, основанные на определениях1 ExtendedLesk;2 GlossVectors;3 DefVectors-WktWiki.
Александр Панченко 71/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Методы комбинирования без учителя
skij ∈ [0; 1] – попарное семантическое подобие слов wi и wj ,вычисленное с помощью k-й метрики Sk .
Mean
Среднее между K попарными подобиями слов:
scmbij =
1K
∑k=1,K
skij ;
Mean-Nnz
Среднее между K попарными подобиями слов больше нуля:
scmbij =
1|k : sk
ij > 0, k = 1,K |∑
k=1,K
skij ;
Александр Панченко 72/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Методы комбинирования без учителя
Mean-Zscore
Среднее между нормированными попарными подобиями слов(Z-score):
Scmb =1K
K∑k=1
Sk − µk
σk;
где µk и σk среднее и стандартное отклонение значений k-йметрики (Sk).
Median
Медиана между K попарными подобиями слов:
scmbij = median(s1
ij , . . . , sKij ).
Александр Панченко 73/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Методы комбинирования без учителя
Max
Максимум между K попарными подобиями слов:scmbij = max(s1
ij , . . . , sKij );
RankFusion
Среднее между рангами слов:
scmbij =
1K
∑k=1,K
rkij .
где rkij – ранк, соответствующий значению попарного подобия
skij .
Александр Панченко 74/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Методы комбинирования метрик подобия
RelationFusion
Объединение отношений, извлеченных каждым методом.Отношения, извлеченные несколькими метриками, надежнее.
Input: Матрицы подобия, сгенерированные K метриками{S1, . . . ,SK}, количество ближайших соседей k
Output: Комбинированная матрица подобия, Scmb1 for i=1,N do2 Ri ← knn(Si , k) ;3 Ri ← relation_matrix(Ri )
4 Scmb ← 1N∑N
i=1 Ri ;5 return Scmb ;
relation_matrix : rij =
{1 if 〈ci , cj〉 ∈ Rk0 else
Александр Панченко 75/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Бинарная логистическая регрессия;Положительные обучающие примеры – синонимы,гиперонимы, ко-гипонимы из BLESS/SN;Отрицательные обучающие примеры – случайныепары семантически несвязных слов из BLESS/SN;Отношение 〈ci , t, cj〉 ∈ R представлено с помощьювектора попарных близостей: x = (s1
ij , . . . , sNij ),N = 2, 16;
Категория yij :
yij =
{0 если 〈ci , t, cj〉 случайное отношение1 иначе
Александр Панченко 76/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Logit максимизирует следующую функционал:
L(w) = maxw
N∑i=1
ln scmbij +
N∑i=1
ln(1− scmbij )
Использование модели (w1, . . . ,wK ) длякомбинирования:
scmbij = P(rij = 1|s1
ij , . . . , sKij ) =
11 + e−z , где
z =K∑
k=1
wkskij + w0.
Александр Панченко 77/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Модель комбинирования метрик
Рис. : Weights of the similarity measures used by the hybrid measureLogit-E15. The weights were learnt on the BLESS dataset with 10-foldcross validation repeated 10 times.
Александр Панченко 78/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Методы комбинирования с учителем
Машина Опорных Векторов (SVM), линейное ядро
Веса w и опорные вектораSV :
w =∑
xi∈SV
αiyixi .
Использование модели
scmbij = wTx+b =
K∑k=1
wi skij +b.
Александр Панченко 79/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Машина Опорных Векторов (SVM), линейное ядро
Geometrical margin is the distance to the closest data point:
ρ =wTx− b||w||
.
SVM maximizes the margin : ρ = wT x−b||w|| = 1
||w|| .
Result – a set of support vectors: SV = {x1, . . . , xm}, whereyi ∈ {+1,−1} is the label.Weight vector: w =
∑xi∈SV αiyixi .
C -SVM optimizes the following function:
minw,ξ,b
12 ||w||
2 + C∑n
i=1 ξi (1)
subject to yi (wTφ(xi )) ≥ 1− ξi ,ξi ≥ 0.
The function φ(x, x′) is called kernel.Александр Панченко 80/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Какие из отдельных метрик следует комбинировать?
Количество возможных комбинаций
34:∑34
m=2 Cm34 =
∑34m=2
34!m!(34−m)! = 234 = 1.718 · 1010
16:∑16
m=2 Cm16 =
∑16m=2
16!m!(16−m)! = 65536
Экспертный выбор: 5, 9 и 15 метрик из 16Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16Анализ коэффициентов логистической регрессии: 12 из16
Александр Панченко 81/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: базовые метрики, корреляция с суждениямисубъектов
Рис. : Pearson – корреляция Пирсона, Spearman – корреляция Спирмена.
Александр Панченко 82/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: базовые метрики, ранжирование отношний
Александр Панченко 83/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: базовые метрики, ранжирование отношний
Рис. : Графики Точность-Полнота (слева) 4х лучших метрикоснованных на корпусе, семантических сетях, определениях иметрика, основанная на среднем значении 14 метрик; (слева)метрики основанных на определениях Викисловаря и Википедии.
Александр Панченко 84/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: отдельные и комбинированные метрики
Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC,RG, WordSim353 – корреляция с суждениями человека. BLESS, SN –точность извлечения семантических отношений. Наилучшие значения вгруппе (отдельные/комбинированные) обозначены полужирным шрифтом;наилучшие значения обозначены серым цветом.
Александр Панченко 85/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: методы комбинирования с учителем
График Точность-Полнота вычисленный на коллекции BLESS:(a) 16 отдельных метрик и гибридная метрика Logit-E15;(b) 8 гибридных метрик.
Александр Панченко 86/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: метод комбинирования с учителем Logit-E15
Рис. : Значение подобия между 74 словами связанными со словом“acacia”.
Александр Панченко 87/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: методы комбинирования с учителем
Александр Панченко 88/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Результаты: методы комбинирования с учителем(продолжение)
Рис. : Оптимизация мета-параметров метрики C-SVM-radial-E15.
Александр Панченко 89/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 90/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 91/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде списка и графа слов
http://serelex.cental.be/
Александр Панченко 92/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде графа слов
Александр Панченко 93/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде графа слов
Александр Панченко 94/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде графа слов
Александр Панченко 95/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде множества изображений
Александр Панченко 96/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
Оценка качества работы системы Серелекс
Рис. : Удовлетворенность пользователей первыми 20 результатамипоиска для 594 запроса (23 ассесора и 109 пользователей).
Александр Панченко 97/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Поиск и визуализация семантически связанных слов
Оценка качества работы системы Серелекс
Александр Панченко 98/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 99/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
iCop: классификация имен файлов
Рис. : Структура системы.
Использование семантических отношений для расширенияимени файла (Vocabulary Projection).
Александр Панченко 100/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
iCop: пример Vocabulary Projection
Александр Панченко 101/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
Качество классификации
Обучающая выборка Тестовая выборка Accuracy Accuracy (voc. projection)Gallery (train) Gallery 96.41 96.83 (+0.42)PirateBay Title+Desc+Tags PirateBay Title+Desc+Tags 98.92 98.86 (–0.06)PirateBay Title+Tags PirateBay Title+Tags 97.73 97.63 (–0.10)Gallery PirateBay Title+Desc+Tags 90.57 91.48 (+0.91)Gallery PirateBay Title+Tags 84.23 88.89 (+4.66)PirateBay Title+Desc+Tags Gallery 88.83 89.04 (+0.21)PirateBay Title+Tags Gallery 91.16 91.30 (+0.14)
Таблица : Качество классификации с использованием C-SVM-linear cучетом кросс-валидации.
Александр Панченко 102/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
Качество классификации
Рис. : C -SVM-linear trained on the Gallery dataset and tested on thePirateBay dataset.
Александр Панченко 103/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
Анализ работы
Александр Панченко 104/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
Анализ работы
Александр Панченко 105/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
Анализ работы
Александр Панченко 106/108
Лексическая семантика Обзор метрик PatternSim HybridSim Приложения
Классификация коротких текстов
Анализ работы
Александр Панченко 107/108