куликов sketch engine ord
DESCRIPTION
2013 осеньTRANSCRIPT
Основные возможности Sketch Engine
Куликов В.В
https://sketchengine.co.uk/
Содержание
• Введение: цели и особенности • Функции Sketch Engine
– Извлечение лексикографических данных – Создание и сравнение корпусов
• Национальный корпус русского языка • Заключение
2
Sketch Engine: Введение • Продукт компании Lexical Computing,
которую основал Адам Килгариф (Adam Kilgarriff) в 2003 году.
• Был представлен на конференции Euralex 2002
• Использовался при построении Macmillian English Dictionanary
3
Sketch Engine: Цели
• Создание инструмента для изучения лексикографических свойств слов. – На базе корпусов – На базе статистических данных
• Продвижение эмпирического подхода к изучению поведения слов в языке.
4
Sketch Engine: Особенности
• Поддерживает множество языков • Китайский, чешский, английский (американский и
британский), эстонский, финский, греческий, итальянский, японский, польский, румынский, русский, испанский, шведский и др.
• Необходима разметка для входных текстов • Морфологический анализ слов, определение
грамматических отношений • Допускает:
– Работу на разных корпусах, с разной разметкой – Изменение набора грамматических отношений
5
Sketch Engine: Извлечение лексикографических данных
• Word Sketch – поиск слов, связанных с данным словом заданными грамматическими отношениями
• Word List – формирование списка слов по определенному критерию
• Sketch Diff – сравнение Word Sketch для двух слов
• Concordance – вычисление статистики по заданному запросу
• Thesaurus – составление списка квазисинонимов для заданного слова
6
Sketch Engine: Создание и сравнение корпусов
• Corpus Architect – создание корпусов по исходным документам
• WebBootCat – создание корпусов по заданным словам на базе Интернет
• Сравнение корпусов • Просмотр параллельных корпусов
7
Извлечение лексикографических данных
8
Функция Word Sketch • Поиск слов, связанных с данным словом
определенными для корпуса грамматическими отношениями
• Для оценки связности слов используется мера logDice
• Пример отношений: – object_to – объектные отношения
• he scores a goal; достигнуть благородной цели – subject_to – субъектные отношения
• his goal had earned they victory; цель заключалась в том, … – modifier/modifies – атрибутивные отношения
• my ultimate goal; основной целью были деньги 9
Грамматические отношения • Задаются шаблоном с помощью
формального языка CQL (The Corpus Query Language)
Описание языка: http://www.sketchengine.co.uk/documentation/wiki/SkE/CorpusQuerying#1. 10
Грам. отношение: =my_subj/my_subject_of 1:"V.*" “N.*"{0,2} 2:[tag="PP"&word!=«я»] Сопоставление: водить машину она не умела иди ты лесом
Word Sketch: Пример Набор отношений для слова “goal” Второй столбец – частота, третий – мера logDice
11
Мера logDice
)()(),(2log14log 2 bfaf
bafDice+
+=
12
• f – frequency, • f (a, b) – частота совместной встречаемости
пары слов a, b • f (a) – абсолютная частота отдельного слова a
Функция Word List • Формирование списка слов по
определенному критерию (свойству) • Задаётся атрибут
(словоформа, лемма или тег) • Этот атрибут конкретизируется с помощью
регулярного выражения (что именно искать)
13
Word List: Ввод запроса
14
Word List: Результат по запросу Все существительные в корпусе
15
Функция Sketch Diff • Сравнение Word Sketch двух слов
• Для заданных слов: (напр.: clever/intelligent) по каждому грам. отношению (н.: modifier) строится общий список связанных слов.
• Список выводится по возрастанию/убыванию меры logDice – В начале списка идут слова с высоким
значением меры для второго и малым для первого, а в конце – наоборот.
• Для визуализации различий используются красный и зеленый цвета
16
Sketch Diff: Пример
17
Функция Concordance • Вычисление статистики по запросу • Отображаются контексты для слов,
заданных в запросе • Виды запросов
– Простой запрос: все вхождение данного слова – Лемма: все словоформы для данного слова – Фраза: все вхождения фразы – Словоформа: все вхождения данной
словоформы – CQL – запрос на специальном языке CQL
18
Concordance: Ввод простого запроса
19
Concordance: Результат для запроса
20
Функция Thesaurus
• Построение списка квазисинонимов для данного слова (по корпусу)
• Определяется на основе сравнения Word Sketch слов корпуса
21
Функции создания и сравнения корпусов
22
Функция Corpus Architect
• Создание собственного корпуса из документов различного формата: TXT, PDF, PS, DOC, HTML, VERT (или архивы)
• 2 этапа: – Загрузка документов – Разметка документов
(включая морфологический анализ)
23
Corpus Architect: Ввод источника данных
24
Функция WebBootCat • Задаются слова, которые должны встречаться
в документах • В качестве документов – интернет-страницы с
указанными словами • 2 этапа – выборка страниц, их разметка
25
Функция сравнения корпусов
• Производится на основе анализа ключевых слов
• Ключевые слова – слова, наиболее характерные для данного корпуса
26
Сравнение корпусов: Пример
27
Функция просмотра параллельных корпусов
• Параллельный корпус - мультиязычный корпус, где соотнесены текст на одном языке и его перевод на другой язык
• Позволяет изучать, как слова и фразы в одном языке ведут себя в другом языке
28
Параллельные корпуса: Пример
• Английское слово “key” и немецкое “Schlüssel”
29
Национальный корпус русского языка
• Большой размеченный корпус, поделенный на подкорпусы (поэтический, газетный, диалектный и др.) с возможностью поиска по корпусу.
• Ориентирован на изучение поведения слов в различных «стилях» – Газетные статьи, художественная литература,
научная литература и т.п. • http://www.ruscorpora.ru
30
Национальный корпус русского языка: Виды поиска
• На основе морфологической разметки – Задается часть речи или словоформа
(и грам. признаки) • На основе лексико-семантической
информации и Семантического словаря Корпуса – Задается семантическая группа, к которой
относится слово: еда, время и пространство и др. • На основе синтаксической разметки текста
(доступен только для синтаксического корпуса) – Задаются синтаксические отношения
31
Национальный корпус: поиск слов • Поиск по словам с возможным указанием
контекста
32
Национальный корпус: Ввод признаков
Список грамматических признаков для слова
33
Национальный корпус: Результат для запроса
34
Заключение
• Sketch Engine – мощное средство для просмотра, анализа, сбора статистики по текстам заданного корпуса.
• Sketch Engine обладает достаточной гибкостью для работы с самыми разными корпусами
35
Спасибо за внимание
36