куликов sketch engine ord

36
Основные возможности Sketch Engine Куликов В.В https://sketchengine.co.uk/

Upload: -

Post on 22-May-2015

296 views

Category:

Education


9 download

DESCRIPTION

2013 осень

TRANSCRIPT

Page 1: куликов Sketch engine ord

Основные возможности Sketch Engine

Куликов В.В

https://sketchengine.co.uk/

Page 2: куликов Sketch engine ord

Содержание

• Введение: цели и особенности • Функции Sketch Engine

– Извлечение лексикографических данных – Создание и сравнение корпусов

• Национальный корпус русского языка • Заключение

2

Page 3: куликов Sketch engine ord

Sketch Engine: Введение • Продукт компании Lexical Computing,

которую основал Адам Килгариф (Adam Kilgarriff) в 2003 году.

• Был представлен на конференции Euralex 2002

• Использовался при построении Macmillian English Dictionanary

3

Page 4: куликов Sketch engine ord

Sketch Engine: Цели

• Создание инструмента для изучения лексикографических свойств слов. – На базе корпусов – На базе статистических данных

• Продвижение эмпирического подхода к изучению поведения слов в языке.

4

Page 5: куликов Sketch engine ord

Sketch Engine: Особенности

• Поддерживает множество языков • Китайский, чешский, английский (американский и

британский), эстонский, финский, греческий, итальянский, японский, польский, румынский, русский, испанский, шведский и др.

• Необходима разметка для входных текстов • Морфологический анализ слов, определение

грамматических отношений • Допускает:

– Работу на разных корпусах, с разной разметкой – Изменение набора грамматических отношений

5

Page 6: куликов Sketch engine ord

Sketch Engine: Извлечение лексикографических данных

• Word Sketch – поиск слов, связанных с данным словом заданными грамматическими отношениями

• Word List – формирование списка слов по определенному критерию

• Sketch Diff – сравнение Word Sketch для двух слов

• Concordance – вычисление статистики по заданному запросу

• Thesaurus – составление списка квазисинонимов для заданного слова

6

Page 7: куликов Sketch engine ord

Sketch Engine: Создание и сравнение корпусов

• Corpus Architect – создание корпусов по исходным документам

• WebBootCat – создание корпусов по заданным словам на базе Интернет

• Сравнение корпусов • Просмотр параллельных корпусов

7

Page 8: куликов Sketch engine ord

Извлечение лексикографических данных

8

Page 9: куликов Sketch engine ord

Функция Word Sketch • Поиск слов, связанных с данным словом

определенными для корпуса грамматическими отношениями

• Для оценки связности слов используется мера logDice

• Пример отношений: – object_to – объектные отношения

• he scores a goal; достигнуть благородной цели – subject_to – субъектные отношения

• his goal had earned they victory; цель заключалась в том, … – modifier/modifies – атрибутивные отношения

• my ultimate goal; основной целью были деньги 9

Page 10: куликов Sketch engine ord

Грамматические отношения • Задаются шаблоном с помощью

формального языка CQL (The Corpus Query Language)

Описание языка: http://www.sketchengine.co.uk/documentation/wiki/SkE/CorpusQuerying#1. 10

Грам. отношение: =my_subj/my_subject_of 1:"V.*" “N.*"{0,2} 2:[tag="PP"&word!=«я»] Сопоставление: водить машину она не умела иди ты лесом

Page 11: куликов Sketch engine ord

Word Sketch: Пример Набор отношений для слова “goal” Второй столбец – частота, третий – мера logDice

11

Page 12: куликов Sketch engine ord

Мера logDice

)()(),(2log14log 2 bfaf

bafDice+

+=

12

• f – frequency, • f (a, b) – частота совместной встречаемости

пары слов a, b • f (a) – абсолютная частота отдельного слова a

Page 13: куликов Sketch engine ord

Функция Word List • Формирование списка слов по

определенному критерию (свойству) • Задаётся атрибут

(словоформа, лемма или тег) • Этот атрибут конкретизируется с помощью

регулярного выражения (что именно искать)

13

Page 14: куликов Sketch engine ord

Word List: Ввод запроса

14

Page 15: куликов Sketch engine ord

Word List: Результат по запросу Все существительные в корпусе

15

Page 16: куликов Sketch engine ord

Функция Sketch Diff • Сравнение Word Sketch двух слов

• Для заданных слов: (напр.: clever/intelligent) по каждому грам. отношению (н.: modifier) строится общий список связанных слов.

• Список выводится по возрастанию/убыванию меры logDice – В начале списка идут слова с высоким

значением меры для второго и малым для первого, а в конце – наоборот.

• Для визуализации различий используются красный и зеленый цвета

16

Page 17: куликов Sketch engine ord

Sketch Diff: Пример

17

Page 18: куликов Sketch engine ord

Функция Concordance • Вычисление статистики по запросу • Отображаются контексты для слов,

заданных в запросе • Виды запросов

– Простой запрос: все вхождение данного слова – Лемма: все словоформы для данного слова – Фраза: все вхождения фразы – Словоформа: все вхождения данной

словоформы – CQL – запрос на специальном языке CQL

18

Page 19: куликов Sketch engine ord

Concordance: Ввод простого запроса

19

Page 20: куликов Sketch engine ord

Concordance: Результат для запроса

20

Page 21: куликов Sketch engine ord

Функция Thesaurus

• Построение списка квазисинонимов для данного слова (по корпусу)

• Определяется на основе сравнения Word Sketch слов корпуса

21

Page 22: куликов Sketch engine ord

Функции создания и сравнения корпусов

22

Page 23: куликов Sketch engine ord

Функция Corpus Architect

• Создание собственного корпуса из документов различного формата: TXT, PDF, PS, DOC, HTML, VERT (или архивы)

• 2 этапа: – Загрузка документов – Разметка документов

(включая морфологический анализ)

23

Page 24: куликов Sketch engine ord

Corpus Architect: Ввод источника данных

24

Page 25: куликов Sketch engine ord

Функция WebBootCat • Задаются слова, которые должны встречаться

в документах • В качестве документов – интернет-страницы с

указанными словами • 2 этапа – выборка страниц, их разметка

25

Page 26: куликов Sketch engine ord

Функция сравнения корпусов

• Производится на основе анализа ключевых слов

• Ключевые слова – слова, наиболее характерные для данного корпуса

26

Page 27: куликов Sketch engine ord

Сравнение корпусов: Пример

27

Page 28: куликов Sketch engine ord

Функция просмотра параллельных корпусов

• Параллельный корпус - мультиязычный корпус, где соотнесены текст на одном языке и его перевод на другой язык

• Позволяет изучать, как слова и фразы в одном языке ведут себя в другом языке

28

Page 29: куликов Sketch engine ord

Параллельные корпуса: Пример

• Английское слово “key” и немецкое “Schlüssel”

29

Page 30: куликов Sketch engine ord

Национальный корпус русского языка

• Большой размеченный корпус, поделенный на подкорпусы (поэтический, газетный, диалектный и др.) с возможностью поиска по корпусу.

• Ориентирован на изучение поведения слов в различных «стилях» – Газетные статьи, художественная литература,

научная литература и т.п. • http://www.ruscorpora.ru

30

Page 31: куликов Sketch engine ord

Национальный корпус русского языка: Виды поиска

• На основе морфологической разметки – Задается часть речи или словоформа

(и грам. признаки) • На основе лексико-семантической

информации и Семантического словаря Корпуса – Задается семантическая группа, к которой

относится слово: еда, время и пространство и др. • На основе синтаксической разметки текста

(доступен только для синтаксического корпуса) – Задаются синтаксические отношения

31

Page 32: куликов Sketch engine ord

Национальный корпус: поиск слов • Поиск по словам с возможным указанием

контекста

32

Page 33: куликов Sketch engine ord

Национальный корпус: Ввод признаков

Список грамматических признаков для слова

33

Page 34: куликов Sketch engine ord

Национальный корпус: Результат для запроса

34

Page 35: куликов Sketch engine ord

Заключение

• Sketch Engine – мощное средство для просмотра, анализа, сбора статистики по текстам заданного корпуса.

• Sketch Engine обладает достаточной гибкостью для работы с самыми разными корпусами

35

Page 36: куликов Sketch engine ord

Спасибо за внимание

36