О методе интерактивного разрешения неоднозначности в...
DESCRIPTION
О методе интерактивного разрешения неоднозначности в системах машинного перевода А. Бердичевский (ОТиПЛ МГУ) [email protected] Семинар «Некоторые применения математических методов в языкознании » под руководством В. А. Успенского 9 октября 2004 г. ЭТАП-3 : - PowerPoint PPT PresentationTRANSCRIPT
1
О методе интерактивного разрешения неоднозначности в системах машинного перевода
А. Бердичевский (ОТиПЛ МГУ)[email protected]
Семинар «Некоторые применения математических методов в языкознании» под руководством В. А. Успенского
9 октября 2004 г.
2
ЭТАП-3 : результат примерно двадцатилетней работы Лаборатории
компьютерной лингвистики Института проблем передачи информации РАН
Ю. Д. АпресянИ. М. БогуславскийЛ. Л. ИомдинА. В. ЛазурскийЛ. Г. МитюшинН. В. ПерцовВ. З. Санников.Л. Л. Цинмани др.
3
Четыре части доклада:
«Информационная»:
а) о проблеме неоднозначности в системах МП.
б) об ЭТАПе.
в) о других системах МП.
«Отчетная»:
о проделанной работе по разрешению лексической неоднозначности.
«Прикладная»:
новые предложения по разрешению синтаксической неоднозначности
«Теоретическая»:
некоторые выводы и наблюдения, сделанные в процессе работы.
4
Постановка проблемы
Неоднозначность – неотъемлемое свойство человеческого языка (и мышления)
Обычно не представляет проблемы для носителей языка: адресанту неведома, адресатом разрешается за счет прагматических данных.
В большинстве случаев высказывание даже не подвергается сознательному анализу, т.к. человек сразу выделяет верный вариант.
5
Постановка проблемы
Слабость машины:
• Отсутствие возможности обратиться к прагматике.
• «Беспристрастность»: обнаружение всех допустимых
вариантов перевода.
• Отсутствие холистического восприятия.
• А кроме того…
6
Постановка проблемы
В проблемных случаях адресат использует метаязыковую операцию:
обращается к адресанту с вопросом.
— Мы, управление дома, — с ненавистью заговорил Швондер, — пришли к вам после общего собрания жильцов нашего дома, на котором стоял вопрос об уплотнении квартир дома...
— Кто на ком стоял? — Крикнул Филипп Филиппович, — потрудитесь излагать ваши мысли яснее.
М. А. Булгаков, «Собачье сердце».
7
Постановка проблемы
Система МП вопросов не задает.
Идея МИРН – научить ее это делать.
Задача: разработать язык формулирования запросов, понятный машине и доступный пользователю.Дан ряд ограничений характеристик «пользователя».
Прикладная и теоретическая проблема.
8
Кратко об ЭТАПе:
ЭлектроТехнический Автоматический Перевод
Теоретическая база: МСТ И. А. Мельчука, также теория интегрального описания языка и принципы системной
лексикографии Ю. Д. Апресяна.
Существенные для доклада характеристики:
•Поуровневое представления языковых данных
•Использование деревьев зависимостей и ПСО.
•Использование лексических функций
•Отсутствие работы со сверхфразовыми единствами
9
АРН в ЭТАПе: краткий обзор
Разрешение по ближайшему линейному контексту:
He laughs too loudly
The laughs of the audience became too loud
10
АРН в ЭТАПе: краткий обзор
Разрешение с помощью механизмов фильтрации:
•Древесные условия формирования бинарных поддеревьев.
•Механизм установления окончательных синтаксических связей.
•Фильтр древесности
•Фильтр повторимости-неповторимости ПСО
•Фильтр проективности
11
АРН в ЭТАПе: краткий обзор
Разрешение с помощью правил предпочтения: система приоритетов.
Разрешение перебором альтернатив: окончательная проверка уцелевших гипотез.
Все механизмы работают в цикле.
Достоинство интерфейса: пользователю предлагается несколько вариантов перевода.
12
АРН в ЭТАПе: краткий обзор
Разрешение с использованием нетривиальных правил перевода.НПП обеспечивают компенсацию расхождения входного и выходного языков.Например, лексические функции:
The heavers loaded the shipГрузчики загрузили корабль.
The soldier loaded the gunСолдат зарядил ружье.
Gun: в статье КС есть запись _PREPAR:LOAD2(/AIM2 )Ружье: в статье КС есть запись _PREPAR:ЗАРЯЖАТЬ
13
АРН в ЭТАПе: краткий обзор
Разрешение с использованием синтаксически размеченного корпуса (И. С. Чардин).
Совмещение эвристической и статистической стратегии.
Все вышеописанные алгоритмы недостаточно мощны, особенно если речь идет о выборе лучшей структуры из нескольких возможных.
14
Пределы возможностей
Джон предупреждал о трудностях пути John has warned of a difficulty of the way
John has warned of a hardship of the way
John has warned about a difficulty of the way
John has warned about a hardship of the way
John has warned of a difficulty the ways
John has warned of a hardship the ways
John has warned about a difficulty the ways
John has warned about a hardship the ways
15
Пределы возможностей
The wolf ran from behind a pine:
Волк выполнил из зада сосну.
16
Пределы возможностей
Выпей коньяка!
Drink cognac!
The bitterns of cognac!
17
Пределы возможностейОн вправе определять время начала и окончания рабочего дня
•He has a right to define the time of the beginning and a completion of a working day •He has a right to define the time of the beginning and the completions of a working day •He has a right to define the time of the beginning and a working completion of a day •He has a right to define the time of the beginning and a completion of a worker of a day •He has a right to define the time of the beginning and the worker's completion of day •He has a right to define the time of the beginning and a completion of the worker of a day •He has a right to define the time of the beginning and the completions of a worker of a day
18
Способы решения:
*Сохранять неоднозначность при переводе
*Knowledge-Based Machine Translation
*Example-Based Machine Translation
*Накопители переводов
*Статистические методы
*Редактирование:
*Пред- : controlled languages
*Пост- : обычный Rule-Based Machine Translation
*Интер-: Dialogue-Based Machine Translation
19
Лексическая неоднозначность
Составление двуязычных словарей омонимов: комментарий+пример.
Огромная подготовительная работа.
Желательность (и отсутствие) специальной лексикографической теории.
20
Fair-haired Adjective; of usual speech style
Светловолосый
Adjective; of high speech style
Белокурый
Fan1 Noun; machine using an electric motor in order to move air, as for cooling
Electric fan Вентилятор
Noun; collapsible device made of a light material such as silk or paper
Ladies often used fans in XIX century
Веер
Fan2 Verb; direct a current of air upon, usually in order to cool
To fan oneself Обмахивать
Fan3 Noun; fancier, enthusiast Football fan Фанат
Durability Noun; capability to
withstand wear and tear
Steel is known for its high durability
Износо-устойчивость
Noun; longevity The durability symbol are the Pyramids of Egypt
Долговечность
Eagerness Noun; zealousness Work with eagerness Рвение
Noun; ambition Lifelong eagerness Стремление
21
*Чем тоньше семантическое различие, тем длиннее комментарий
*Далеко не всегда возможно подобрать для каждого слова контексты, исключающие возможность употребления его омонима/полисеманта
Л
А Чем длиннее языковой знак, тем менее он омонимичен.
Й
О Контекст определяет лексическую единицу вероятностно,
Н а не абсолютно.
З
22
Выучившему английский в детском саду гарантировано трудоустройство.
To the one that has taught English in a kindergarten recruiting is guaranteed.
To the one that has learned English in a kindergarten recruiting is guaranteed.
To a garden that has taught English in the childish recruiting is guaranteed.
To a garden that has learned English in the childish recruiting is guaranteed.
Дескрипторы: тонкий метод vs. универсальная дубина.
23
Морфологическая неоднозначность
Что следует разрешать сначала: морфологическую или синтаксическую неоднозначность?
Вопросы «в лоб»: уточнить форму слова, используя школьную терминологию. Следует выделить их в отдельный блок, подключаемый пользователем по желанию.
Для русского возможностей будет больше, чем для английского: больше поверхностно выраженных грамматических категорий. Это упрощает МП.
Возможно ли измерить степень омонимичности языка?
24
Синтаксическая неоднозначность
Fat soup admirer
Откормите любителя супа
Любитель жирного супа
Жирный любитель супа
Любитель супа жира
25
Преобразования, уменьшающие неоднозначность
•The given sentence is ambiguous. What should be understood?• (Fat soup) admirer• Fat (soup admirer)
ИЛИ•The given sentence is ambiguous. What does the word fat refer to?• Fat soup• Fat admirer
26
Не researches hums and whistles.
Он исследует жужжание и свист.
Он исследует жужжание и свистит.
Можно разрешить лексически. С другой стороны, если можно использовать синтаксические алгоритмы, это эффективней: меньше словарей.
27
28
29
• The given sentence is ambiguous. What should be understood?researches whistlesHe whistles
• The given sentence is ambiguous. What should be understood?He researches whistlesHe whistles
• The given sentence is ambiguous. What should be understood?researches and whistlesHums and whistles
• The given sentence is ambiguous. What should be understood?He researches (hums and whistles)He (researches hums) and whistles
30
Гренобльская группа
Нervé Blanchon, Laurel Fais, Christian Boitet et al.В сотрудничестве с японскими лабораториями.
DBMT как отдельная парадигма. Метод работы: составление корпуса примеров -> выделение частотных типов неоднозначности -> эксперименты с пользователями -> реализация «лингвера» -> реализация программного механизма
31
32
33
34
Дальнейшие перспективы:
*Разработка синтаксических алгоритмов
*Настройка интерактивного блока:
*Пользовательская настройка
*Обоймы вопросов
*Сбор статистических данных
*Самообучение
35
Выводы:
Для того, чтобы верно задать вопрос, нужно знать большую часть ответа.
При хорошем автоматическом анализаторе интерактивный блок может сослужить очень хорошую службу, помогая выбрать лучшую альтернативу.