О методе интерактивного разрешения неоднозначности в...

35
1 О методе интерактивного разрешения неоднозначности в системах машинного перевода А. Бердичевский (ОТиПЛ МГУ) alexberd1983@mail. ru Семинар «Некоторые применения математических методов в языкознании» под руководством В. А. Успенского 9 октября 2004 г.

Upload: frisco

Post on 21-Jan-2016

67 views

Category:

Documents


0 download

DESCRIPTION

О методе интерактивного разрешения неоднозначности в системах машинного перевода А. Бердичевский (ОТиПЛ МГУ) [email protected] Семинар «Некоторые применения математических методов в языкознании » под руководством В. А. Успенского 9 октября 2004 г. ЭТАП-3 : - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: О методе интерактивного разрешения неоднозначности в системах машинного перевода

1

О методе интерактивного разрешения неоднозначности в системах машинного перевода

А. Бердичевский (ОТиПЛ МГУ)[email protected]

Семинар «Некоторые применения математических методов в языкознании» под руководством В. А. Успенского

9 октября 2004 г.

Page 2: О методе интерактивного разрешения неоднозначности в системах машинного перевода

2

ЭТАП-3 : результат примерно двадцатилетней работы Лаборатории

компьютерной лингвистики Института проблем передачи информации РАН

Ю. Д. АпресянИ. М. БогуславскийЛ. Л. ИомдинА. В. ЛазурскийЛ. Г. МитюшинН. В. ПерцовВ. З. Санников.Л. Л. Цинмани др.

Page 3: О методе интерактивного разрешения неоднозначности в системах машинного перевода

3

Четыре части доклада:

«Информационная»:

а) о проблеме неоднозначности в системах МП.

б) об ЭТАПе.

в) о других системах МП.

«Отчетная»:

о проделанной работе по разрешению лексической неоднозначности.

«Прикладная»:

новые предложения по разрешению синтаксической неоднозначности

«Теоретическая»:

некоторые выводы и наблюдения, сделанные в процессе работы.

Page 4: О методе интерактивного разрешения неоднозначности в системах машинного перевода

4

Постановка проблемы

Неоднозначность – неотъемлемое свойство человеческого языка (и мышления)

Обычно не представляет проблемы для носителей языка: адресанту неведома, адресатом разрешается за счет прагматических данных.

В большинстве случаев высказывание даже не подвергается сознательному анализу, т.к. человек сразу выделяет верный вариант.

Page 5: О методе интерактивного разрешения неоднозначности в системах машинного перевода

5

Постановка проблемы

Слабость машины:

• Отсутствие возможности обратиться к прагматике.

• «Беспристрастность»: обнаружение всех допустимых

вариантов перевода.

• Отсутствие холистического восприятия.

• А кроме того…

Page 6: О методе интерактивного разрешения неоднозначности в системах машинного перевода

6

Постановка проблемы

В проблемных случаях адресат использует метаязыковую операцию:

обращается к адресанту с вопросом.

— Мы, управление дома, — с ненавистью заговорил Швондер, — пришли к вам после общего собрания жильцов нашего дома, на котором стоял вопрос об уплотнении квартир дома...

— Кто на ком стоял? — Крикнул Филипп Филиппович, — потрудитесь излагать ваши мысли яснее.

М. А. Булгаков, «Собачье сердце».

Page 7: О методе интерактивного разрешения неоднозначности в системах машинного перевода

7

Постановка проблемы

Система МП вопросов не задает.

Идея МИРН – научить ее это делать.

Задача: разработать язык формулирования запросов, понятный машине и доступный пользователю.Дан ряд ограничений характеристик «пользователя».

Прикладная и теоретическая проблема.

Page 8: О методе интерактивного разрешения неоднозначности в системах машинного перевода

8

Кратко об ЭТАПе:

ЭлектроТехнический Автоматический Перевод

Теоретическая база: МСТ И. А. Мельчука, также теория интегрального описания языка и принципы системной

лексикографии Ю. Д. Апресяна.

Существенные для доклада характеристики:

•Поуровневое представления языковых данных

•Использование деревьев зависимостей и ПСО.

•Использование лексических функций

•Отсутствие работы со сверхфразовыми единствами

Page 9: О методе интерактивного разрешения неоднозначности в системах машинного перевода

9

АРН в ЭТАПе: краткий обзор

Разрешение по ближайшему линейному контексту:

He laughs too loudly

The laughs of the audience became too loud

Page 10: О методе интерактивного разрешения неоднозначности в системах машинного перевода

10

АРН в ЭТАПе: краткий обзор

Разрешение с помощью механизмов фильтрации:

•Древесные условия формирования бинарных поддеревьев.

•Механизм установления окончательных синтаксических связей.

•Фильтр древесности

•Фильтр повторимости-неповторимости ПСО

•Фильтр проективности

Page 11: О методе интерактивного разрешения неоднозначности в системах машинного перевода

11

АРН в ЭТАПе: краткий обзор

Разрешение с помощью правил предпочтения: система приоритетов.

Разрешение перебором альтернатив: окончательная проверка уцелевших гипотез.

Все механизмы работают в цикле.

Достоинство интерфейса: пользователю предлагается несколько вариантов перевода.

Page 12: О методе интерактивного разрешения неоднозначности в системах машинного перевода

12

АРН в ЭТАПе: краткий обзор

Разрешение с использованием нетривиальных правил перевода.НПП обеспечивают компенсацию расхождения входного и выходного языков.Например, лексические функции:

The heavers loaded the shipГрузчики загрузили корабль.

The soldier loaded the gunСолдат зарядил ружье.

Gun: в статье КС есть запись _PREPAR:LOAD2(/AIM2 )Ружье: в статье КС есть запись _PREPAR:ЗАРЯЖАТЬ

Page 13: О методе интерактивного разрешения неоднозначности в системах машинного перевода

13

АРН в ЭТАПе: краткий обзор

Разрешение с использованием синтаксически размеченного корпуса (И. С. Чардин).

Совмещение эвристической и статистической стратегии.

Все вышеописанные алгоритмы недостаточно мощны, особенно если речь идет о выборе лучшей структуры из нескольких возможных.

Page 14: О методе интерактивного разрешения неоднозначности в системах машинного перевода

14

Пределы возможностей

Джон предупреждал о трудностях пути John has warned of a difficulty of the way

John has warned of a hardship of the way

John has warned about a difficulty of the way

John has warned about a hardship of the way

John has warned of a difficulty the ways

John has warned of a hardship the ways

John has warned about a difficulty the ways

John has warned about a hardship the ways

Page 15: О методе интерактивного разрешения неоднозначности в системах машинного перевода

15

Пределы возможностей

The wolf ran from behind a pine:

Волк выполнил из зада сосну.

Page 16: О методе интерактивного разрешения неоднозначности в системах машинного перевода

16

Пределы возможностей

Выпей коньяка!

Drink cognac!

The bitterns of cognac!

Page 17: О методе интерактивного разрешения неоднозначности в системах машинного перевода

17

Пределы возможностейОн вправе определять время начала и окончания рабочего дня

•He has a right to define the time of the beginning and a completion of a working day •He has a right to define the time of the beginning and the completions of a working day •He has a right to define the time of the beginning and a working completion of a day •He has a right to define the time of the beginning and a completion of a worker of a day •He has a right to define the time of the beginning and the worker's completion of day •He has a right to define the time of the beginning and a completion of the worker of a day •He has a right to define the time of the beginning and the completions of a worker of a day

Page 18: О методе интерактивного разрешения неоднозначности в системах машинного перевода

18

Способы решения:

*Сохранять неоднозначность при переводе

*Knowledge-Based Machine Translation

*Example-Based Machine Translation

*Накопители переводов

*Статистические методы

*Редактирование:

*Пред- : controlled languages

*Пост- : обычный Rule-Based Machine Translation

*Интер-: Dialogue-Based Machine Translation

Page 19: О методе интерактивного разрешения неоднозначности в системах машинного перевода

19

Лексическая неоднозначность

Составление двуязычных словарей омонимов: комментарий+пример.

Огромная подготовительная работа.

Желательность (и отсутствие) специальной лексикографической теории.

Page 20: О методе интерактивного разрешения неоднозначности в системах машинного перевода

20

Fair-haired Adjective; of usual speech style

Светловолосый

Adjective; of high speech style

Белокурый

Fan1 Noun; machine using an electric motor in order to move air, as for cooling

Electric fan Вентилятор

Noun; collapsible device made of a light material such as silk or paper

Ladies often used fans in XIX century

Веер

Fan2 Verb; direct a current of air upon, usually in order to cool

To fan oneself Обмахивать

Fan3 Noun; fancier, enthusiast Football fan Фанат

Durability Noun; capability to

withstand wear and tear

Steel is known for its high durability

Износо-устойчивость

Noun; longevity The durability symbol are the Pyramids of Egypt

Долговечность

Eagerness Noun; zealousness Work with eagerness Рвение

Noun; ambition Lifelong eagerness Стремление

Page 21: О методе интерактивного разрешения неоднозначности в системах машинного перевода

21

*Чем тоньше семантическое различие, тем длиннее комментарий

*Далеко не всегда возможно подобрать для каждого слова контексты, исключающие возможность употребления его омонима/полисеманта

Л

А Чем длиннее языковой знак, тем менее он омонимичен.

Й

О Контекст определяет лексическую единицу вероятностно,

Н а не абсолютно.

З

Page 22: О методе интерактивного разрешения неоднозначности в системах машинного перевода

22

Выучившему английский в детском саду гарантировано трудоустройство.

To the one that has taught English in a kindergarten recruiting is guaranteed.

To the one that has learned English in a kindergarten recruiting is guaranteed.

To a garden that has taught English in the childish recruiting is guaranteed.

To a garden that has learned English in the childish recruiting is guaranteed.

Дескрипторы: тонкий метод vs. универсальная дубина.

Page 23: О методе интерактивного разрешения неоднозначности в системах машинного перевода

23

Морфологическая неоднозначность

Что следует разрешать сначала: морфологическую или синтаксическую неоднозначность?

Вопросы «в лоб»: уточнить форму слова, используя школьную терминологию. Следует выделить их в отдельный блок, подключаемый пользователем по желанию.

Для русского возможностей будет больше, чем для английского: больше поверхностно выраженных грамматических категорий. Это упрощает МП.

Возможно ли измерить степень омонимичности языка?

Page 24: О методе интерактивного разрешения неоднозначности в системах машинного перевода

24

Синтаксическая неоднозначность

Fat soup admirer

Откормите любителя супа

Любитель жирного супа

Жирный любитель супа

Любитель супа жира

Page 25: О методе интерактивного разрешения неоднозначности в системах машинного перевода

25

Преобразования, уменьшающие неоднозначность

•The given sentence is ambiguous. What should be understood?• (Fat soup) admirer• Fat (soup admirer)

ИЛИ•The given sentence is ambiguous. What does the word fat refer to?• Fat soup• Fat admirer

Page 26: О методе интерактивного разрешения неоднозначности в системах машинного перевода

26

Не researches hums and whistles.

Он исследует жужжание и свист.

Он исследует жужжание и свистит.

Можно разрешить лексически. С другой стороны, если можно использовать синтаксические алгоритмы, это эффективней: меньше словарей.

Page 27: О методе интерактивного разрешения неоднозначности в системах машинного перевода

27

Page 28: О методе интерактивного разрешения неоднозначности в системах машинного перевода

28

Page 29: О методе интерактивного разрешения неоднозначности в системах машинного перевода

29

• The given sentence is ambiguous. What should be understood?researches whistlesHe whistles

• The given sentence is ambiguous. What should be understood?He researches whistlesHe whistles

• The given sentence is ambiguous. What should be understood?researches and whistlesHums and whistles

• The given sentence is ambiguous. What should be understood?He researches (hums and whistles)He (researches hums) and whistles

Page 30: О методе интерактивного разрешения неоднозначности в системах машинного перевода

30

Гренобльская группа

Нervé Blanchon, Laurel Fais, Christian Boitet et al.В сотрудничестве с японскими лабораториями.

DBMT как отдельная парадигма. Метод работы: составление корпуса примеров -> выделение частотных типов неоднозначности -> эксперименты с пользователями -> реализация «лингвера» -> реализация программного механизма

Page 31: О методе интерактивного разрешения неоднозначности в системах машинного перевода

31

Page 32: О методе интерактивного разрешения неоднозначности в системах машинного перевода

32

Page 33: О методе интерактивного разрешения неоднозначности в системах машинного перевода

33

Page 34: О методе интерактивного разрешения неоднозначности в системах машинного перевода

34

Дальнейшие перспективы:

*Разработка синтаксических алгоритмов

*Настройка интерактивного блока:

*Пользовательская настройка

*Обоймы вопросов

*Сбор статистических данных

*Самообучение

Page 35: О методе интерактивного разрешения неоднозначности в системах машинного перевода

35

Выводы:

Для того, чтобы верно задать вопрос, нужно знать большую часть ответа.

При хорошем автоматическом анализаторе интерактивный блок может сослужить очень хорошую службу, помогая выбрать лучшую альтернативу.