ag systran 2008 04 26

25
О чем, собственно, речь Машинный перевод Былое и думы Опыт работы над системой машинного перевода в компании SYSTRAN (2004-2006) Alexandre Grebenkov [email protected]

Upload: nlpseminar

Post on 05-Jul-2015

734 views

Category:

Documents


1 download

DESCRIPTION

Lecture on automatic translation

TRANSCRIPT

Page 1: Ag Systran 2008 04 26

О чем, собственно, речь

Машинный переводБылое и думы

Опыт работы над системой машинного перевода в компании SYSTRAN

(2004-2006)

Alexandre [email protected]

Page 2: Ag Systran 2008 04 26

Планчик

1. Немного истории2. Компания SYSTRAN3. Система SYSTRAN4. Опыт разработки (былое)5. Актуальное (думы)

Page 3: Ag Systran 2008 04 26

Немного истории

1. 1947 – Warren Weaver, Andrew Booth, Norbert Wiener:

"I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.''

Page 4: Ag Systran 2008 04 26

Немного истории

2. 1954 – Georgetown experimentсловарь порядка 200 слов6 грамматических правил60 русских предложений

Как следствие возникновение многих исследовательских групп, ориентированных на создание машинного перевода

Page 5: Ag Systran 2008 04 26

Немного истории

3. 1966 – Доклад ALPACYohoshua Bar-Hillel: “John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.” (1959)Как следствие свертывание большинства исследовательских групп, ориентированных на создание машинного перевода

Page 6: Ag Systran 2008 04 26

Немного истории

4. 1968 – Образование SYSTRANDr. Peter Toma, California1. Поддержка системы, разработанной в недрах United States Department of Defense2. Работа для/с Еврокомиссией*. Проект Союз-Апполон (1973)тишина до 1986 года…(Gachot, французская компания)

Page 7: Ag Systran 2008 04 26

Компания SYSTRAN

SYSTRAN = PROMTin the world in Russia

4. Более 90% рынка5. Доход в 2007 году ~13 млн евро6. Акции торгуются на бирже

Page 8: Ag Systran 2008 04 26

Компания SYSTRAN

Штаб-квартира в ПарижеGrande Arche de la Défense

Page 9: Ag Systran 2008 04 26

Компания SYSTRAN

Филиал в Сан-ДиегоCalifornia

Page 10: Ag Systran 2008 04 26

Компания SYSTRAN

ОрганизацияЧисленность -- порядка 100 человек

(50 в Париже, 50 в Сан-Диего)

5. R&D и директорат в Париже6. Продажи и маркетинг в Сан-Диего

Гендиректор Dimitris Sabatakakishttp://www.systran.fr/http://www.systran.ru/

Page 11: Ag Systran 2008 04 26

Компания SYSTRAN

Заказчики2. Большие корпорации (70%)3. Интернет-компании (28%)4. Обычные пользователи (2%)

1. Ford, General Motors, Oracle, Symantec, Gaumont, DaimlerChrysler, Cisco

2. aol, yahoo, altavista, babelfish, -google, +windows

Page 12: Ag Systran 2008 04 26

Компания SYSTRAN

Классификация систем машинного перевода

4. Классический (MT, LMT), Systran, Promt5. Тranslation Memory (TM), ассоциативная

память, Promt, Trados6. Статистический (SMT), Google

SYSTRAN – это Голиаф классического подхода, это тысячи человеко-лет.

Page 13: Ag Systran 2008 04 26

Система SYSTRAN

Переводчик в разных видах

3. Серверные решения, много десятков тысяч евро, контракты на много лет

4. Настольные решения (Windows, Linux, Unix), стоимость от 80 евро до 1000

5. Мобильные решения (PocketPC, wap) до сих пор не выпущены

Page 14: Ag Systran 2008 04 26

Система SYSTRAN

Команда R&D

3. Руководитель: Jean Senellart4. Соотношение лингвистов и

программистов 3 к 15. Порядка 10 млн строк кода только в

программах SYSTRAN, а словари никто и не считал.

6. Число программистов, работающих над ядром… 5 включая руководителя.

Page 15: Ag Systran 2008 04 26

Система SYSTRAN

Языковые пары

3. Качественный перевод: англо-франко-английский, англо-немецко-английский, немецко-франко-немецкий, русско-английский

4. Средний перевод: европейские языки5. Восточные языки: арабский, японский,

китайский, корейский6. Экзотика: урду, хинди

А вообще, 52 пары

Page 16: Ag Systran 2008 04 26

Система SYSTRAN

Гы-гы-гы или оценка качества перевода

Ээээ… нууу… ээээ… так сказать…

Скажем так, для больших объемовтекста это очень круто, когда можно примерно понять, о чем идет речь.

Page 17: Ag Systran 2008 04 26

Система SYSTRAN

Оценка качества перевода (серьезная версия)

BLEU, NIST

Система SYSTRAN показывает хорошие результаты относительно других

переводчиков, а по основным парам перевода она является лидером.

Page 18: Ag Systran 2008 04 26

Система SYSTRAN

Опыт работы или«здраствуйте, кажетсь,

у вас есть ошuбка»

5. Работа над ядром системы6. Работа над лингвистическими

движками7. Ответственный за RU-EN-RU8. Разработка RU-FR-RU9. Разработка независимого трансфера10. Всякое, разное, прочее

Page 19: Ag Systran 2008 04 26

Система SYSTRAN

Архитектура

3. Ядро системы (С++)4. Лингвистические движки (С)5. Оболочка (С++)

7. Лингвистические ресурсы8. Внутренние инструменты (perl)

Page 20: Ag Systran 2008 04 26

Система SYSTRAN

Лингвистический движок (теория)

4. Модуль анализа5. Модуль трансфера6. Модуль синтеза

8. Лингвистические ресурсы

Page 21: Ag Systran 2008 04 26

Система SYSTRAN

Лингвистический движок (жизнь)

4. Модули разбиваются над сабмодули: лексический, снятия омонимии etc.

5. Модули не независимы: анализ связан с трансфером и синтезом.

6. Нет четкого разделения между морфологией, синтаксисом и семантикой

7. Нет четкого разделения между кодом и ресурсами

8. Процесс перевода построен на использовании индексов (более 120 индексов)

Page 22: Ag Systran 2008 04 26

Система SYSTRAN

Лингвистический движок (код)

4. Движки были написаны в цифровом коде в 60 годах

5. В 70-80 их переписали в ассемблере6. В начале 90 их переписали в

ассемблероподобном СИ.7. В середине 90 разобрались с некоторыми

техническими моментами (использование Unicode, современные библиотеки).

8. С тех пор их боятся, и никто не трогает9. Код необычайно уязвим.

Page 23: Ag Systran 2008 04 26

Система SYSTRAN

В чем проблема 2. Сложность задачи3. Организация работы4. Бизнес-подход5. Невозможность решить задачу

академически

Page 24: Ag Systran 2008 04 26

Система SYSTRAN

Как сделать лучше

3. Централизованное решение (а-ля multitran.ru)

4. Объединение статистики и классики

Page 25: Ag Systran 2008 04 26

Система SYSTRAN

GALE (new DARPA project)Global Autonomous Language Exploitation

Полное разрешение проблемы распознавания речи и

автоматического перевода

1 млрд долларов на 10 лет