ag systran 2008 04 26

Post on 05-Jul-2015

734 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Lecture on automatic translation

TRANSCRIPT

О чем, собственно, речь

Машинный переводБылое и думы

Опыт работы над системой машинного перевода в компании SYSTRAN

(2004-2006)

Alexandre Grebenkovshurix@grebenkov.ru

Планчик

1. Немного истории2. Компания SYSTRAN3. Система SYSTRAN4. Опыт разработки (былое)5. Актуальное (думы)

Немного истории

1. 1947 – Warren Weaver, Andrew Booth, Norbert Wiener:

"I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.''

Немного истории

2. 1954 – Georgetown experimentсловарь порядка 200 слов6 грамматических правил60 русских предложений

Как следствие возникновение многих исследовательских групп, ориентированных на создание машинного перевода

Немного истории

3. 1966 – Доклад ALPACYohoshua Bar-Hillel: “John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.” (1959)Как следствие свертывание большинства исследовательских групп, ориентированных на создание машинного перевода

Немного истории

4. 1968 – Образование SYSTRANDr. Peter Toma, California1. Поддержка системы, разработанной в недрах United States Department of Defense2. Работа для/с Еврокомиссией*. Проект Союз-Апполон (1973)тишина до 1986 года…(Gachot, французская компания)

Компания SYSTRAN

SYSTRAN = PROMTin the world in Russia

4. Более 90% рынка5. Доход в 2007 году ~13 млн евро6. Акции торгуются на бирже

Компания SYSTRAN

Штаб-квартира в ПарижеGrande Arche de la Défense

Компания SYSTRAN

Филиал в Сан-ДиегоCalifornia

Компания SYSTRAN

ОрганизацияЧисленность -- порядка 100 человек

(50 в Париже, 50 в Сан-Диего)

5. R&D и директорат в Париже6. Продажи и маркетинг в Сан-Диего

Гендиректор Dimitris Sabatakakishttp://www.systran.fr/http://www.systran.ru/

Компания SYSTRAN

Заказчики2. Большие корпорации (70%)3. Интернет-компании (28%)4. Обычные пользователи (2%)

1. Ford, General Motors, Oracle, Symantec, Gaumont, DaimlerChrysler, Cisco

2. aol, yahoo, altavista, babelfish, -google, +windows

Компания SYSTRAN

Классификация систем машинного перевода

4. Классический (MT, LMT), Systran, Promt5. Тranslation Memory (TM), ассоциативная

память, Promt, Trados6. Статистический (SMT), Google

SYSTRAN – это Голиаф классического подхода, это тысячи человеко-лет.

Система SYSTRAN

Переводчик в разных видах

3. Серверные решения, много десятков тысяч евро, контракты на много лет

4. Настольные решения (Windows, Linux, Unix), стоимость от 80 евро до 1000

5. Мобильные решения (PocketPC, wap) до сих пор не выпущены

Система SYSTRAN

Команда R&D

3. Руководитель: Jean Senellart4. Соотношение лингвистов и

программистов 3 к 15. Порядка 10 млн строк кода только в

программах SYSTRAN, а словари никто и не считал.

6. Число программистов, работающих над ядром… 5 включая руководителя.

Система SYSTRAN

Языковые пары

3. Качественный перевод: англо-франко-английский, англо-немецко-английский, немецко-франко-немецкий, русско-английский

4. Средний перевод: европейские языки5. Восточные языки: арабский, японский,

китайский, корейский6. Экзотика: урду, хинди

А вообще, 52 пары

Система SYSTRAN

Гы-гы-гы или оценка качества перевода

Ээээ… нууу… ээээ… так сказать…

Скажем так, для больших объемовтекста это очень круто, когда можно примерно понять, о чем идет речь.

Система SYSTRAN

Оценка качества перевода (серьезная версия)

BLEU, NIST

Система SYSTRAN показывает хорошие результаты относительно других

переводчиков, а по основным парам перевода она является лидером.

Система SYSTRAN

Опыт работы или«здраствуйте, кажетсь,

у вас есть ошuбка»

5. Работа над ядром системы6. Работа над лингвистическими

движками7. Ответственный за RU-EN-RU8. Разработка RU-FR-RU9. Разработка независимого трансфера10. Всякое, разное, прочее

Система SYSTRAN

Архитектура

3. Ядро системы (С++)4. Лингвистические движки (С)5. Оболочка (С++)

7. Лингвистические ресурсы8. Внутренние инструменты (perl)

Система SYSTRAN

Лингвистический движок (теория)

4. Модуль анализа5. Модуль трансфера6. Модуль синтеза

8. Лингвистические ресурсы

Система SYSTRAN

Лингвистический движок (жизнь)

4. Модули разбиваются над сабмодули: лексический, снятия омонимии etc.

5. Модули не независимы: анализ связан с трансфером и синтезом.

6. Нет четкого разделения между морфологией, синтаксисом и семантикой

7. Нет четкого разделения между кодом и ресурсами

8. Процесс перевода построен на использовании индексов (более 120 индексов)

Система SYSTRAN

Лингвистический движок (код)

4. Движки были написаны в цифровом коде в 60 годах

5. В 70-80 их переписали в ассемблере6. В начале 90 их переписали в

ассемблероподобном СИ.7. В середине 90 разобрались с некоторыми

техническими моментами (использование Unicode, современные библиотеки).

8. С тех пор их боятся, и никто не трогает9. Код необычайно уязвим.

Система SYSTRAN

В чем проблема 2. Сложность задачи3. Организация работы4. Бизнес-подход5. Невозможность решить задачу

академически

Система SYSTRAN

Как сделать лучше

3. Централизованное решение (а-ля multitran.ru)

4. Объединение статистики и классики

Система SYSTRAN

GALE (new DARPA project)Global Autonomous Language Exploitation

Полное разрешение проблемы распознавания речи и

автоматического перевода

1 млрд долларов на 10 лет

top related