automatic build of semantic translational dictionary
DESCRIPTION
TRANSCRIPT
![Page 1: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/1.jpg)
Метод автоматического построенияпереводного семантического
словаря для машинного перевода
Кан Дмитрий Александровичаспирантура ПМ-ПУ, 3 курскафедра ТП2009
![Page 2: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/2.jpg)
Outline
Два фундаментальных подхода кмашинному переводу (МП)Характеристика классического подходаХарактеристика статистического подходаЗадача скрещивания двух подходовПереводной семантический словарьЭкспериментальная система МП
![Page 3: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/3.jpg)
Классика и статистика
Классика: лингвистические правила; трансфер синтаксиса; интерлингваСтатистика: статистические модели языка, перевода и переупорядочивания слов
![Page 4: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/4.jpg)
Интерлингва
Компьютерная семантикаСемантический анализатор снимаетпервые две языковые оболочки: морфологию и синтаксисКаждое слово выражается насемантическом языке (аналогинтерлингвы)
![Page 5: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/5.jpg)
Семантический анализ
Областью определения базисных функций является множество объектовбазы знаний.является<X005.001>(@Тв Областью<X001.001><+СущГлаг3+>
(@Род определения<X002.002><+СущСущ1+>(@Род функций<X004.002><+СущСущ6+>
(@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>))
),@Им множество<X006.001><+ГлагСущ8+>
(@Род объектов<X007.001><+СущГлагСущ+>(@Род базы_знаний<X008.006><+СущСущ4+>)
))
.
![Page 6: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/6.jpg)
GIZA++
Модуль выравнивания словВходит в состав пакета Moses(статистический МП)86000 предложений -> 1,3 млн пар слов ввыходных данныхЗадача разрешения полисемииВысокий уровень избыточности данных всловаре
NULL And the program has been implemented| | | | | | |
| | | | +-+---+| | | | | | |
Le programme a ete mis en application
![Page 7: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/7.jpg)
Пара || предложений и выходныеданные
Desperate to hold onto power , Pervez Musharraf hasdiscarded Pakistan ' s constitutional framework anddeclared a state of emergency .
NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })конституционную ({ 14 15 }) систему ({ })Пакистана ({ 11 12 13 }) и ({ 16 })объявил ({ 17 }) о ({ 18 }) введении ({ })чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
![Page 8: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/8.jpg)
Таблица соответствий слов
..
state emergencyчрезвычайного
aо
declaredобъявил
andи
Pakistan ’ sПакистана
constitutional frameworkконституционную
has discardedотверг
MusharrafМушарраф
PervezПервез
,,
powerвласть
toстремлении
Desperate to holdотчаянном
ofNULL
![Page 9: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/9.jpg)
Переводной семантический словарь
Семантический анализатор разрешаетполисемию посредствомморфологического, синтаксического исемантического анализаКаждое слово слева имеет свой контекст впаре параллельных предложенийКонтекст выражается своейсемантической формулой
![Page 10: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/10.jpg)
Схема алгоритма
|| корпус
GIZA++
Семантический анализатор
merging
Переводнойсемантическийсловарь
![Page 11: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/11.jpg)
Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1) \\ <149>--->WithinВ Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) \\ <146>--->atВ Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) \\ <208>--->InВ Y1>Loc(Y1:,ПРЕД:Z1) \\ <224>--->Throughout...МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) \\ <2>--->Marshall...НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) \\ <67>--->atНА Y1>Direkt(Y1:,РОД:Z1) \\ <100>--->onНА Y1>Direkt(Y1:,РОД:Z1) \\ <69>--->forНА Y1>Direkt(Y1:,РОД:Z1) \\ <74>--->for the...ОБРАЗ (РОД:Z1) \\ <2>--->a wayОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))\\ <1>--->global...
Всего около 18 тысяч пар слов
![Page 12: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/12.jpg)
Экспериментальная система МП
Словарный метод третьего уровняПервые два: прямой с перебором всехфлексий (первый уровень) и сприменением морфологического анализадля перехода к леммам (второй уровень)Третий уровень: семантический анализ, учитывающий ещё и контекст слова
![Page 13: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/13.jpg)
Оценка по BLEU score
c – длина перевода-кандидата
r – длина Referenceкорпуса
База: N=4, wn=1/N
![Page 14: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/14.jpg)
Сравнение с Moses
3000 предложений для оценки по BLEUЭкспериментальная СМП BLEU = 12,89Moses BLEU = 21,31Moses оперирует над словоформами, в товремя как экспериментальная СМПоперирует над леммами
![Page 15: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/15.jpg)
Примеры переводовэкспериментальной СМП
Исходное предложение: Распутина скомпрометировалигосударственностью.
перевод Moses: Распутина compromised государственностью.перевод экспериментальной СМП: Rasputin compromisedby statehood.
Исходное предложение: У Распутина скрытые доходы.перевод Moses: the распутина hidden incomes .перевод экспериментальной СМП: has Rasputin animplicit income.
![Page 16: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/16.jpg)
Future plans
Корректный морфологический синтезЛинеаризация (переупорядочивание словв выходном предложении)Перевод корпуса в нижний регистр передGIZA++Отработка имён собственныхТщательная вычистка словаряПостоянное пополнение
![Page 17: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/17.jpg)
Благодарности
Владимир ПорошинM-Brain
![Page 18: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/18.jpg)
Литература
1. Тузов В.А. Компьютерная семантика русского языка. СПб, изд-воСПбГУ, 2004. 400 с.
2. Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., MelamedD., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical MachineTranslation. Final report, JHU Workshop, 1999
3. Och F.J. An Ecient Method for Determining Bilingual Wordclasses. // Ninth Conf. of the Europ. Chapter of the Association forComputational Linguistics. EACL'99. Bergen, Norway, June 1999. P7176.
4. Brown P.F., Della Pietra V.J., Della Pietra S.A. and Mercer R.L. Themathematics of statistical machine translation: Parameter estimation.// Computational linguistics 19(2), 1993
5. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M.,Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C.,Bojar O., Constantin A., Herbst E. Moses: Open Source Toolkit forStatistical Machine Translation. // Annual Meeting of the Associationfor Computational Linguistics (ACL), demonstration session, Prague,Czech Republic, June 2007.
6. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English MultilingualCorpus. // Proceedings of the Conference "Corpora 2008". (In print.)
![Page 19: Automatic Build Of Semantic Translational Dictionary](https://reader036.vdocuments.site/reader036/viewer/2022081907/547b54aab479599a098b4c74/html5/thumbnails/19.jpg)
Спасибо!
Вопросы?