Галя Ангелова Секция за Лингвистично Моделиране
DESCRIPTION
Езиковите технологии днес и утре. Галя Ангелова Секция за Лингвистично Моделиране Институт по информационни и комуникационни технологии (ИИКТ) - БАН [email protected] , http://www.lml.bas.bg/~galja. Благодаря за поканата!. Причини да я приема: ..... ..... ..... ...... - PowerPoint PPT PresentationTRANSCRIPT
Галя Ангелова
Секция за Лингвистично Моделиране
Институт по информационни и комуникационни технологии (ИИКТ) -
БАН[email protected], http://www.lml.bas.bg/~galja
Езиковите технологии днес и утре
Благодаря за поканата!
Причини да я приема:• ..... ..... ..... ...... • Принципните постановки на дисциплината
не са широко известни – те са много специфични
• Хората (вкл. потребителите) не знаят защо системите за автоматична обработка на естествения език имат ограничения и предел на възможностите си
• Не се разбира добре необходимостта от инвестиции както в разработката на компютърни модели и софтуер, така и в създаването на лингвистични ресурси
Опит да обозрем полето - 1
Опит да обозрем полето - 2
Кратка история на комп. лингвистика• Ветеран на 50+ години – започва с англ.-руски
машинен превод в началото на студената война• Абсорбира и интегрира бързо резултатите на:
– Структурната лингвистика (Чомски)– Теорията на автоматите (крайни и стекови
автомати) • През 70те години на 20ти век е 'сестра' на
приложната лингвистика; през 80те – дял от ИзкИнт• През 90те години на преден план излизат
статистическите методи• След появата на Интернет финансирането се
фокусира върху приложните подходи• Езикова технология – софтуерно решение /модул/
за обработка на естествен език, ориентирано към крайния потребител. Част от Информ. Технологии
Съдържание на изложението1. Методи за авт. обработка на естествения
език чрез правила (rule-based approach)
2. Няколко думи за генерацията на ЕЕ
3. Статистически методи (statistical, data-driven, machine learning methods)
(1) и (2) са разгледани отделно, в 'чист вид ‘
4. Развитие на езиковите технологии в България
5. Текущ проект – извличане на информация от медицински текстове
6. Заключение
1. Обработка чрез правила – дял от Изкуствения Интелект (ИИ)
• Основава се на множество правила за разпознаване на структурата и функционирането на ЕЕ, както и върху лингвистични ресурси
• Като замисъл, моделира (симулира) човешкото поведение при анализ на ЕЕ
• Доминиращ метод в компютърната лингвистика през 70-те и 80-те години
• Очертава принципните постановки, основните езикови нива за обработка, главните възможности и непреодолимите затруднения
Обработка на ЕЕ чрез правила
Морфологичен анализ – фокус върху думите • Цел: да се разпознаят думите в текста, който за
компютъра е низ от символи• Реализация: чрез налагане на всички низове
между два интервала върху единиците на предварително зададен речник от думи
• Пример в Интернет (там е показан и речникът заедно с 241 морфологични характеристики:
http://www.larflast.bas.bg/balric/index/index.htm )• Демо-текст1: Зад сините планини на изток,
из едно море от светлина и слава, се показваше пламналото лице на майското слънце и събуденото зелено поле широко и весело се къпеше в лъчите му и празнуваше.
ДУМА /словоформа
ЛЕМА /основна форма
Характерис-тики на лемата
Характерис-тики на формата /заизменяемите
зад зад предлог
сините син прилаг.; кач. мн.член.
планини планина същ.; ж.р. мн.нечлен.
на на предлог
изток изток същ.; м.р. ед. нечлен.
из из предлог
едно - - -
море море същ.; ср.р. ед. нечлен.
море частица
.... .... .... ....
Роля на речника – “подава” думи и морфологични характеристики
• Компютърът не знае, че има същ-прил-... и че ‘къщите’ е словоформа на ‘къща’
• Речникът се изработва ръчно за десетки години (дума по дума)
• Анализът е възможен благодарение на лингвистичните категории в речника
• За всеки входен текст, компютърът строи вътрешно представяне от думи и техни лингвистични характеристики
Многозначност• Низовете са форми на много думи, напр.
Плевен е причастие на глаголя плевя (на английски език многозначността е типична)
• Ръчно се задават правила за разрешаване на многозначността (чрез категориите от речника):– Ако след форма Х, която е прилагателно
или наречие в речника, следва съществително Y, и Х и Y са съгласувани по род и число, приеми Х за прилагателно
– Пример: .... събуденото зелено поле широко и весело се къпеше ....
Анализ на текста в комп. лингвистика
• Цел: да се строят вътрешни представяния и структури от граматически категории, в чиито термини да се постигне пълно разпознаване на входните единици и да се реши поставената задача
• Теориите на компютърната лингвистика обясняват структурата и функционирането на ЕЕ чрез тези вътрешни представяния и предлагат алгоритми за тяхната обработка
• Алгортимите, компютърните модели и софтуерната реализация са много важни ... но без ресурси няма как да работят!
От думите към изреченията
Безконтекстни пораждащи граматики на Чомски
• Синтактичното знание се задава фрагментирано на правила, организирани около “безконтекстен скелет”. Примери:
S (sentence) NP (noun phrase) VP (verb phrase) NP DETerminer NOUN NP N-MOD NOUN NP NOUN PP (prepositional phrase) PREPosition NP (noun ph) и т.н. – стотици правила• Синтактичният анализ (разбор/parsing) се състои
в изчерпващо търсене на комбинациите от правила, покриващи цялото входно изречение
• Алгоритъмът за анализ е сравнително прост и ефективен, извежда “дърво на разбора” с възли- синтактични конституенти
Пример за синтактичен разбор / ЧомскиTime flies like an arrow
Дървета от конституенти / тухлички
Преход към предикатно-аргументни структури за всяко изречение
• Строят се композиционно/унифицирано в процеса на композиционния синтактичен анализ
• ‘Значещите’ думи се превръщат в предикати. Те се композират в логически форми. Примери:
човек x ЧОВЕК(x) (семантика на думата ЧОВЕК). умен човек x ЧОВЕК(x) & УМЕН(x)
(с правило за конюнкцията на едноместни предикати)
Глаголите n-местни предикати, като n е броят на задължителните за запълване семантични валенции на глагола. обичам ОБИЧА(x,y), където x е агентът, а y - обектът.
Композиция на логическа формав процеса на синтактичния анализ
Логическа проверка на коректността:“Зелените идеи яростно спят”/Чомски
Преходът към лог. форми е най-дълбокото ниво на алгоритмично третиране на ЕЕ
• По принцип това е достижение: днес има (лабораторни) прототипи, които го правят за повечето английски изречения
• Но след това следват:– А) Интерпретация в контекста на знанието за
света – и всички проблеми на ИИ– Б) Текста със специфичните си особености –
и всички проблеми на лингвистиката, психо-лингвистиката, когнитивните науки и т.н.
• Човекът се справя с лекота там, където компютърът не успява (и обратно)
Засега няма (компютърни) модели за по-сложните езикови явления
• На 'по-дълбоките' езикови нива се сблъскваме с лингвистични явления, които не са изучени добре и засега няма психолингвистични и когнитивни теории за тяхното обяснение и моделиране
• Ще споменем три от тях:– Прагматика– Обхват на значенията– Референция
Прагматика• Изучава значенията и тяхното
функциониране в зависимост от контекста• Пример:
– Един студент трябва да учи много.– Студентът трябва да учи много.– Студентите трябва да учат много. Могат да реферират към конкретни обекти или
към всички възможни (т.нар. обобщено четене)
• Засега няма компютърно-приложима семантична теория, която да обяснява как се построява значението на изреченията в рамките на модел на контекста
Обхват на значенията на думите• Значенията на думите се преплитат по сложен
начин – има явни и неявни квантори, отрицания, темпорални наречия и т.н.
• Трябва да разположим скобите в логическата форма по съответен начин – но нямаме алгоритъм как да го направим. Примери:
• Портиерът беше любезен във всеки хотел• Утре той ще нахрани най-гладното куче• Едно гладно куче винаги чака на вратата• Всеки мислеше, че България или Румъния ще
влязат в ЕС. • Ние не видяхме всички деца
Референция• ЕЕ функционира като последователност от
линейно-наредени клаузи. Говорителят/ писателят фрагментира значението на ‘порции’, организирани около думите, фразите и изреченията. Слушателят възстановява смисъла
• Единно ли е значението на даден свързан текст в главата ни? Не знаем, но то се дискретизира при комуникация (в не-концептуални единици)
• Свързаният текст дискутира едни и същи обекти, изказани с различни думи. Пример:
• МВР залови хакерите, сринали сайта за детските градини на 4/02/2008. Те са И.П. и Б.Б. на 3 години от град С., които не искат да ходят на детска градина.
Автоматична обработка на референцията• Функционира в съседни изречения• Местоименията са явни сигнали за
референция и по-лесно се обработват• Днес се обработва анафората с лични
местоимения (задължително при машинен превод, примерна точност – 75% за англ.)
• Някои референции са много сложни за алгоритмично третиране. Пример:– Иван и Мария намериха свещеник и се
ожениха. За медения месец те заминаха на Хавай.
• Дискурсът е плетеница от сложни явления
Идея за структурата на текста според компютърната лингвистика
• Свързаният текст е организиран като дърво от йерархично-вложени сегменти
• Сегментите са групи от локално-свързани изречения, които обсъждат една тема
• Сегментите се сигнализират чрез вметнати изрази, смяна на темата, на глаголното време, на контекста ... Няма дефиниция на сегмент, но човекът ги разпознава по някакъв начин
• Реферира се винаги към обекти в по-горен сегмент. Тази структура на текста прави референцията възможна
Сегментация на дискурса: дърво от локално-групирани клаузи
При изброените трудности, какво изобщо работи на практика?
Има две групи практически технологии, използващи правила:
• За много думи – на малко езикови нива. Тези продукти са на пазара. Правописните коректори работят с думи и правила за линейна съчетаемост. Машинният превод от 90-те години (Систран) се гради върху – морфологичен и солиден синтактичен анализ – частично разрешаване на местоименната
референция• За малко думи – на повече езикови нива.
(IE) Технологии за напр. 1000-2000 думи с елементи на семантичен анализ (само около познатите думи) – такава система се настройва за отделни клиенти
Машинен превод в пазарен вид• Systran (за десетки езици), БулТра – с много
големи речници• Прехвърлят многозначността на другия език
(понеже човекът-читател ще я разреши):– John sees the girl with the telescope– Джон гледа девойката с телескопа.
• Има типични грешки:– All rooms have ocean and garden view.– Всички стаи имат океан и градински изглед.
• Местоименията са типичен проблем:– John takes the cup from the table. It was repaired by Jane.– Джон взема чашката от масата. Това бе поправено
от Джейн.
Извличане на информация• Разпознава се дадено събитие – напр.
терористични актове в полицейски сводки
• Системата следи само “важните думи” и прави семантичен анализ около тях. Фази:– Разпознаване и класификация на имена: до
96% точност за англ. език – Разпознаване на референция: около 50% се
разпознават, до 75% се разрешават коректно– Разпознаване на описания на събитието: до
70-80%, хората го правят с точност 93%– Запълване на сценария на събитието: с
точност 49-56%, а хората постигат 81%
2. Няколко думи за генерацията на ЕЕ NLU ↓ - броене от 1 към безкрайност;NLG ↑ - броене от безкрайност към 1
Генерация на ЕЕ според компютърната лингвистика
• Съчленяването на фиксирани текстови низове и запълването на шаблони не е генерация
• Генерация: произвеждане на текст от динамично подаден неезиков вход с определена семантика, чрез обработка на връзки между текстови единици съгласно някаква лингвистична теория за строежа на дискурса и компютърен модел на тази теория.
• Генерацията на кохерентен дискурс е трудна задача. Засега няма психолингвистични теории за това, как човекът генерира естествен език: – как подбира релевантната информация, – как планира подредбата на изреченията едно след
друго, – как изгражда референцията между свързаните
изречения и т.н.
Етапи на генерацията• Подбор на релевантните факти – според
контекста и според слушателя• Решение как да се разположат клаузите
последователно – план на текста• Избор на граматически шаблони и думи за
вербализация на избраните факти• Решение колко дълга да бъде атомарната
клауза и генерация на подходящи местоименни анафори и други референции между клаузите
• Повърхнинна реализация – напр. членуване, съгласуване по род и число, препинателни знаци и др. под.
Важност на плана на текста• Текстът не е механична композиция от
изречения, той носи повече информация от сумата на съставящите го клаузи
• Един дискурс е кохерентен, ако слушателят разбира комуникативната роля на всеки негов фрагмент, тоест, ако слушателят разбира как говорителят възнамерява да свърже отделните клаузи с всяка друга клауза
• Планът на текста позволява добавяне на вметнати изрази, които подсилват или блокират заключения у слушателя
• Засега динамично построяване на планове е невъзможно. Използват се “замразени рецепти”
Схеми от риторични релации• Хората също ги ползват. Примери в детска
енциклопедия:– Братовчед на коня, зебрата е единственият голям
бозайник с козина на ивици от бяло и черно. Има буйна грива и добре окосмена опашка. Тя е най-красива от сродниците си. Дължината на тялото й е 2 метра и 20 см (плюс 75 см опашка). Височината при плешките 1,25 до 1,35 см. Тегло 225 до 420 кг. Продължителността на живот е от 20 до 40 години (в плен).
– Щраусът е най-голямата птица в света. Той не може да лети, но има дълги и силни крака. Има малка глава, издължена гола шия и огромни очи. На височина достига 2,75 метра, което му дава възможност да вижда хищниците отдалече.
Примерна (неформална) схема• Въведи името на обекта, неговия клас и най-
важните характеристики на обекта и класа;• Опиши дължината на обекта;• Опиши височината на обекта;• Опиши теглото на обекта;• Опиши продължителността на живота на
обекта;• Опиши скоростта на движение на обекта,• Опиши други характеристики: зона на
разпространение, цвят на козината Не се ограничава броят на клаузите, а само видът
и наредбата им. Пълнят се с наличното знание. Чрез една схема се произвеждат различни текстове, но те имат досадно-еднотипен вид
EGEN – обяснения на два езика• Максимално независим от предметната област
и лесно може да се прехвърли към друга база знание, ако връзките между речника и концептуални ресурси са зададени в определен формат. Дефект – говори еднотипно за всичко
• Класическите схеми извличат знанието, което могат да разкажат; ЕГЕН търси релевантно знание по предварително зададени концептуални шаблони (чрез проекция в базата от знание) и пълни избраната схема
• Предлага решения на някои структурни въпроси, напр. модел на грануларността на термините на български и немски език
Примери (1)• Ölphasen (Ölpartikel1) gehören zu Partikeln2. Die3
Ölphasen sind gekennzeichnet durch Dichte4. Die ausschwimmenden5 und grobdispersen6 Ölphasen, welche leichter als Wasser sind7, sind enthalten in Abwasser8.
• Маслените9 частици са частици. Маслените частици се характеризират с плътност. Маслени частици10, които се съдържат в отпадъчна вода10, са изплуващи, грубодиспергирани и по-леки от водата.– 1 е синоним от лексикона; – 2 е надтип от концептуалната йерархия; – 3 е определителен член, поставен поради предишното
споменаване на обекта Ölphasen; – 4 е характеристиката плътност; – 5 и 6 са характеристиките изплуващ и грубодиспергиран в
съответното съгласуване;
Примери (2)• Ölphasen (Ölpartikel1) gehören zu Partikeln2. Die3
Ölphasen sind gekennzeichnet durch Dichte4. Die ausschwimmenden5 und grobdispersen6 Ölphasen, welche leichter als Wasser sind7, sind enthalten in Abwasser8.
• Маслените9 частици са частици. Маслените частици се характеризират с плътност. Маслени частици10, които се съдържат в отпадъчна вода10, са изплуващи, грубодиспергирани и по-леки от водата.– 7 е реализирано като подчинено изречение, тъй като в
лексикона не е намерено единично прилагателно;– 8 е повърхнинна реализация в страдателен залог, тъй като
фактът ‘отпадъчната вода съдържа ....” се вербализира в изречение, където Ölphasen са заели ролята на подлог и поради това граматиката предлага само възможност за изказване на конкретния факт в страдателен залог;
– 9 е членуване на български, което не се среща на немски; – 10 е пример за неудачно членуване на български
Практически приложения• Генерацията се използва при
многобройни повтарящи се обяснения с еднотипен характер
• Пример от проект на ЕК (завършил през 2007 в програмата eContent): следи се нивото на замърсяване във въздуха и при нужда се изпращат динамично-генерирани съобщения до клиенти: астматици, хора с кожни заболявания и т.н. В (северна) Европа такъв продукт е много перспективен за комерсиализация
3. Статистически методи• Използват се отдавна, но доказват предим-
ствата си през последните 10-12 години – понеже много явления са регулярни
• Машинният превод е много модерен и много търсен на пазара, за нови/други езици
• В момента лидер е Гугъл• Обучението се извършва над паралелни
корпуси, подравнени по изречения, и не използва други ресурси (речници, правила)
• Наблюдават се учебните данни - как се превеждат фразите (с % вероятност) - и научените преводи се сглобяват върху непознати текстове
Примери от системата на Преслав Наков,най-добра (2007)/втора (2008) за англ.-испански
Английска фраза Превод на български език
in combination в комбинация, в съчетание
in combining при съчетание, при съчетание на
in charge of отговарят за, отговарящ за
both physical and psychological
както физическа, така и психическа
as defined както те са определени
Превод от човек Статистически МП
Европейска конвенция за взаимопомощ по наказателно-правни въпросиПреамбюлПравителствата, подписали тази конвенция, в качеството си на членове на Съвета на Европа, считайки, че целта на Съвета на Европа е да се постигне по-голямо единство между неговите членове,убедени, че приемането на общи правила в областта на правната помощ по наказателни дела ще допринесе за постигането на тази цел,считайки, че правната помощ е свързана с въпроса за екстрадицията, която вече бе предмет на конвенцията, подписана на 13 декември 1957 година, се споразумяха за следното ..
европейска конвенция за взаимопомощ по наказателно-правни въпросипреамбюлправителствата, подписали този протокол, членове на съвета на европа,считайки, че целта на съвета на европа е постигнето на по-голямо единство между своите членове,убедени, че приемане на общи правила в областта на правна помощ по наказателни дела ще допринесе за постигането на тази цел,считайки, че тази взаимна помощ е свързана с въпроса за екстрадиция, който вече е образувано предмет на конвенция, подписана в 13th декември 1957 година,
се споразумяха за следното …
4. Състояние в България
• 1964 год. в И-та по Математика на БАН (проф. Ал. Людсканов), руско-български маш. превод
• Типично за флективен език, КЛ остава много години фокусирана върху морфологията и ресурсите, организирани около думите
• През 80-те и 90-те години се разработват 4-5 независими големи морфологични речника, с над 60000 основни думи
• Днес КЛ е изненадващо активна, с десетки групи и фирми (за сведение, 2% от индустриалния софтуер в света интегрира езикови технологии)
По-важни научни звена
• БАН – Институт по информационни и
комуникационни технологии,– Институт по математика и информатика, и– Институт за български език
• Пловдивски университет
• Софийски университет
• Напоследък има групи/изследователи в– Нов български университет– Търновски университет
Фирми / Частни организацииНай-активните разработчици на езикови
технологии за българския език:• ОнтоТекст Лаб / Сирма,• Българската асоциация по компютърна
лингвистика БАКЛ • АПИС, • ПроЛангс (разработчиците на БулТра), • BMG (от ACT Soft), • Сиела, • dir.bg, • netinfo,
Прототипи, ресурси, продукти• 5-10 много големи морфологични речници и
съответни анализатори към тях• Няколко програми за корекции на правописни
грешки (почти свободни)• Поне три прототипни разработки на синтактични
анализатори на български изречения• Поне две системи за машинен превод + Гугъл• Системи за търсене на документи • БАКЛ предлага синтезатор на българска реч по
зададен входен текст, като продукт ориентиран към граждани с нарушено зрение.
• Впечатляващо количество лингвистични ресурси от различен вид, разработени главно в академичните среди.
Секция по лингв. моделиране на ИИКТ-БАН национален координатор на БГ-КЛАРИН
По-главни ресурси:1. Текстов архив от 72 млн. словоформи, 2. Няколко вида текстови корпуси с анотация на
различно ниво, 3. Банка от ръчно създадени синтактични дървета
за 15000 български изречения, една от петте най-големи в света,
4. Многобройни лексически ресурси за българския и руски език, както и двуезични лексикони,
5. 10 млн. словоформи многоезични подравнени паралелни корпуси за междуезикова обработка - български, английски и други славянски езици,
6. Частична формална граматика на българския език, създадена във връзка с банката синтактични дървета
(3-4-5-6 са създадени по международни проекти)
Секция по лингв. моделиране на ИИКТ-БАНПо-главни прототипи и технологични продукти:
1. Системи за обработка на български език чрез морфологичен и синтактичен анализ,
2. Среда КЛАРК за създаване и обработка на текстови корпуси,
3. Прототип за автоматична корекция на грешки при сканиране на български и немски език – с най-добрата точност в света,
4. Различни софтуерни среди за създаване на базисните речници и граматики на езиковите технологии
5. Модули за автоматично извличане на информа-ция от анонимизирани болнични записи на диабетици
(2-3-5 са създадени по международни и национални проекти)
5. Приложения в медицинската информатика - извличане на важни факти
от анонимизирани болнични записи
Морфологичен анализ само за “важните думи”
Плитък синтактичен анализ
Извличане на лекарства и стойности на клинични изследвания
Измерване на точността при IE
• Точност (precision) - % коректно разпознати/намерени единици измежду всички разпознати/намерени;
• Покриваемост (recall) - % коректно разпознати/намерени единици измежду всички налични в корпуса;
• Хармонично средно (F/f-measure или F/f-score)
F = 2 * Precision * Recall / (Precision+Recall).
Коректност на сегашните прототипи
Извличане на имена на лекарства: 1537 имена разпознати в 6200 епикризи с f-score 98,42%; дозировка с f-score 93,85%
Контекстуализация – намиране на текущо-приеманите лекарства: точност 88%, покриваемост 92,45%, f-score 90,17%, свръх-генерация 6%
Присвояване МКБ-10 кодове на диагнози: 84,5% за 26826 фрази в зона Диагнози;
Стойности от клинични изследвания: точност 98,2%.
6. Заключение• Обработката на семантиката е “тясно място”
(bottleneck); влагат се много усилия за автоматично извличане на отделни факти от текста/изреченията ... Но как ще се свържат в кохерентно цяло?
• Следващото десетилетие принадлежи на статистическите подходи, напр. стат. МП ще конкурира традиционните системи за превод чрез правила (техните грешки са неотстраними)
• Развитието на езикови технологии за български език е неизбежно – трябва да се съобразяваме с изискванията на ЕС, но скоростта зависи от нас и националното финансиране
Литература, връзки в Интернет
• Allen, J. Natural Language Understanding. The Benjamins /Cummings Publishing Company, Inc. 1994.
• Страници на СЛМ-ИИКТ, БАН: http://www.lml.bas.bg• Паскалева, Е. Компютърна морфология – ресурси и
инструменти. ИПОИ-БАН, София 2007, ISBN 978-954-92148-1-9, 150 стр. http://lml.bas.bg/~galia/lectures09/CompMorph-ElenaPaskaleva.pdf
• Балрик-Линг: http://www.larflast.bas.bg/balric/index/index.htm, от панела вляво: Морфологични ресурси, Анализатор, Демо
• Услуги за морфологично анализиране, лематизация и синтактичен анализ http://webclark.org/Clark.html
• Осенова, П. и К. Симов. Формална граматика на българския език. ИПОИ-БАН, София, България. ISBN: 78-954-92148-2-6, 128 страници. Вж. http://www.bultreebank.org/bgpapers/FormalGrammarBG.pdf
• CLARIN - http://www.clarin.eu/external/
Благодаря за вниманието …
ВЪПРОСИ?