Галя Ангелова Секция за Лингвистично Моделиране

60
Галя Ангелова Секция за Лингвистично Моделиране Институт по информационни и комуникационни технологии (ИИКТ) - БАН Езиковите технологии днес и утре

Upload: raya-hutchinson

Post on 01-Jan-2016

75 views

Category:

Documents


3 download

DESCRIPTION

Езиковите технологии днес и утре. Галя Ангелова Секция за Лингвистично Моделиране Институт по информационни и комуникационни технологии (ИИКТ) - БАН [email protected] , http://www.lml.bas.bg/~galja. Благодаря за поканата!. Причини да я приема: ..... ..... ..... ...... - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Галя Ангелова Секция за Лингвистично Моделиране

Галя Ангелова

Секция за Лингвистично Моделиране

Институт по информационни и комуникационни технологии (ИИКТ) -

БАН[email protected], http://www.lml.bas.bg/~galja

Езиковите технологии днес и утре

Page 2: Галя Ангелова Секция за Лингвистично Моделиране

Благодаря за поканата!

Причини да я приема:• ..... ..... ..... ...... • Принципните постановки на дисциплината

не са широко известни – те са много специфични

• Хората (вкл. потребителите) не знаят защо системите за автоматична обработка на естествения език имат ограничения и предел на възможностите си

• Не се разбира добре необходимостта от инвестиции както в разработката на компютърни модели и софтуер, така и в създаването на лингвистични ресурси

Page 3: Галя Ангелова Секция за Лингвистично Моделиране

Опит да обозрем полето - 1

Page 4: Галя Ангелова Секция за Лингвистично Моделиране

Опит да обозрем полето - 2

Page 5: Галя Ангелова Секция за Лингвистично Моделиране

Кратка история на комп. лингвистика• Ветеран на 50+ години – започва с англ.-руски

машинен превод в началото на студената война• Абсорбира и интегрира бързо резултатите на:

– Структурната лингвистика (Чомски)– Теорията на автоматите (крайни и стекови

автомати) • През 70те години на 20ти век е 'сестра' на

приложната лингвистика; през 80те – дял от ИзкИнт• През 90те години на преден план излизат

статистическите методи• След появата на Интернет финансирането се

фокусира върху приложните подходи• Езикова технология – софтуерно решение /модул/

за обработка на естествен език, ориентирано към крайния потребител. Част от Информ. Технологии

Page 6: Галя Ангелова Секция за Лингвистично Моделиране

Съдържание на изложението1. Методи за авт. обработка на естествения

език чрез правила (rule-based approach)

2. Няколко думи за генерацията на ЕЕ

3. Статистически методи (statistical, data-driven, machine learning methods)

(1) и (2) са разгледани отделно, в 'чист вид ‘

4. Развитие на езиковите технологии в България

5. Текущ проект – извличане на информация от медицински текстове

6. Заключение

Page 7: Галя Ангелова Секция за Лингвистично Моделиране

1. Обработка чрез правила – дял от Изкуствения Интелект (ИИ)

• Основава се на множество правила за разпознаване на структурата и функционирането на ЕЕ, както и върху лингвистични ресурси

• Като замисъл, моделира (симулира) човешкото поведение при анализ на ЕЕ

• Доминиращ метод в компютърната лингвистика през 70-те и 80-те години

• Очертава принципните постановки, основните езикови нива за обработка, главните възможности и непреодолимите затруднения

Page 8: Галя Ангелова Секция за Лингвистично Моделиране

Обработка на ЕЕ чрез правила

Page 9: Галя Ангелова Секция за Лингвистично Моделиране

Морфологичен анализ – фокус върху думите • Цел: да се разпознаят думите в текста, който за

компютъра е низ от символи• Реализация: чрез налагане на всички низове

между два интервала върху единиците на предварително зададен речник от думи

• Пример в Интернет (там е показан и речникът заедно с 241 морфологични характеристики:

http://www.larflast.bas.bg/balric/index/index.htm )• Демо-текст1: Зад сините планини на изток,

из едно море от светлина и слава, се показваше пламналото лице на майското слънце и събуденото зелено поле широко и весело се къпеше в лъчите му и празнуваше.

Page 10: Галя Ангелова Секция за Лингвистично Моделиране

ДУМА /словоформа

ЛЕМА /основна форма

Характерис-тики на лемата

Характерис-тики на формата /заизменяемите

зад зад предлог

сините син прилаг.; кач. мн.член.

планини планина същ.; ж.р. мн.нечлен.

на на предлог

изток изток същ.; м.р. ед. нечлен.

из из предлог

едно - - -

море море същ.; ср.р. ед. нечлен.

море частица

.... .... .... ....

Page 11: Галя Ангелова Секция за Лингвистично Моделиране

Роля на речника – “подава” думи и морфологични характеристики

• Компютърът не знае, че има същ-прил-... и че ‘къщите’ е словоформа на ‘къща’

• Речникът се изработва ръчно за десетки години (дума по дума)

• Анализът е възможен благодарение на лингвистичните категории в речника

• За всеки входен текст, компютърът строи вътрешно представяне от думи и техни лингвистични характеристики

Page 12: Галя Ангелова Секция за Лингвистично Моделиране

Многозначност• Низовете са форми на много думи, напр.

Плевен е причастие на глаголя плевя (на английски език многозначността е типична)

• Ръчно се задават правила за разрешаване на многозначността (чрез категориите от речника):– Ако след форма Х, която е прилагателно

или наречие в речника, следва съществително Y, и Х и Y са съгласувани по род и число, приеми Х за прилагателно

– Пример: .... събуденото зелено поле широко и весело се къпеше ....

Page 13: Галя Ангелова Секция за Лингвистично Моделиране

Анализ на текста в комп. лингвистика

• Цел: да се строят вътрешни представяния и структури от граматически категории, в чиито термини да се постигне пълно разпознаване на входните единици и да се реши поставената задача

• Теориите на компютърната лингвистика обясняват структурата и функционирането на ЕЕ чрез тези вътрешни представяния и предлагат алгоритми за тяхната обработка

• Алгортимите, компютърните модели и софтуерната реализация са много важни ... но без ресурси няма как да работят!

Page 14: Галя Ангелова Секция за Лингвистично Моделиране

От думите към изреченията

Page 15: Галя Ангелова Секция за Лингвистично Моделиране

Безконтекстни пораждащи граматики на Чомски

• Синтактичното знание се задава фрагментирано на правила, организирани около “безконтекстен скелет”. Примери:

S (sentence) NP (noun phrase) VP (verb phrase) NP DETerminer NOUN NP N-MOD NOUN NP NOUN PP (prepositional phrase) PREPosition NP (noun ph) и т.н. – стотици правила• Синтактичният анализ (разбор/parsing) се състои

в изчерпващо търсене на комбинациите от правила, покриващи цялото входно изречение

• Алгоритъмът за анализ е сравнително прост и ефективен, извежда “дърво на разбора” с възли- синтактични конституенти

Page 16: Галя Ангелова Секция за Лингвистично Моделиране

Пример за синтактичен разбор / ЧомскиTime flies like an arrow

Page 17: Галя Ангелова Секция за Лингвистично Моделиране

Дървета от конституенти / тухлички

Page 18: Галя Ангелова Секция за Лингвистично Моделиране

Преход към предикатно-аргументни структури за всяко изречение

• Строят се композиционно/унифицирано в процеса на композиционния синтактичен анализ

• ‘Значещите’ думи се превръщат в предикати. Те се композират в логически форми. Примери:

човек x ЧОВЕК(x) (семантика на думата ЧОВЕК). умен човек x ЧОВЕК(x) & УМЕН(x)

(с правило за конюнкцията на едноместни предикати)

Глаголите n-местни предикати, като n е броят на задължителните за запълване семантични валенции на глагола. обичам ОБИЧА(x,y), където x е агентът, а y - обектът.

Page 19: Галя Ангелова Секция за Лингвистично Моделиране

Композиция на логическа формав процеса на синтактичния анализ

Page 20: Галя Ангелова Секция за Лингвистично Моделиране

Логическа проверка на коректността:“Зелените идеи яростно спят”/Чомски

Page 21: Галя Ангелова Секция за Лингвистично Моделиране

Преходът към лог. форми е най-дълбокото ниво на алгоритмично третиране на ЕЕ

• По принцип това е достижение: днес има (лабораторни) прототипи, които го правят за повечето английски изречения

• Но след това следват:– А) Интерпретация в контекста на знанието за

света – и всички проблеми на ИИ– Б) Текста със специфичните си особености –

и всички проблеми на лингвистиката, психо-лингвистиката, когнитивните науки и т.н.

• Човекът се справя с лекота там, където компютърът не успява (и обратно)

Page 22: Галя Ангелова Секция за Лингвистично Моделиране

Засега няма (компютърни) модели за по-сложните езикови явления

• На 'по-дълбоките' езикови нива се сблъскваме с лингвистични явления, които не са изучени добре и засега няма психолингвистични и когнитивни теории за тяхното обяснение и моделиране

• Ще споменем три от тях:– Прагматика– Обхват на значенията– Референция

Page 23: Галя Ангелова Секция за Лингвистично Моделиране

Прагматика• Изучава значенията и тяхното

функциониране в зависимост от контекста• Пример:

– Един студент трябва да учи много.– Студентът трябва да учи много.– Студентите трябва да учат много. Могат да реферират към конкретни обекти или

към всички възможни (т.нар. обобщено четене)

• Засега няма компютърно-приложима семантична теория, която да обяснява как се построява значението на изреченията в рамките на модел на контекста

Page 24: Галя Ангелова Секция за Лингвистично Моделиране

Обхват на значенията на думите• Значенията на думите се преплитат по сложен

начин – има явни и неявни квантори, отрицания, темпорални наречия и т.н.

• Трябва да разположим скобите в логическата форма по съответен начин – но нямаме алгоритъм как да го направим. Примери:

• Портиерът беше любезен във всеки хотел• Утре той ще нахрани най-гладното куче• Едно гладно куче винаги чака на вратата• Всеки мислеше, че България или Румъния ще

влязат в ЕС. • Ние не видяхме всички деца

Page 25: Галя Ангелова Секция за Лингвистично Моделиране

Референция• ЕЕ функционира като последователност от

линейно-наредени клаузи. Говорителят/ писателят фрагментира значението на ‘порции’, организирани около думите, фразите и изреченията. Слушателят възстановява смисъла

• Единно ли е значението на даден свързан текст в главата ни? Не знаем, но то се дискретизира при комуникация (в не-концептуални единици)

• Свързаният текст дискутира едни и същи обекти, изказани с различни думи. Пример:

• МВР залови хакерите, сринали сайта за детските градини на 4/02/2008. Те са И.П. и Б.Б. на 3 години от град С., които не искат да ходят на детска градина.

Page 26: Галя Ангелова Секция за Лингвистично Моделиране

Автоматична обработка на референцията• Функционира в съседни изречения• Местоименията са явни сигнали за

референция и по-лесно се обработват• Днес се обработва анафората с лични

местоимения (задължително при машинен превод, примерна точност – 75% за англ.)

• Някои референции са много сложни за алгоритмично третиране. Пример:– Иван и Мария намериха свещеник и се

ожениха. За медения месец те заминаха на Хавай.

• Дискурсът е плетеница от сложни явления

Page 27: Галя Ангелова Секция за Лингвистично Моделиране

Идея за структурата на текста според компютърната лингвистика

• Свързаният текст е организиран като дърво от йерархично-вложени сегменти

• Сегментите са групи от локално-свързани изречения, които обсъждат една тема

• Сегментите се сигнализират чрез вметнати изрази, смяна на темата, на глаголното време, на контекста ... Няма дефиниция на сегмент, но човекът ги разпознава по някакъв начин

• Реферира се винаги към обекти в по-горен сегмент. Тази структура на текста прави референцията възможна

Page 28: Галя Ангелова Секция за Лингвистично Моделиране

Сегментация на дискурса: дърво от локално-групирани клаузи

Page 29: Галя Ангелова Секция за Лингвистично Моделиране

При изброените трудности, какво изобщо работи на практика?

Page 30: Галя Ангелова Секция за Лингвистично Моделиране

Има две групи практически технологии, използващи правила:

• За много думи – на малко езикови нива. Тези продукти са на пазара. Правописните коректори работят с думи и правила за линейна съчетаемост. Машинният превод от 90-те години (Систран) се гради върху – морфологичен и солиден синтактичен анализ – частично разрешаване на местоименната

референция• За малко думи – на повече езикови нива.

(IE) Технологии за напр. 1000-2000 думи с елементи на семантичен анализ (само около познатите думи) – такава система се настройва за отделни клиенти

Page 31: Галя Ангелова Секция за Лингвистично Моделиране

Машинен превод в пазарен вид• Systran (за десетки езици), БулТра – с много

големи речници• Прехвърлят многозначността на другия език

(понеже човекът-читател ще я разреши):– John sees the girl with the telescope– Джон гледа девойката с телескопа.

• Има типични грешки:– All rooms have ocean and garden view.– Всички стаи имат океан и градински изглед.

• Местоименията са типичен проблем:– John takes the cup from the table. It was repaired by Jane.– Джон взема чашката от масата. Това бе поправено

от Джейн.

Page 32: Галя Ангелова Секция за Лингвистично Моделиране

Извличане на информация• Разпознава се дадено събитие – напр.

терористични актове в полицейски сводки

• Системата следи само “важните думи” и прави семантичен анализ около тях. Фази:– Разпознаване и класификация на имена: до

96% точност за англ. език – Разпознаване на референция: около 50% се

разпознават, до 75% се разрешават коректно– Разпознаване на описания на събитието: до

70-80%, хората го правят с точност 93%– Запълване на сценария на събитието: с

точност 49-56%, а хората постигат 81%

Page 33: Галя Ангелова Секция за Лингвистично Моделиране

2. Няколко думи за генерацията на ЕЕ NLU ↓ - броене от 1 към безкрайност;NLG ↑ - броене от безкрайност към 1

Page 34: Галя Ангелова Секция за Лингвистично Моделиране

Генерация на ЕЕ според компютърната лингвистика

• Съчленяването на фиксирани текстови низове и запълването на шаблони не е генерация

• Генерация: произвеждане на текст от динамично подаден неезиков вход с определена семантика, чрез обработка на връзки между текстови единици съгласно някаква лингвистична теория за строежа на дискурса и компютърен модел на тази теория.

• Генерацията на кохерентен дискурс е трудна задача. Засега няма психолингвистични теории за това, как човекът генерира естествен език: – как подбира релевантната информация, – как планира подредбата на изреченията едно след

друго, – как изгражда референцията между свързаните

изречения и т.н.

Page 35: Галя Ангелова Секция за Лингвистично Моделиране

Етапи на генерацията• Подбор на релевантните факти – според

контекста и според слушателя• Решение как да се разположат клаузите

последователно – план на текста• Избор на граматически шаблони и думи за

вербализация на избраните факти• Решение колко дълга да бъде атомарната

клауза и генерация на подходящи местоименни анафори и други референции между клаузите

• Повърхнинна реализация – напр. членуване, съгласуване по род и число, препинателни знаци и др. под.

Page 36: Галя Ангелова Секция за Лингвистично Моделиране

Важност на плана на текста• Текстът не е механична композиция от

изречения, той носи повече информация от сумата на съставящите го клаузи

• Един дискурс е кохерентен, ако слушателят разбира комуникативната роля на всеки негов фрагмент, тоест, ако слушателят разбира как говорителят възнамерява да свърже отделните клаузи с всяка друга клауза

• Планът на текста позволява добавяне на вметнати изрази, които подсилват или блокират заключения у слушателя

• Засега динамично построяване на планове е невъзможно. Използват се “замразени рецепти”

Page 37: Галя Ангелова Секция за Лингвистично Моделиране

Схеми от риторични релации• Хората също ги ползват. Примери в детска

енциклопедия:– Братовчед на коня, зебрата е единственият голям

бозайник с козина на ивици от бяло и черно. Има буйна грива и добре окосмена опашка. Тя е най-красива от сродниците си. Дължината на тялото й е 2 метра и 20 см (плюс 75 см опашка). Височината при плешките 1,25 до 1,35 см. Тегло 225 до 420 кг. Продължителността на живот е от 20 до 40 години (в плен).

– Щраусът е най-голямата птица в света. Той не може да лети, но има дълги и силни крака. Има малка глава, издължена гола шия и огромни очи. На височина достига 2,75 метра, което му дава възможност да вижда хищниците отдалече.

Page 38: Галя Ангелова Секция за Лингвистично Моделиране

Примерна (неформална) схема• Въведи името на обекта, неговия клас и най-

важните характеристики на обекта и класа;• Опиши дължината на обекта;• Опиши височината на обекта;• Опиши теглото на обекта;• Опиши продължителността на живота на

обекта;• Опиши скоростта на движение на обекта,• Опиши други характеристики: зона на

разпространение, цвят на козината Не се ограничава броят на клаузите, а само видът

и наредбата им. Пълнят се с наличното знание. Чрез една схема се произвеждат различни текстове, но те имат досадно-еднотипен вид

Page 39: Галя Ангелова Секция за Лингвистично Моделиране

EGEN – обяснения на два езика• Максимално независим от предметната област

и лесно може да се прехвърли към друга база знание, ако връзките между речника и концептуални ресурси са зададени в определен формат. Дефект – говори еднотипно за всичко

• Класическите схеми извличат знанието, което могат да разкажат; ЕГЕН търси релевантно знание по предварително зададени концептуални шаблони (чрез проекция в базата от знание) и пълни избраната схема

• Предлага решения на някои структурни въпроси, напр. модел на грануларността на термините на български и немски език

Page 40: Галя Ангелова Секция за Лингвистично Моделиране

Примери (1)• Ölphasen (Ölpartikel1) gehören zu Partikeln2. Die3

Ölphasen sind gekennzeichnet durch Dichte4. Die ausschwimmenden5 und grobdispersen6 Ölphasen, welche leichter als Wasser sind7, sind enthalten in Abwasser8.

• Маслените9 частици са частици. Маслените частици се характеризират с плътност. Маслени частици10, които се съдържат в отпадъчна вода10, са изплуващи, грубодиспергирани и по-леки от водата.– 1 е синоним от лексикона; – 2 е надтип от концептуалната йерархия; – 3 е определителен член, поставен поради предишното

споменаване на обекта Ölphasen; – 4 е характеристиката плътност; – 5 и 6 са характеристиките изплуващ и грубодиспергиран в

съответното съгласуване;

Page 41: Галя Ангелова Секция за Лингвистично Моделиране

Примери (2)• Ölphasen (Ölpartikel1) gehören zu Partikeln2. Die3

Ölphasen sind gekennzeichnet durch Dichte4. Die ausschwimmenden5 und grobdispersen6 Ölphasen, welche leichter als Wasser sind7, sind enthalten in Abwasser8.

• Маслените9 частици са частици. Маслените частици се характеризират с плътност. Маслени частици10, които се съдържат в отпадъчна вода10, са изплуващи, грубодиспергирани и по-леки от водата.– 7 е реализирано като подчинено изречение, тъй като в

лексикона не е намерено единично прилагателно;– 8 е повърхнинна реализация в страдателен залог, тъй като

фактът ‘отпадъчната вода съдържа ....” се вербализира в изречение, където Ölphasen са заели ролята на подлог и поради това граматиката предлага само възможност за изказване на конкретния факт в страдателен залог;

– 9 е членуване на български, което не се среща на немски; – 10 е пример за неудачно членуване на български

Page 42: Галя Ангелова Секция за Лингвистично Моделиране

Практически приложения• Генерацията се използва при

многобройни повтарящи се обяснения с еднотипен характер

• Пример от проект на ЕК (завършил през 2007 в програмата eContent): следи се нивото на замърсяване във въздуха и при нужда се изпращат динамично-генерирани съобщения до клиенти: астматици, хора с кожни заболявания и т.н. В (северна) Европа такъв продукт е много перспективен за комерсиализация

Page 43: Галя Ангелова Секция за Лингвистично Моделиране

3. Статистически методи• Използват се отдавна, но доказват предим-

ствата си през последните 10-12 години – понеже много явления са регулярни

• Машинният превод е много модерен и много търсен на пазара, за нови/други езици

• В момента лидер е Гугъл• Обучението се извършва над паралелни

корпуси, подравнени по изречения, и не използва други ресурси (речници, правила)

• Наблюдават се учебните данни - как се превеждат фразите (с % вероятност) - и научените преводи се сглобяват върху непознати текстове

Page 44: Галя Ангелова Секция за Лингвистично Моделиране

Примери от системата на Преслав Наков,най-добра (2007)/втора (2008) за англ.-испански

Английска фраза Превод на български език

in combination в комбинация, в съчетание

in combining при съчетание, при съчетание на

in charge of отговарят за, отговарящ за

both physical and psychological

както физическа, така и психическа

as defined както те са определени

Page 45: Галя Ангелова Секция за Лингвистично Моделиране

Превод от човек Статистически МП

Европейска конвенция за взаимопомощ по наказателно-правни въпросиПреамбюлПравителствата, подписали тази конвенция, в качеството си на членове на Съвета на Европа, считайки, че целта на Съвета на Европа е да се постигне по-голямо единство между неговите членове,убедени, че приемането на общи правила в областта на правната помощ по наказателни дела ще допринесе за постигането на тази цел,считайки, че правната помощ е свързана с въпроса за екстрадицията, която вече бе предмет на конвенцията, подписана на 13 декември 1957 година, се споразумяха за следното ..

европейска конвенция за взаимопомощ по наказателно-правни въпросипреамбюлправителствата, подписали този протокол, членове на съвета на европа,считайки, че целта на съвета на европа е постигнето на по-голямо единство между своите членове,убедени, че приемане на общи правила в областта на правна помощ по наказателни дела ще допринесе за постигането на тази цел,считайки, че тази взаимна помощ е свързана с въпроса за екстрадиция, който вече е образувано предмет на конвенция, подписана в 13th декември 1957 година,

се споразумяха за следното …

Page 46: Галя Ангелова Секция за Лингвистично Моделиране

4. Състояние в България

• 1964 год. в И-та по Математика на БАН (проф. Ал. Людсканов), руско-български маш. превод

• Типично за флективен език, КЛ остава много години фокусирана върху морфологията и ресурсите, организирани около думите

• През 80-те и 90-те години се разработват 4-5 независими големи морфологични речника, с над 60000 основни думи

• Днес КЛ е изненадващо активна, с десетки групи и фирми (за сведение, 2% от индустриалния софтуер в света интегрира езикови технологии)

Page 47: Галя Ангелова Секция за Лингвистично Моделиране

По-важни научни звена

• БАН – Институт по информационни и

комуникационни технологии,– Институт по математика и информатика, и– Институт за български език

• Пловдивски университет

• Софийски университет

• Напоследък има групи/изследователи в– Нов български университет– Търновски университет

Page 48: Галя Ангелова Секция за Лингвистично Моделиране

Фирми / Частни организацииНай-активните разработчици на езикови

технологии за българския език:• ОнтоТекст Лаб / Сирма,• Българската асоциация по компютърна

лингвистика БАКЛ • АПИС, • ПроЛангс (разработчиците на БулТра), • BMG (от ACT Soft), • Сиела, • dir.bg, • netinfo,

Page 49: Галя Ангелова Секция за Лингвистично Моделиране

Прототипи, ресурси, продукти• 5-10 много големи морфологични речници и

съответни анализатори към тях• Няколко програми за корекции на правописни

грешки (почти свободни)• Поне три прототипни разработки на синтактични

анализатори на български изречения• Поне две системи за машинен превод + Гугъл• Системи за търсене на документи • БАКЛ предлага синтезатор на българска реч по

зададен входен текст, като продукт ориентиран към граждани с нарушено зрение.

• Впечатляващо количество лингвистични ресурси от различен вид, разработени главно в академичните среди.

Page 50: Галя Ангелова Секция за Лингвистично Моделиране

Секция по лингв. моделиране на ИИКТ-БАН национален координатор на БГ-КЛАРИН

По-главни ресурси:1. Текстов архив от 72 млн. словоформи, 2. Няколко вида текстови корпуси с анотация на

различно ниво, 3. Банка от ръчно създадени синтактични дървета

за 15000 български изречения, една от петте най-големи в света,

4. Многобройни лексически ресурси за българския и руски език, както и двуезични лексикони,

5. 10 млн. словоформи многоезични подравнени паралелни корпуси за междуезикова обработка - български, английски и други славянски езици,

6. Частична формална граматика на българския език, създадена във връзка с банката синтактични дървета

(3-4-5-6 са създадени по международни проекти)

Page 51: Галя Ангелова Секция за Лингвистично Моделиране

Секция по лингв. моделиране на ИИКТ-БАНПо-главни прототипи и технологични продукти:

1. Системи за обработка на български език чрез морфологичен и синтактичен анализ,

2. Среда КЛАРК за създаване и обработка на текстови корпуси,

3. Прототип за автоматична корекция на грешки при сканиране на български и немски език – с най-добрата точност в света,

4. Различни софтуерни среди за създаване на базисните речници и граматики на езиковите технологии

5. Модули за автоматично извличане на информа-ция от анонимизирани болнични записи на диабетици

(2-3-5 са създадени по международни и национални проекти)

Page 52: Галя Ангелова Секция за Лингвистично Моделиране

5. Приложения в медицинската информатика - извличане на важни факти

от анонимизирани болнични записи

Page 53: Галя Ангелова Секция за Лингвистично Моделиране

Морфологичен анализ само за “важните думи”

Page 54: Галя Ангелова Секция за Лингвистично Моделиране

Плитък синтактичен анализ

Page 55: Галя Ангелова Секция за Лингвистично Моделиране

Извличане на лекарства и стойности на клинични изследвания

Page 56: Галя Ангелова Секция за Лингвистично Моделиране

Измерване на точността при IE

• Точност (precision) - % коректно разпознати/намерени единици измежду всички разпознати/намерени;

• Покриваемост (recall) - % коректно разпознати/намерени единици измежду всички налични в корпуса;

• Хармонично средно (F/f-measure или F/f-score)

F = 2 * Precision * Recall / (Precision+Recall).

Page 57: Галя Ангелова Секция за Лингвистично Моделиране

Коректност на сегашните прототипи

Извличане на имена на лекарства: 1537 имена разпознати в 6200 епикризи с f-score 98,42%; дозировка с f-score 93,85%

Контекстуализация – намиране на текущо-приеманите лекарства: точност 88%, покриваемост 92,45%, f-score 90,17%, свръх-генерация 6%

Присвояване МКБ-10 кодове на диагнози: 84,5% за 26826 фрази в зона Диагнози;

Стойности от клинични изследвания: точност 98,2%.

Page 58: Галя Ангелова Секция за Лингвистично Моделиране

6. Заключение• Обработката на семантиката е “тясно място”

(bottleneck); влагат се много усилия за автоматично извличане на отделни факти от текста/изреченията ... Но как ще се свържат в кохерентно цяло?

• Следващото десетилетие принадлежи на статистическите подходи, напр. стат. МП ще конкурира традиционните системи за превод чрез правила (техните грешки са неотстраними)

• Развитието на езикови технологии за български език е неизбежно – трябва да се съобразяваме с изискванията на ЕС, но скоростта зависи от нас и националното финансиране

Page 59: Галя Ангелова Секция за Лингвистично Моделиране

Литература, връзки в Интернет

• Allen, J. Natural Language Understanding. The Benjamins /Cummings Publishing Company, Inc. 1994.

• Страници на СЛМ-ИИКТ, БАН: http://www.lml.bas.bg• Паскалева, Е. Компютърна морфология – ресурси и

инструменти. ИПОИ-БАН, София 2007, ISBN 978-954-92148-1-9, 150 стр. http://lml.bas.bg/~galia/lectures09/CompMorph-ElenaPaskaleva.pdf

• Балрик-Линг: http://www.larflast.bas.bg/balric/index/index.htm, от панела вляво: Морфологични ресурси, Анализатор, Демо

• Услуги за морфологично анализиране, лематизация и синтактичен анализ http://webclark.org/Clark.html

• Осенова, П. и К. Симов. Формална граматика на българския език. ИПОИ-БАН, София, България. ISBN: 78-954-92148-2-6, 128 страници. Вж. http://www.bultreebank.org/bgpapers/FormalGrammarBG.pdf

• CLARIN - http://www.clarin.eu/external/

Page 60: Галя Ангелова Секция за Лингвистично Моделиране

Благодаря за вниманието …

ВЪПРОСИ?