fact extraction (ideograph)
DESCRIPTION
TRANSCRIPT
![Page 1: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/1.jpg)
Автоматическое извлечение фактов из текста
На примере газетных статей
Татьяна Ландо ООО «Идеограф»
![Page 2: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/2.jpg)
Что это такое?
• Fact extraction (text mining) – автоматическое извлечение из текстов новой, заранее неизвестной информации, для построения фактов.
• Примеры фактов:– Установление связей между объектами– Установление свойств объектов– Установление значений параметров
![Page 3: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/3.jpg)
Зачем это надо?
• Сокращение трудоемкости при обработке текстов в конкретной предметной области. Популярная область применения:– Медицина, биотехнологии.
• Может применяться в: – Поддержка систем принятия решений– Экспертные системы– Базы знаний– Системы документооборота
![Page 4: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/4.jpg)
Пример: текст
«Евросеть», крупнейшая розничная компания СНГ, объявляет о назначении на пост Вице-президента по маркетингу и рекламе компании Андрея Рукавишникова. Оборот компании «Евросеть», в 2006 году составил 4,62 млрд. долларов.
![Page 5: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/5.jpg)
Пример: факты
1. отношения между объектамиАндрей Рукавишников - вице-президент по
маркетингу и рекламе компании «Евросеть».
2. свойства объектов«Евросеть» - крупнейшая розничная компания СНГ
3. значение параметровОборот компании «Евросеть» - 4,62 млрд.
долларов за 2006 год.
![Page 6: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/6.jpg)
Формулировка задачи
• Извлекать факты из газетных текстов.
(Создать базу данных фактов)
• На данном этапе стоят задачи:– Отождествлять имена собственные:
Андрей Рукавишников => человек
«Евросеть» => компания
– Устанавливать связи между ними вице-президент по маркетингу и рекламе =>
=> занимаемая должность
![Page 7: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/7.jpg)
Существующие проекты
• Яндекс.Новости – пресс-портреты. http://news.yandex.ru/people/
• RCO Fact Extractor http://rco.ru
• Интегрум http://www.integrum.ru/
![Page 8: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/8.jpg)
Зачем еще одна система?
• Существующие системы построены практически без использования лингвистических технологий.
• Применение лингвистики может– обогатить результаты – сделать их более качественными– придать системе гибкость и расширяемость
Добавляем лингвистику!
![Page 9: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/9.jpg)
определения
Термин – компонент тройки, т.е.единица
релевантная для системы, в нашем случае:
Имя человека, Название компании, Должность
Элементарный факт -
полностью заполненная тройка
(Человек, Компания, Должность)
должность
компания
человек
![Page 10: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/10.jpg)
Этапы обработки текста(для любой системы)
• Первичная обработка текста (структурирование)
• Извлечение фактов, с использованием образцов (паттернов)
• Интерпретация результатов
![Page 11: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/11.jpg)
Этапы работы нашей системы
• Первичная обработка текста– Токенизация – Парсинг
• Извлечение фактов– Идентификация терминов– Построение элементарных фактов
• Интерпретация результатов– Проверка корректности– Запись в базу данных
![Page 12: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/12.jpg)
Первичная обработка текста
Обязательные компоненты– Токенизация
• Разбивка текста на слова.
– Лемматизация (Нормализация)• приведение слова к начальной (нормальной)
форме
Дополнительные компоненты– Частичный синтаксический анализ– Идентификация терминов
![Page 13: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/13.jpg)
Токенизация
- Разбивка текста на слова. Маркеры:
- Пунктуация- Пробелы- Цифры
Проблемы:- Дефисное написание Связь-Банк- Использование пунктуации и цифр в именах
собственных заявочный комитет "Сочи-2014"
![Page 14: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/14.jpg)
Лемматизация
Приведение слова к начальной (нормальной) форме
Основная проблема:- Морфологическая неоднозначность
директора – ед.ч. Р.п. или мн.ч. Им.п
- Способы решения:- Статистический (частотный) - Учет синтаксической информации
![Page 15: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/15.jpg)
Частичный синтаксический анализ
Частичный разбор предложения, установление грамматических связей между словами
Функции:• Снятие морфологической неоднозначности• Первичная идентификация терминов
Метод:особый формализм для описания естественно-языковых грамматик: AGFL
![Page 16: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/16.jpg)
AGFLAffix grammar over the finite latticeРаспространяется под свободной
лицензией (GNU GPL)
уже подтверждена перспективность использования (на материале других европейских языков) для представления естественного языка в NLP технологиях
http://www.agfl.cs.ru.nl/links.html (примеры)
![Page 17: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/17.jpg)
AGFL
Гибкость и устойчивость системы:• работает не только с предложениями, но и
с «сегментами» текста
• может обрабатывать грамматически неверные или неполные предложения
• разрешение неоднозначности за счет сочетания признаков слов.
![Page 18: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/18.jpg)
AGFL• Двухуровневая контекстно-свободная
порождающая формальная грамматика– Морфология– Синтаксис
• дополнена решеткой признаков с конечным числом значений.
• Признаки:– грамматические категории, – лексико-грамматические разряды частей речи, – любые необходимые формальные характеристики
![Page 19: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/19.jpg)
AGFL: морфологический модуль
• задается анализ основных частей речи (существительных, глаголов, прилагательных и наречий).
• использует лексикон основ, для которых указаны основные классификационные категории частей речи: – характеристика рода и одушевленности
существительных, – лексико-грамматический разряд прилагательных– схема управления глаголов и т. д.
• дополнительно используется модуль деривации
![Page 20: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/20.jpg)
AGFL: морфологический модуль
• результат работы – приписанная форме слова частеречная
характеристика и набор значений морфологических категорий(многозначный – в случае омонимии форм )
• встроен в синтаксический модуль– учет локального синтаксического контекста для
снятия омонимии• наличие предлогов • соответствия между значениями грамматических категорий
словоформа пути в конструкции в пути получит не 5 интерпретаций в роли существительного а 2 – П.п. ед.ч. и В.п. мн.ч.
![Page 21: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/21.jpg)
AGFL: синтаксический модуль
• частотные конструкции словосочетаний,
• частотные схемы построения простых предложений
• отдельные осложняющие конструкции в простом предложении – ряды – причастные обороты – деепричастные обороты
![Page 22: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/22.jpg)
AGFL: примерДиректора интерпретации:
– Р.п. ед.ч., В.п. ед.ч., Им.п. мн.ч.
В заседании приняли(мн.ч) участие директора(мн.ч) крупнейших компаний Петербурга
Он был назначен на должность (управляет Р.п.) директора(Р.п.) по маркетингу.
Вчера совет акционеров снял(требует В.п.) с должности директора(В.п.) по инвестициям.
![Page 23: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/23.jpg)
Этапы работы нашей системы
• Первичная обработка текста– Токенизация – Парсинг
• Извлечение фактов– Идентификация терминов– Построение элементарных фактов
• Интерпретация результатов– Проверка корректности– Запись в базу данных
![Page 24: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/24.jpg)
Идентификация терминов
На основе синтаксических зависимостей между словами делается вывод о том, обозначает ли эта конструкция один термин.
Для имен собственных учитываются так же пунктуация и заглавные буквы, написание латиницей
![Page 25: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/25.jpg)
Идентификация терминов
1. Поиск опорного элемента• Предикаты
• назначить
• Маркеры классов• Господин• Компания• Должность
2. Наличие в словаре или онтологии
3. Паттерны / регулярные выражения
![Page 26: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/26.jpg)
Идентификация терминов: пример
Новым директором по финансам и управлению в российском подразделении компании T-Systems назначен Игорь Чупалов
директор по NP(dat)
компания CompanyName
назначен PersonName(Nom)
![Page 27: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/27.jpg)
Построение элементарных фактов
В реальности: почти неотделимо от предыдущего этапа.
Полный элементарный факт в одном предложении
• Особый предикат • Отсутствие предиката• Особый маркер (временной, глагол
говорения)
![Page 28: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/28.jpg)
Построение элементарных фактов
• Особый предикат Новым директором по финансам и управлению в российском
подразделении компании T-Systems назначен Игорь Чупалов
• Отсутствие предиката С 1 октября 2007 г. Джонатан Спарроу– генеральный директор Nokia
Siemens Networks в России
• Особый маркер (время, глагол говорения)Президент компании «Евросеть» Алексей Чуйкин отметил: <…>
![Page 29: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/29.jpg)
Построение элементарных фактов
Сложные ситуации:В предложении содержится неполный факт.
В 1995 году возглавлял отдел маркетинга в компании Rothmans. (Решение: Учет всего абзаца)
В предложении содержится более одного факта.
Ранее г-н Шенделл работал на позиции вице-президента по продажам, а г-н Имс – старшего вице-президента Best Buy (Решение пока не найдено)
![Page 30: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/30.jpg)
Этапы работы нашей системы
• Первичная обработка текста– Токенизация – Парсинг
• Извлечение фактов– Идентификация терминов– Построение элементарных фактов
• Интерпретация результатов– Проверка корректности– Запись в базу данных
![Page 31: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/31.jpg)
Проверка корректности
• Осуществляется с помощью онтологии.
• Онтология – формализация некоторой области знаний с помощью концептуальной схемы.
• Иерархия понятий (объектов) и заданные отношения между ними.
• Подробнее через неделю
![Page 32: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/32.jpg)
Проверка корректности
С января Donald Ims директор Best Buy.– Donald Ims, Best Buy: человек vs компания?
…годовой оборот Best Buy превышает…
Онтология: у компании есть признак «оборот» => Best Buy - компания
C января Х директор компании
=> Donald Ims – человек
![Page 33: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/33.jpg)
Запись в базу данных
• Запись фактов в базу данных (RDF?)
• Организация поиска по базе данных
должность
штат
компаниячеловек
оборот
![Page 34: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/34.jpg)
Использованные технологии
• Разработана специальная платформа Ideolog:– Является системой логического вывода, – Полностью создана на основе платформы
Java– Имеет классический набор встроенных
предикатов, который подойдет для решения любых задач логического вывода.
![Page 35: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/35.jpg)
Использованные технологии
• Ideolog – имеет расширение для работы с
типизированными структурами (TFS). – является полностью расширяемой и может
быть дополнена модулями для решения новых задач
– имеет простой механизм пополнения встроенными предикатами, типами данных и т.п.
– имеет удобную и наглядную графическую среду
![Page 36: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/36.jpg)
Использованные технологии
![Page 37: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/37.jpg)
Отличия от остальных систем
• Использование формальной грамматики: – Для снятия морфологической омонимии– Для идентификации терминов
• Использование онтологии
• Не использование статистики и машинного обучения
(планируется на дальнейших стадиях)
![Page 38: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/38.jpg)
Достоинства
• Работает для отдельных текстов (не нужен массив для составления статистики)
• Легко расширить элементарный факт, подключив, например, учет размера штата или местонахождения компании,
• Есть решение, позволяющее автоматически расширять онтологию (в разработке)
![Page 40: Fact Extraction (ideograph)](https://reader033.vdocuments.site/reader033/viewer/2022051412/5486e536b4af9f910d8b5238/html5/thumbnails/40.jpg)
Полезные ссылки
• http://ideograph.ru ООО «Идеограф»
• http://www.cs.ru.nl/agfl AGFL• http://www.w3.org/TR/owl-features Онтологии и
язык OWL• http://people.ischool.berkeley.edu/~hearst/text-m
ining.html - Статья Марти Херста об извлечении фактов
• http://filebox.vt.edu/users/wfan/text_mining.html Коллекция ссылок по информационному поиску и извлечению фактов