question classification by fedor vityugin

11
Исследование методов обработки естественного языка: автоматическая классификация вопросов Федор Витюгин

Upload: fedor

Post on 25-Jun-2015

115 views

Category:

Education


3 download

DESCRIPTION

Comparison of methods of classification questions

TRANSCRIPT

Page 1: Question Classification by Fedor Vityugin

Исследование методов обработки естественного языка: автоматическая

классификация вопросов

Федор Витюгин

Page 2: Question Classification by Fedor Vityugin

Синтез речи Распознавание речи Анализ текста Синтез текста Машинный перевод Вопросно-ответные системы Информационный поиск

Извлечение информации Анализ тональности текста Анализ высказываний Упрощение текста Технология перевода Робот (программа) Реферирование

Обработка естественного языка (natural language processing)

Page 3: Question Classification by Fedor Vityugin

Синтез речи Распознавание речи Анализ текста Синтез текста Машинный перевод Вопросно-ответные системы Информационный поиск

Извлечение информации Анализ тональности текста Анализ высказываний Упрощение текста Технология перевода Робот (программа) Реферирование

Обработка естественного языка (natural language processing)

Page 4: Question Classification by Fedor Vityugin

Вопросно-ответные системы (QA-системы)— информационные системы, способные принимать вопросы и отвечать на них на естественном языке, т.е. это системы с естественно-языковым интерфейсом.

Что такое вопросно-ответные системы?

Page 5: Question Classification by Fedor Vityugin

Как устроены QA-системы?Documents

Question

Collection IndexParse

IR Search Engine

Question TypeAnswer Identification

Answer Type Paragraph Filtering

Answer Extraction

Question Focus Paragraph Ordering

Question KeywordsAnswer Correctness

Paragraph Quality

Answer

Page 6: Question Classification by Fedor Vityugin

Как классифицировать вопросы?Нижний уровень Верхний уровень

Abbreviation (ABBR)

Abbreviation, expansion

Entyty (ENTY) Animal, body, color, creation, currency, disease/medical, event, food, instrument, language, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word

Description (DESC) Definition, description, manner, reason

Human (HUM) Description, group, individual, title

Location (LOC) City, country, mountain, other, state

Numeric value (NUM)

Code, count, data, distance, money, order, other, percent, perion, speed, temperature, size, weight

Page 7: Question Classification by Fedor Vityugin

Как обрабатывались данные?

- Ссылки (URL);- Стоп-слова;- Повторяющиеся буквы;- Вектор признаков (Feature vector);- Юниграммы;- Лемматизция;- Использование методов машинного обучения.

Page 8: Question Classification by Fedor Vityugin

Какие использовались коллекции?

Коллекция ABBR ENTY DESC HUM LOC NUM Всего

Тренировочная 500 500 500 500 500 500 3000

Тестовая 5 20 30 37 29 29 150

Коллекция ABBR ENTY DESC HUM LOC NUM Всего

Тренировочная 500 500 500 500 500 500 3000

Тестовая 23 52 18 5 5 47 150

Коллекция вопросов на английском языке (TREC)

Коллекция вопросов на русском языке (otvety.google.ru)

Page 9: Question Classification by Fedor Vityugin

Что получилось?

Признаки Английский язык Русский язык Русский язык + лемматизация

NB MaxEnt NB MaxEnt Naive Bayes MaxEnt

Юниграммы 56.67 58.00 27.33 28.00 30.67 30.67

Page 10: Question Classification by Fedor Vityugin

Что можно улучшить?

• использовать иные методы машинного обучения (например, метод опорных векторов);

• увеличить размер обучающего корпуса;

• применить другие подходы к классификации вопросов (например, использование ключевых слов).

Page 11: Question Classification by Fedor Vityugin

Вопросы?

github.com/fedorvityugin