question classification by fedor vityugin
DESCRIPTION
Comparison of methods of classification questionsTRANSCRIPT
Исследование методов обработки естественного языка: автоматическая
классификация вопросов
Федор Витюгин
Синтез речи Распознавание речи Анализ текста Синтез текста Машинный перевод Вопросно-ответные системы Информационный поиск
Извлечение информации Анализ тональности текста Анализ высказываний Упрощение текста Технология перевода Робот (программа) Реферирование
Обработка естественного языка (natural language processing)
Синтез речи Распознавание речи Анализ текста Синтез текста Машинный перевод Вопросно-ответные системы Информационный поиск
Извлечение информации Анализ тональности текста Анализ высказываний Упрощение текста Технология перевода Робот (программа) Реферирование
Обработка естественного языка (natural language processing)
Вопросно-ответные системы (QA-системы)— информационные системы, способные принимать вопросы и отвечать на них на естественном языке, т.е. это системы с естественно-языковым интерфейсом.
Что такое вопросно-ответные системы?
Как устроены QA-системы?Documents
Question
Collection IndexParse
IR Search Engine
Question TypeAnswer Identification
Answer Type Paragraph Filtering
Answer Extraction
Question Focus Paragraph Ordering
Question KeywordsAnswer Correctness
Paragraph Quality
Answer
Как классифицировать вопросы?Нижний уровень Верхний уровень
Abbreviation (ABBR)
Abbreviation, expansion
Entyty (ENTY) Animal, body, color, creation, currency, disease/medical, event, food, instrument, language, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word
Description (DESC) Definition, description, manner, reason
Human (HUM) Description, group, individual, title
Location (LOC) City, country, mountain, other, state
Numeric value (NUM)
Code, count, data, distance, money, order, other, percent, perion, speed, temperature, size, weight
Как обрабатывались данные?
- Ссылки (URL);- Стоп-слова;- Повторяющиеся буквы;- Вектор признаков (Feature vector);- Юниграммы;- Лемматизция;- Использование методов машинного обучения.
Какие использовались коллекции?
Коллекция ABBR ENTY DESC HUM LOC NUM Всего
Тренировочная 500 500 500 500 500 500 3000
Тестовая 5 20 30 37 29 29 150
Коллекция ABBR ENTY DESC HUM LOC NUM Всего
Тренировочная 500 500 500 500 500 500 3000
Тестовая 23 52 18 5 5 47 150
Коллекция вопросов на английском языке (TREC)
Коллекция вопросов на русском языке (otvety.google.ru)
Что получилось?
Признаки Английский язык Русский язык Русский язык + лемматизация
NB MaxEnt NB MaxEnt Naive Bayes MaxEnt
Юниграммы 56.67 58.00 27.33 28.00 30.67 30.67
Что можно улучшить?
• использовать иные методы машинного обучения (например, метод опорных векторов);
• увеличить размер обучающего корпуса;
• применить другие подходы к классификации вопросов (например, использование ключевых слов).
Вопросы?
github.com/fedorvityugin