question classification by fedor vityugin

Post on 25-Jun-2015

115 Views

Category:

Education

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

Comparison of methods of classification questions

TRANSCRIPT

Исследование методов обработки естественного языка: автоматическая

классификация вопросов

Федор Витюгин

Синтез речи Распознавание речи Анализ текста Синтез текста Машинный перевод Вопросно-ответные системы Информационный поиск

Извлечение информации Анализ тональности текста Анализ высказываний Упрощение текста Технология перевода Робот (программа) Реферирование

Обработка естественного языка (natural language processing)

Синтез речи Распознавание речи Анализ текста Синтез текста Машинный перевод Вопросно-ответные системы Информационный поиск

Извлечение информации Анализ тональности текста Анализ высказываний Упрощение текста Технология перевода Робот (программа) Реферирование

Обработка естественного языка (natural language processing)

Вопросно-ответные системы (QA-системы)— информационные системы, способные принимать вопросы и отвечать на них на естественном языке, т.е. это системы с естественно-языковым интерфейсом.

Что такое вопросно-ответные системы?

Как устроены QA-системы?Documents

Question

Collection IndexParse

IR Search Engine

Question TypeAnswer Identification

Answer Type Paragraph Filtering

Answer Extraction

Question Focus Paragraph Ordering

Question KeywordsAnswer Correctness

Paragraph Quality

Answer

Как классифицировать вопросы?Нижний уровень Верхний уровень

Abbreviation (ABBR)

Abbreviation, expansion

Entyty (ENTY) Animal, body, color, creation, currency, disease/medical, event, food, instrument, language, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word

Description (DESC) Definition, description, manner, reason

Human (HUM) Description, group, individual, title

Location (LOC) City, country, mountain, other, state

Numeric value (NUM)

Code, count, data, distance, money, order, other, percent, perion, speed, temperature, size, weight

Как обрабатывались данные?

- Ссылки (URL);- Стоп-слова;- Повторяющиеся буквы;- Вектор признаков (Feature vector);- Юниграммы;- Лемматизция;- Использование методов машинного обучения.

Какие использовались коллекции?

Коллекция ABBR ENTY DESC HUM LOC NUM Всего

Тренировочная 500 500 500 500 500 500 3000

Тестовая 5 20 30 37 29 29 150

Коллекция ABBR ENTY DESC HUM LOC NUM Всего

Тренировочная 500 500 500 500 500 500 3000

Тестовая 23 52 18 5 5 47 150

Коллекция вопросов на английском языке (TREC)

Коллекция вопросов на русском языке (otvety.google.ru)

Что получилось?

Признаки Английский язык Русский язык Русский язык + лемматизация

NB MaxEnt NB MaxEnt Naive Bayes MaxEnt

Юниграммы 56.67 58.00 27.33 28.00 30.67 30.67

Что можно улучшить?

• использовать иные методы машинного обучения (например, метод опорных векторов);

• увеличить размер обучающего корпуса;

• применить другие подходы к классификации вопросов (например, использование ключевых слов).

Вопросы?

github.com/fedorvityugin

top related