2010 ims slides

Post on 10-May-2015

227 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Открытый корпус: принципы работы и перспективы

Открытый корпус: принципы работы иперспективы

Д. В. Грановский В. В. Бочаров С. В. БичинёваMathlingvo, СПбГУ

21 октября 2010 г.

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языке

полностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языкеполностью доступный под свободной лицензией

размечаемый сообществом пользователейс открытым исходным кодом

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователей

с открытым исходным кодом

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом

Открытый корпус: принципы работы и перспективы

Проблемы других корпусов

полные тексты недоступны

разметка недоступнаразметка не единообразна

Открытый корпус: принципы работы и перспективы

Проблемы других корпусов

полные тексты недоступныразметка недоступна

разметка не единообразна

Открытый корпус: принципы работы и перспективы

Проблемы других корпусов

полные тексты недоступныразметка недоступнаразметка не единообразна

Открытый корпус: принципы работы и перспективы

Пример неединообразия

. . . стать причиной появления вирусов, неотличимых по своимсвойствам от диких вирусов, вызывающих заболевания.вызывающий, A, pl, gen ,plen. . . одной из главных причин, вызывающих насторожённое идаже негативное отношение педагогов к компьютерномутестированию. . .вызывать, V, tran, ipf, partcp, act, . . .

Открытый корпус: принципы работы и перспективы

Пример неединообразия

. . . В результате стирки <. . . > стали цвета хаки.хаки, S, inan, n, sg, gen, 0Один нёс в руке деревянный ящичек цвета хаки, другой был внаушниках и с антенной.хаки, A, sg, gen, plen, 0

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать

. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!

корпус размечается сообществомединообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяется

удобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузере

устойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данных

Интерфейс:для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поиск

для редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование

; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),

2 доступ к добавлению новых текстов в корпус иредактированию имеющихся,

3 автоматический морфологический разбор новых текстовпри помощи словаря,

4 поддержка интерфейса для ручного снятияграмматической неоднозначности.

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и

редактированию имеющихся,

3 автоматический морфологический разбор новых текстовпри помощи словаря,

4 поддержка интерфейса для ручного снятияграмматической неоднозначности.

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и

редактированию имеющихся,3 автоматический морфологический разбор новых текстов

при помощи словаря,

4 поддержка интерфейса для ручного снятияграмматической неоднозначности.

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и

редактированию имеющихся,3 автоматический морфологический разбор новых текстов

при помощи словаря,4 поддержка интерфейса для ручного снятия

грамматической неоднозначности.

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище

+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок

+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки

– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации

– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс

– внесение изменений очень трудоемко

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Открытый корпус: принципы работы и перспективы

Структура корпуса

1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.

Единица грамматической разметки — токен.Внутри токена не бывает пробелов.

Открытый корпус: принципы работы и перспективы

Структура корпуса

1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.

Единица грамматической разметки — токен.Внутри токена не бывает пробелов.

Открытый корпус: принципы работы и перспективы

Ещё о токенах

Разметка токена состоит из нескольких интерпретаций.

Токены бывают1 словарные2 несловарные

Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи

грамматических категорий,4 набор меток, обозначающих особенности конкретного

употребления словоформы в тексте.

Открытый корпус: принципы работы и перспективы

Ещё о токенах

Разметка токена состоит из нескольких интерпретаций.Токены бывают

1 словарные2 несловарные

Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи

грамматических категорий,4 набор меток, обозначающих особенности конкретного

употребления словоформы в тексте.

Открытый корпус: принципы работы и перспективы

Ещё о токенах

Разметка токена состоит из нескольких интерпретаций.Токены бывают

1 словарные2 несловарные

Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи

грамматических категорий,4 набор меток, обозначающих особенности конкретного

употребления словоформы в тексте.

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями

5 Разметка доступна для просмотра и скачивания

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Открытый корпус: принципы работы и перспективы

Заключение

Мы считаем, что открытость лингвистических базданных является существенным стимулом дляразвития науки о языке и для создания прикладныхсистем обработки текста. Вместе с тем, созданиетаких баз требует больших трудозатрат, чтосущественным образом влияет на рентабельностьразработки ПО и на трудоемкость исследований. Вобъединении усилий сообщества для созданияоткрытого размеченного корпуса мы и видим решениевышеозначенной проблемы.

Открытый корпус: принципы работы и перспективы

Спасибо

Спасибо за внимание!

Открытый корпус: принципы работы и перспективы

Contacts

http://opencorpora.org

granovsky@opencorpora.orgbocharov@opencorpora.org

top related