2010 ims slides
Post on 10-May-2015
227 Views
Preview:
TRANSCRIPT
Открытый корпус: принципы работы и перспективы
Открытый корпус: принципы работы иперспективы
Д. В. Грановский В. В. Бочаров С. В. БичинёваMathlingvo, СПбГУ
21 октября 2010 г.
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языкеполностью доступный под свободной лицензией
размечаемый сообществом пользователейс открытым исходным кодом
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователей
с открытым исходным кодом
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступнаразметка не единообразна
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступныразметка недоступна
разметка не единообразна
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступныразметка недоступнаразметка не единообразна
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . стать причиной появления вирусов, неотличимых по своимсвойствам от диких вирусов, вызывающих заболевания.вызывающий, A, pl, gen ,plen. . . одной из главных причин, вызывающих насторожённое идаже негативное отношение педагогов к компьютерномутестированию. . .вызывать, V, tran, ipf, partcp, act, . . .
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . В результате стирки <. . . > стали цвета хаки.хаки, S, inan, n, sg, gen, 0Один нёс в руке деревянный ящичек цвета хаки, другой был внаушниках и с антенной.хаки, A, sg, gen, plen, 0
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать
. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществомединообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяется
удобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование
; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус иредактированию имеющихся,
3 автоматический морфологический разбор новых текстовпри помощи словаря,
4 поддержка интерфейса для ручного снятияграмматической неоднозначности.
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстовпри помощи словаря,
4 поддержка интерфейса для ручного снятияграмматической неоднозначности.
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,3 автоматический морфологический разбор новых текстов
при помощи словаря,
4 поддержка интерфейса для ручного снятияграмматической неоднозначности.
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,3 автоматический морфологический разбор новых текстов
при помощи словаря,4 поддержка интерфейса для ручного снятия
грамматической неоднозначности.
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок
+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки
– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации
– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс
– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.
Единица грамматической разметки — токен.Внутри токена не бывает пробелов.
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.
Единица грамматической разметки — токен.Внутри токена не бывает пробелов.
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают1 словарные2 несловарные
Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи
грамматических категорий,4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.Токены бывают
1 словарные2 несловарные
Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи
грамматических категорий,4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.Токены бывают
1 словарные2 несловарные
Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи
грамматических категорий,4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
5 Разметка доступна для просмотра и скачивания
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
Открытый корпус: принципы работы и перспективы
Заключение
Мы считаем, что открытость лингвистических базданных является существенным стимулом дляразвития науки о языке и для создания прикладныхсистем обработки текста. Вместе с тем, созданиетаких баз требует больших трудозатрат, чтосущественным образом влияет на рентабельностьразработки ПО и на трудоемкость исследований. Вобъединении усилий сообщества для созданияоткрытого размеченного корпуса мы и видим решениевышеозначенной проблемы.
Открытый корпус: принципы работы и перспективы
Спасибо
Спасибо за внимание!
Открытый корпус: принципы работы и перспективы
Contacts
http://opencorpora.org
granovsky@opencorpora.orgbocharov@opencorpora.org
top related