Введение в концепцию связанных открытых данных (linked open...
Upload: aims-agricultural-information-management-standards-fao-of-the-un
Post on 12-Nov-2014
1.444 views
DESCRIPTION
Связанные открытые данные @ AIMS Цикл вебинаров Linked Open Data @ AIMS 14 февраля 2013 года Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ LOD@AIMSTRANSCRIPT
Связанные открытые данные @ AIMSЦикл вебинаров Linked Open Data @ AIMS14 февраля 2013 года
Введение в концепцию связанных открытых данных(Linked Open Data)
Радченко Ирина Алексеевнакандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ
http://about.me/Irina.Radchenko
НИУ ВШЭ, Москва, 2013
2
• Общее представление о Linked Open Data
• Каким образом осуществляется связывание наборов данных?
• Публикация наборов данных в пространстве Linked Open Data
НИУ ВШЭ, Москва, 2013
Содержание
3
• Общее представление о Linked Open Data
НИУ ВШЭ, Москва, 2013
Эволюционирование веба
4
Документы в вебе (протокол Gopher и т.д.)
Веб документов (гипертекст)
Данные в вебе (открытые данные и т.д.)
Веб данных (связанные данные)
Развитие веба
Время
НИУ ВШЭ, Москва, 2013
1990 2013
Источник: Linked Open Data: The Essentials. A Quick Start Guide for Decision Makers. http://www.semantic-web.at/LOD-TheEssentials.pdf
НИУ ВШЭ, Москва, 2013
Основные понятия
5
Связанные данные (Linked Data) — это наборы данных, опубликованные в RDF-формате с использованием унифицированного идентификатора ресурсов URI (Uniform Resource Identifier) для идентификации элементов, которые они содержат.
НИУ ВШЭ, Москва, 2013
Основные понятия
6
Связанные открытые данные (Linked Open Data) — это связанные наборы данных, опубликованные в RDF-формате и пригодные для использования и переиздания их пользователями в своих целях, без каких-либо ограничений в виде авторских прав, патентов и других механизмов контроля.
НИУ ВШЭ, Москва, 2013
Проект DBpedia
7Источник: http://dbpedia.org/About
Проект DBpedia послужил важным стимулом для развития Linked Open Data.
Динамика развития Linked Open Data
8
Темпы нарастания объемов фактов
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
2007 2008 2009 2010
НИУ ВШЭ, Москва, 2013
Время
Количество наборов
LOD
Веб данных: связанные открытые данные
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
9
СМИГеография
ПубликацииСозданный
пользователями контент
Науки о жизни
Междисциплинарные области
Государственные данные
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2013
НИУ ВШЭ, Москва, 2013
Пятизвездочная модель открытых данных
по Тиму Бернерсу-Ли
10Источники: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html
Связывание данных в контексте семантической паутины
11НИУ ВШЭ, Москва, 2013
Источник: http://iradche.livejournal.com/12108.html
Тим Бернерс-Ли (Tim Berners-Lee) предложил идею связанных данных на основе четырех принципов, стимулирующих применение базовых принципов Web для доступа к данным:
• Применение универсальных идентификаторов ресурсов (URI) в качестве имен объектов;
• Применение HTTP URI для реализации возможности обращения по этим именам;
• Предоставление полезной информации тому, кто обращается по URI, с помощью стандартов (RDF*, SPARQL);
• Включение ссылок на другие URI, позволяющих найти дополнительную информацию.
Прикладной уровень
НИУ ВШЭ, Москва, 2013
Интерпретация стека Linked Open Data
12
Источники: http://www.opendataimpacts.net/2011/05/whats-in-the-linked-open-data-stack/, http://iradche.livejournal.com/9036.html
Мэшапы Поисковые системы
Интеграция данных
Базы данных и публикация данных
Запросы на SPARQL
Обмен RDF
Словари Онтологии
Идентификаторы URL
Транспортный уровень: протокол HTTP
Лицензии открыты
х данны
х
Элементы стека данных LOD – 2 мая 2011, лицензия CC BY-CA-NCАвтор: Тим Дэвис (Tim Davies)
13
• Каким образом осуществляется связывание наборов данных?
НИУ ВШЭ, Москва, 2013
Отличный пример из презентации Тома Бейкера (Tom Baker)
14Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
Запись в AGRIS
Тезаурус AGROVOC
DBpedia
Эксперт VIVO
BBC
BBC News
Wikipedia
НИУ ВШЭ, Москва, 2013
Ресурс 1: Проиндексированная статья в базе данных AGRIS
Тема статьи “acrididae”, т.е. “grasshoppers”.
Одного из авторов зовут “Han Jianguo”.
15
Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web, http://agris.fao.org/agris-search/search/display.do?f=2010%2FCN%2FCN0910.xml%3BCN2009002389
НИУ ВШЭ, Москва, 2013
Описание Ресурса 1 в виде «условных» триплетов
Субъект Предикат Объект
Ресурс 1 имеет заголовок 典型草原三种蝗虫种群死亡率的研究
Ресурс 1 имеет автора Han Jianguo
Ресурс 1 имеет тему Acrididae (grasshoppers)
16Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 имеет автора Han Jianguo
agris:CN2009002389 имеет тему Acrididae (grasshoppers)
Ресурс 1 идентифицирован при помощи URI http://agris.fao.org/resource/CN2009002389.Сократим его до agris:CN2009002389.
17Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 имеет автора agris-author:hanjianguo
agris:CN2009002389 имеет тему Acrididae (grasshoppers)
Автор идентифицирован при помощи URI http://agris.fao.org/author/hanjianguo.Сократим его до agris-author:hanjianguo.
18Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 имеет автора agris-author:hanjianguo
agris-author:hanjianguo имеет имя Han Jianguo
agris:CN2009002389 имеет тему Acrididae (grasshoppers)
Автор agris-author:hanjianguo имеет имя Han Jianguo.
19Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 имеет автора agris-author:hanjianguo
agris-author:hanjianguo имеет имя Han Jianguo
agris:CN2009002389 имеет тему agrovoc:c_4416
Тема идентифицируется при помощи URI http://aims.fao.org/aos/agrovoc/c_4416.Сократим ее до agrovoc:c_4416.
20Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 имеет автора agris-author:hanjianguo
agris-author:hanjianguo имеет имя Han Jianguo
agris:CN2009002389 имеет тему agrovoc:c_4416
agrovoc:c_4416 имеет пометку Acrididae (en)
agrovoc:c_4416 имеет пометку 蝗科 (zh)
Описание http://aims.fao.org/aos/agrovoc/c_4416 в AGROVOC Concept Scheme говорит нам о том, как этот концепт на английском и китайском языках.
21Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 имеет автора agris-author:hanjianguo
agris-author:hanjianguo имеет имя Han Jianguo
agris:CN2009002389 имеет тему agrovoc:c_4416
agrovoc:c_4416 имеет пометку Acrididae (en)
agrovoc:c_4416 имеет пометку 蝗科 (zh)
Элемент Dublin Core “Title” (заголовок) идентифицирован при помощи URI http://purl.org/dc/terms/title.Сократим его до dct:title.
22Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 dct:creator agris-author:hanjianguo
agris-author:hanjianguo foaf:name Han Jianguo
agris:CN2009002389 dct:subject agrovoc:c_4416
agrovoc:c_4416 имеет пометку Acrididae (en)
agrovoc:c_4416 имеет пометку 蝗科 (zh)
Повторяем то же самое для автора (author, creator) и темы (topic, subject).Имя определено в словаре FOAF.
23Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
«Триплифицируем» описание Ресурса 1
Субъект Предикат Объект
agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 dct:creator agris-author:hanjianguo
agris-author:hanjianguo foaf:name Han Jianguo
agris:CN2009002389 dct:subject agrovoc:c_4416
agrovoc:c_4416 skos:prefLabel Acrididae (en)
agrovoc:c_4416 skos:prefLabel 蝗科 (zh)
Свойство для пометок (preferred label) концепта определено в словаре Simple Knowledge Organization System (SKOS).
24Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
Триплет, построенный в виде графа
Субъект Предикат Объект
agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 dct:creator agris-author:hanjianguo
agris-author:hanjianguo foaf:name Han Jianguo
agris:CN2009002389 dct:subject agrovoc:c_4416
dct:title 典型草…
Han Jianguo
agris-author:hanjianguo
dct:subject
agrovoc:c_4416
foaf:name
dct:creator
agris:CN…389
25Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
Ресурс 2: статья в базе AGRIS на немецком языке
26Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
Тема статьи “acrididae”
Одного из авторов зовут “Peter, B”
Триплеты, описывающие Ресурс 2 в виде графа
Субъект Предикат Объект
agris:CH2001000179 dct:title Heuschrecken brauchen ökologische Ausgleichsflächen
agris:CH2001000179 dct:creator agris-author:peterb
agris-author:peterb foaf:name Peter, B.
agris:CH2001000179 dct:subject agrovoc:c_4416
agris:CH…179dct:title Heuschrecken
Peter, B.
agris-author:peterb
dct:subject
agrovoc:c_4416
foaf:name
dct:creator
27Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
Соединяем триплеты Ресурса 1…
Субъект Предикат Объект
agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 dct:creator agris-author:hanjianguo
agris-author:hanjianguo foaf:name Han Jianguo
agris:CN2009002389 dct:subject agrovoc:c_4416
28Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
…с триплетами Ресурса 2
Субъект Предикат Объект
agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 dct:creator agris-author:hanjianguo
agris-author:hanjianguo foaf:name Han Jianguo
agris:CN2009002389 dct:subject agrovoc:c_4416
agris:CH2001000179 dct:title Heuschrecken brauchen ökologische Ausgleichsflächen
agris:CH2001000179 dct:creator agris-author:peterb
agris-author:peterb foaf:name Peter, B.
agris:CH2001000179 dct:subject agrovoc:c_4416
29Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
Компьютер определяет совпадающие URI...
Субъект Предикат Объект
agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究
agris:CN2009002389 dct:creator agris-author:hanjianguo
agris-author:hanjianguo foaf:name Han Jianguo
agris:CN2009002389 dct:subject agrovoc:c_4416agris:CH2001000179 dct:title Heuschrecken brauchen
ökologische Ausgleichsflächen
agris:CH2001000179 dct:creator agris-author:peterb
agris-author:peterb foaf:name Peter, B.
agris:CH2001000179 dct:subject agrovoc:c_4416
30Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
Компьютер определяет совпадающие URI...
agris:CN…389dct:title
典型草…
Han Jianguo
agris-author:hanjianguo
dct:subjectagrovoc:c_4416
foaf:name
dct:creator
agris:CH…179dct:title Heuschrecken
Peter, B.
agris-author:peterb
dct:subject
agrovoc:c_4416foaf:name
dct:creator
31Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
…и соединяет (“связывает”) графы в один
agris:CN…389
dct:title
典型草…
Han Jianguo
agris-author:hanjianguo
dct:subject
foaf:name
dct:creator
agris:CH…179dct:title Heuschrecken
Peter, B.
agris-author:peterb
dct:subject
agrovoc:c_4416foaf:name
dct:creator
Ресурсы на разных языках, связанные ссылками на общий концепт.
32Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
Одна запись, много связей
Запись в AGRIS
AGROVOC
AGRIS Authors Dublin Core
FOAF
SKOS
33Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
НИУ ВШЭ, Москва, 2013
34
• Публикация наборов данных в пространстве Linked Open Data
НИУ ВШЭ, Москва, 2013
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
35
Проанализировать данные. Необходимо окинуть критическим взглядом модель данных и метаданные.
Очистить данные. Данные и информация, приходящие из различного рода источников в различных форматах (включая базы данных, форматы CVS, геоданные, XML и т.д.), нуждаются в дополнительной очистке для более легкого и эффективного моделирования представления данных.
Источник: http://richard.cyganiak.de/2007/10/lod/
Для того чтобы опубликовать наборы данных в пространстве LOD, необходимо сделать следующие шаги
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
36
Сформировать модель представления данных. Создайте необходимые словари и тезаурусы для представления данных в RDF-формате. Создайте идентификаторы URI для каждых объектов.
Выбрать подходящие словари. Существует большое количество RDF-словарей, которые можно использовать повторно. Выберите наиболее подходящий из них. Если подходящего словаря не найдено, то необходимо его создать.
Каталог словарей можно посмотреть здесь: http://lov.okfn.org/dataset/lov
Источник: http://richard.cyganiak.de/2007/10/lod/
…далее…
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
37
Источник: http://lov.okfn.org/dataset/lov
RDF-словари
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
38
Определить лицензию/лицензии. Необходимо решить вопрос лицензирования наборов данных. Удобнее всего выбрать из уже существующих и наиболее популярных лицензий:— Creative Commons (http://creativecommons.org/choose/);— Open Data Commons (http://opendatacommons.org/licenses/).
Источник: http://richard.cyganiak.de/2007/10/lod/
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
39
Конвертировать наборы данных в RDF-формат. Это очень важный этап, т.к. RDF-формат является официальным стандартом консорциума W3C для моделей представления данных Семантического веба. Обязательно включите выбранные лицензии в RDF-файлы.
Источник: http://richard.cyganiak.de/2007/10/lod/
http://www.w3.org/2005/Incubator/mmsem/wiki/Tools_and_Resources
http://www.w3.org/wiki/ConverterToRdf
Выберите подходящий инструмент для перевода данных в RDF-формат
http://www.inf.unideb.hu/~jeszy/rdfizers/
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
40
Проект Simile (Semantic Interoperability of Metadata and Information in unLike Environments)http://simile.mit.edu/wiki/RDFizers
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
41
Связать наборы данных с наборами данных пространства LOD. Обязательно удостоверьтесь, что Ваши наборы данных связаны между собой, связаны с наборами данных из пространства LOD и доступны для связывания с наборами данных сторонними разработчиками. Это предоставит возможность машинной обработки представляемых наборов данных и позволит извлекать новые знания из представляемых наборов данных. Вычислите наиболее релевантные наборы данных для связывания с Вашими наборами данных.
Источник: http://richard.cyganiak.de/2007/10/lod/
…далее…
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
42
Опубликовать и разрекламировать Ваши наборы данных в пространстве LOD. Опубликуйте Ваши наборы данных в вебе и разрекламируйте Ваши новые LOD-наборы данных. Даже лучшие наборы данных LOD не могут быть повторно использованы, если пользователь не узнает об их существовании и не сможет получить к ним доступ. Лучше всего добавить наборы данных в LOD облако.
Источник: http://richard.cyganiak.de/2007/10/lod/
…и последнее
Как сделать данные открытыми и связанными
43
1. Выделить наиболее значимые данные (например, Субъект, Автор, Публикатор и т.д.).
2. Использовать везде, где это возможно, URI для обозначения этих данных.
3. Опубликовать данные в формате RDF, чтобы пользователи могли связать свои данные.
4. Упростить. Простые решения дают хорошие результаты!
НИУ ВШЭ, Москва, 2013
Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web
http://iRadche.livejournal.com/
https://www.facebook.com/iRadche
@iRadche
http://www.slideshare.net/iRadche
http://about.me/Irina.Radchenko
Спасибо за внимание!