dbms-praktikum linguistic linked open data · –haitisches creol beruht z.t. auf dem...

70
DBMS-Praktikum Linguistic Linked Open Data Christian Chiarcos [email protected] 14.04.2014

Upload: others

Post on 18-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

DBMS-Praktikum

Linguistic Linked Open Data

Christian Chiarcos

[email protected]

14.04.2014

Page 2: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linguistic Linked Open Data

• Organisatorisches

• Motivation

– Wörterbuchverknüpfung

• Grundlagen

– IT: Datenbanken, XML, Semantic Web, Linked Data

– Sprachtechnologie: Verknüpfte Wörterbücher

• Anwendung

Page 3: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Organisatorisches

• Praktikum

– Grundlage sind DB1 und DB2

– setzt DB3 fort

• aber nicht voraus

– wünschenswert: JAVA, XML

• Lehrkomponente und Projektkomponente

Page 4: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Organisatorisches

• Lehrkomponente und Projektkomponente

– Zu Semesterbeginn Grundlagenvermittlung

• Montag, 12-14, SR-9

– Danach selbständige Entwicklungsarbeit in Arbeitsgruppen mit (mindestens) monatlichen Treffen

• Ort und Zeit wird bedarfsabhängig vereinbart

Page 5: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Organisatorisches

• nächster Termin und Gruppenbildung erst am 28.04.2014 – Moodle-Portal wird eingerichtet

– zunächst bitte Email an mich • [email protected]

• Ein wesentlicher inhaltlicher Aspekt besteht im Einsatz von XML und Semantic-Web-Technologien Pascal Hitzler et al. (2008), Semantic Web - Grundlagen. Springer-Verlag, Heidelberg (online über die Bibliothek)

Page 6: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Organisatorisches

• nächster Termin und Gruppenbildung erst am 28.04.2014 – Moodle-Portal wird eingerichtet

– zunächst bitte Email an mich • [email protected]

• Ein wesentlicher inhaltlicher Aspekt besteht im Einsatz von XML und Semantic-Web-Technologien Pascal Hitzler et al. (2008), Semantic Web - Grundlagen. Springer-Verlag, Heidelberg (online über die Bibliothek)

überfliegen Sie bitte bis 28.04.2014 S. 17-88

Page 7: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Inhaltliches

• Motivation: Wörterbuchverknüpfung

• Linked Open Data

– W3C-Standards und zugehörige Datenbanken

• Linguistic Linked Open Data

– Natural Language Processing & Linked Data

• Wörterbücher als Linked Open Data

– Lexikalisch-semantische Ressourcen

Page 8: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation

• Wörterbuchportal – wir erarbeiten eine Datenbank von

Wörterbüchern • Formalisierung der Wörterbücher

• Anfrage über Wörterbücher

• NEU: Anfrage über mehrere Wörterbücher gleichzeitig

• Anwendungsszenarien – menschliche Übersetzung

– maschinelle Sprachverarbeitung: Wortlisten für beliebige Paare von Sprachen

Page 9: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation I

• manuelle Übersetzung

– Uns interessiert ein Text in Sprache A, die wir leider nicht sprechen

• z.B. Friaulisch

– Es gibt auch ein Wörterbuch dafür, aber leider nur von A in eine Sprache B, die wie ebenfalls nicht sprechen

• z.B. Italienisch

– Glücklicherweise aber wenigstens von B nach C, das wir sprechen

• z.B. Deutsch

Page 10: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation I

• manuelle Übersetzung

– Uns interessiert ein Text in Sprache A, die wir leider nicht sprechen

• z.B. Friaulisch

– Es gibt auch ein Wörterbuch dafür, aber leider nur von A in eine Sprache B, die wie ebenfalls nicht sprechen

• z.B. Italienisch

– Glücklicherweise aber wenigstens von B nach C, das wir sprechen

• z.B. Deutsch

Manuell mit zwei Wörterbüchern einen friaulischen Text zu übersetzen, dauert endlos lange

Liegen beide maschinenlesbar vor, könnte man die

Verknüpfung aber automatisch herstellen und/oder abfragen

bestehende Wörterbuchnetze, z.B. http://woerterbuchnetz.de/, haben zwar bereits eine

Verknüpfung zwischen einzelnen Wörterbüchern, aber keine Möglichkeit, diese über eine dritte hinweg

anzufragen

Page 11: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

• Sprachtechnologie: multilinguale Wortlisten

– angenommen, wir sind gezwungen, uns kurzfristig intensiv mit einer Sprache auseinanderzusetzen, über die wir kaum etwas wissen

• Haiti 2010: Erdbeben, tausende Notrufe via SMS – Können wir die automatisch klassifizieren, um Hilfe

zielgerichtet zu koordinieren?*

– Im Prinzip schon, aber nicht für Haitianisches Kreol

* NB: Sowohl MS als auch Google haben jeweils Übersetzungssysteme innerhalb von weniger als 48 Stunden gebaut

Page 12: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

• Sprachtechnologie: multilinguale Wortlisten

– Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen

Folgendes Beispiel ist der besseren Verständlichkeit halber Hawaiianisches Pidgin, das auf dem Englischen beruht.

Den Jesus dem come near Jerusalem an come … Odda guys cut branches from da palm trees in da fields, an put um down on top da road fo show respeck fo him.

Markus 11:1,8

Page 13: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

• Auch ohne Hawaiianisches Pidgin zu verstehen, lässt sich der Text recht gut lesen, es gibt einige Unterschiede, aber die sind sehr systematisch – th- > d- (den, da), -th- > -dd- (odda)

– -r > (odda, fo)

– -e > -a (odda, da)

Den Jesus dem come near Jerusalem an come … Odda guys cut branches from da palm trees in da fields, an put um down on top da road fo show respeck fo him.

Markus 11:1,8

Page 14: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

• mit maschinenlesbaren Wortlisten für zwei verwandte Sprachen lassen sich solche systematischen Korrespondenzen automatisch erlernen – und damit lassen sich Technologien aus dem

Englischen auf das Hawaiianische Pidgin (bzw. vom Französischen auf das Haitianische Kreol) übertragen

• ABER – Was, wenn solche Wortlisten nicht existieren?

Page 15: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

• mit maschinenlesbaren Wortlisten für zwei verwandte Sprachen lassen sich solche systematischen Korrespondenzen automatisch erlernen – und damit lassen sich Technologien aus dem

Englischen auf das Hawaiianische Pidgin (bzw. vom Französischen auf das Haitianische Kreol) übertragen

• ABER – Was, wenn solche Wortlisten nicht existieren?

Motivation II

z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika

Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.

Markus 11:1,8

Page 16: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika es gibt plautdietsch-englische (oder –russische) Wörterbücher

http://plautdietsch.22web.org/lexicon/index.htm

Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.

Markus 11:1,8

Page 17: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika und deutsch-englische Wörterbücher führen uns dann zu einer passenden deutschen Übersetzung

Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.

Page 18: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika Um die „passenden“ hochdeutschen Ausdrücke zu einem plautdietschen zu finden, brauchen wir eine (automatische) transitive Suche über mehrere Wörterbücher hinweg

Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.

Page 19: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation II

z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika neben plautdietsch-englischen existieren auch plautdietsch-russische Wörterbücher Wenn wir den transitiven Abschluss von Verknüpfungen abfragen können, dann können wir auch mehrere „Pfade“ (über das Russische neben dem Englischen) in Betracht ziehen

• eventuelle Lücken können so geschlossen werden

Eine Technologie, die alle Pfade einer bestimmten Länge zwischen zwei Konzepten (Wörterbucheinträgen) sucht, wäre dafür ideal

• Das ist eines der Versprechen von Linked Data

Page 20: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Motivation III

• für manuelle (und maschinelle) Analyse

– wir arbeiten in einer Sprache, die wir nicht voll verstehen

– für ein uns unbekanntes Wort finden wir keinen Wörterbucheintrag

– suchen wir also statt dessen die Kontexte, in denen es auftritt

• erfordert Verknüpfung von Einzelworten mit ihren Verwendungskontexten (also Texten)

Page 21: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Inhaltliches

• Motivation: Wörterbuchverknüpfung

• Linked Open Data

– W3C-Standards und zugehörige Datenbanken

• Linguistic Linked Open Data

– Natural Language Processing & Linked Data

• Wörterbücher als Linked Open Data

– Lexikalisch-semantische Ressourcen

Page 23: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Datenmodell

• gerichtete gelabelte Graphen

• Strukturkomponenten

– Resource

– Property

– Value

– Statement (Triple)

Page 24: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Datenmodell

• gerichtete gelabelte Graphen

• Strukturkomponenten

Resource Property

Resource

Statement (Triple)

Page 25: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Datenmodell

• gerichtete gelabelte Graphen

• Strukturkomponenten

Resource Property

Resource

Statement (Triple)

Resource Property

Statement (Triple)

Literal

(Value)

Page 26: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

URIs

• Resourcen und Properties werden durch URIs dargestellt

– Uniform Resource Identifier

• global eindeutige Identifikation einer beliebigen Ressource

Page 27: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Beispiel

resto:

the-leaf food:salad513

„The Leaf“

resto:hasName

resto:serves

food:hasName

„Green Salad“

Page 28: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Beispiel

Namespaces (informell)

resto http://restaurants.com/

food http://food-registry.org/

resto:

the-leaf food:salad513

„The Leaf“

resto:hasName

resto:serves

food:hasName

„Green Salad“

Page 29: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Notation(en): Turtle

• vereinfacht

– RDF Graph wird als Sequent von Tripeln geschrieben

– getrennt durch „.“

• verwandte Notationen: N3, N-Triples

Page 30: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Notationen: Turtle

<http://restaurants.com/the-leaf> <http://restaurants.com/hasName> “The Leaf“ .

<http://restaurants.com/the-leaf> <http://restaurants.com/serves>

<http://food-registry.org/salad513> .

<http://food-registry.org/salad513> <http://food-registry.org/hasName>

„Green Salad“ .

resto:

the-leaf food:salad513

„The Leaf“

resto:hasName

resto:serves

food:hasName

„Green Salad“

Page 31: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Notation(en): Turtle

• vereinfacht

– RDF Graph wird als Sequent von Tripeln geschrieben

– getrennt durch „.“

• verschiedene Abkürzungen möglich, z.B.

– global definierte Namespace-Präfixe

Page 32: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Notationen: Turtle

@prefix resto: <http://restaurants.com/> .

@prefix food: <http://food-registry.com/> .

resto:the-leaf resto:hasName “The Leaf“ .

resto:the-leaf resto:serves food:salad513 .

food:salad513 food:hasName „Green Salad“.

resto:

the-leaf food:salad513

„The Leaf“

resto:hasName

resto:serves

food:hasName

„Green Salad“

Page 33: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF Notation(en): Turtle

• vereinfacht

– RDF Graph wird als Sequent von Tripeln geschrieben

– getrennt durch „.“

• verschiedene Abkürzungen möglich, z.B.

– global definierte Namespace-Präfixe

– mehrere Tripel mit gleichem Subjekt (erste Ressource) können zusammengefasst und mit „;“ getrennt werden

Page 34: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Notationen: Turtle

@prefix resto: <http://restaurants.com/> .

@prefix food: <http://food-registry.com/> .

resto:the-leaf resto:hasName “The Leaf“ ;

resto:the-leaf resto:serves food:salad513 .

food:salad513 food:hasName „Green Salad“.

resto:

the-leaf food:salad513

„The Leaf“

resto:hasName

resto:serves

food:hasName

„Green Salad“

Page 36: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

SPARQL

• vereinfacht: „SQL meets Turtle“ SELECT DISTINCT ?language ?name WHERE { ?language rdf:type <http://dbpedia.org/ontology/Language> . ?language rdfs:label ?name . } LIMIT 100 • beispielhafter SPARQL end point

– http://dbpedia.org/sparql

Page 37: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

RDF-Linearisierung

• neben Turtle existieren weitere Linearisierungen, u.a.

– RDF/XML

• XML-Format

– RDF/HDT

• sehr kompaktes Binärformat zum Datenaustausch

– RDFa

• „RDF in Attributes“, gestattet Einbettung von RDF in „Gast“-(XML-)Sprachen

Page 38: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Data Definition

1. Use URIs as names for things

2. Use HTTP URIs so that people can look up those names.

3. When someone looks up a URI, provide useful information, using standards like RDF and SPARQL

4. Include links to other URIs, so that they can discover more things.

http://www.w3.org/DesignIssues/LinkedData.html

Page 39: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data: The 5 star plan

Page 40: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Open Licences allow republishing and reuse

● Motivation for collaboration:

● High potential that invested efforts can be reused, i.e. data, links, vocabularies, schemas

● (Effortful) feedback: Users complement data, extend vocabularies and contribute changes.

Page 41: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: May 2007

http://lod-cloud.net/versions/2007-05-01/lod-cloud.png

Page 42: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: mid-2007

LDL-2012 Tutorial

Page 43: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Oct 2007

http://lod-cloud.net/versions/2007-10-08/lod-cloud.png

Page 44: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Nov 2007

http://lod-cloud.net/versions/2007-11-07/lod-cloud.png

Page 45: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Feb 2008

http://lod-cloud.net/versions/2008-02-28/lod-cloud.png

Page 46: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Mar 2008

http://lod-cloud.net/versions/2008-03-31/lod-cloud.png

Page 47: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Sep 2008

http://lod-cloud.net/versions/2008-09-18/lod-cloud.png

Page 48: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Mar 2009

http://lod-cloud.net/versions/2009-03-27/lod-cloud.png

Page 49: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Jul 2009

http://lod-cloud.net/versions/2009-07-14/lod-cloud.png

Page 50: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Sep 2010

http://lod-cloud.net/versions/2010-09-22/lod-cloud.png

Page 51: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud: Sep 2011

Source http://lod-cloud.net

Page 52: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linked Open Data cloud

• große Datenmengen – allgemeine Wissensbasen (DBpedia, Freebase)

– Bibliothekenbestände (Deutsche Nationalbibliothek)

– wissenschaftliche Datenbanken (Chemie, Geographie, Biologie)

– Datenbanken mit Allgemeinwissen (lastfm: Musik)

– Wörterbücher, Thesauri

– Vokabularien, um andere Daten zu beschreiben

– usw.

• auch in anderen Disziplinen adaptiert – z.B. in Sprachwissenschaft und Sprachtechnologie

Page 53: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Inhaltliches

• Motivation: Wörterbuchverknüpfung

• Linked Open Data

– W3C-Standards und zugehörige Datenbanken

• Linguistic Linked Open Data

– Natural Language Processing & Linked Data

• Wörterbücher als Linked Open Data

– Lexikalisch-semantische Ressourcen

Page 54: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Linguistic Linked Open Data

• zahlreiche sprachwissenschaftliche Ressourcen sind nach RDF konvertiert und verknüpft worden. Gründe:

– Representation and modelling

– Structural interoperability

– Integrating distributed resources

– Conceptual interoperability

– Dynamic Import

Page 55: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Representation and modelling

● RDF Datenmodell: gelabelte gerichtete (Multi-) Graphen

● Einheitlicher Formalismus mit explizit spezifizierbarer Semantik für unterschiedliche Resourcentypen

– Wörterbücher, Translation Memories, Datenbanken, Vokabular

● Verschiedene Vokabulare (RDFS, OWL, SKOS, lemon) erlauben problemspezifische Modellierung

● Vokabulare sind wiederverwendbar und werden dezentral gehostet

Page 56: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Structural interoperability

● Mit Ressourcen in RDF kann man unterschiedliche Informationsquellen frei kombinieren

● Anfragen über unterschiedliche Ressourcen mit SPARQL

– z.B. Wörterbücher und Korpora

● Sind Wörterbücher und Korpora nach unterschiedlichen Standards repräsentiert, muss man die Schnittstelle selbst implementieren

Page 57: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Integrating distributed resources

● Federation in SPARQL 1.1: eingebettete Sub-Anfragen, die gegen ein anderes Repositorium laufen

● Physische Integration in einer einzigen Datenbank nicht unbedingt notwendig

● Querverweise auf andere Vokabulare und Ressourcen jederzeit möglich

Page 58: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Conceptual interoperability

● Resourcen können (und sollten) auf die Vokabularien verweisen, die sie benutzen

● Es existieren mehrere Terminologie-Repositorien für grammatische Kategorien, Sprachbezeichner, usw.

Page 59: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Dynamic import

● URI-Referenzen, die während der Anfragezeit aufgelöst werden, ermöglichen stets Zugriff auf den aktuellen Stand der Daten

● Wurde die Ressource erweitert, steht uns dieses Wissen zur Verfügung

● Versionierung ermöglicht Vermeidung von Inkonsistenzen

Page 60: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

LLOD

Page 61: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Mögliche Anwendungen

• Nachrichten: Über wen reden wir eigentlich ?

– Entity Recognition (JRC Names)

• Kann man einen Bias in der politischen Berichterstattung finden ?

– Sentiment Analysis (SentiWS, EuroSentiment)

• Wer schreibt eigentlich unsere Gesetze ?

– Semantic Textual Similarity (WordNet)

Page 62: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Mögliche Anwendungen

• Digital Humanities

– Wie können wir (z.B.) Historikern helfen, relevante Texte zu finden ?

– Können wir denen schon eine automatische Voranalyse geben ? (Named Entity Recognition)

• Anwendungsbeispiel für das Praktikum kommt ebenfalls aus dieser Domäne

– Die Technologie kann aber auch anderweitig eingesetzt werden.

Page 63: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Inhaltliches

• Motivation: Wörterbuchverknüpfung

• Linked Open Data

– W3C-Standards und zugehörige Datenbanken

• Linguistic Linked Open Data

– Natural Language Processing & Linked Data

• Wörterbücher als Linked Open Data

– Lexikalisch-semantische Ressourcen

Page 64: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

LLOD

Verknüpfte lexikalische Daten: Ein Beispiel

OHG

Lexvo

Glotto-log

OLiA

Linked Datainteroperablegrammaticalcategories

Linked Datalanguage

identifiers fromtypology

Linked DataISO-639

languageidentifiersOS

ON

PIE+PGmc

other

lemonUby

Linked DataGerman &

English lexicalresources

Goth

machine-readable, linkedKöbler dictionaries (LOD edition)

OE

XML edition and DB interface

RDF conversion and linking(Chiarcos & Sukhareva, 2014)

XML conversion(Price 2012)

originalOE Köbler dictionary

(human-readable PDF)(http://www.koeblergerhard.de/germanistischewoerterbuecher/altenglischeswoerterbuch/AENG-S.pdf)

Page 65: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Vision

• Wörterbuch-Portal

– Gegeben ein Wort, gesucht dessen deutsche Übersetzung

– Finden wir es im Wörterbuch ?

• Haben wir die deutsche Übersetzung im Wörterbuch ?

• Haben wir eine (z.B.) englische Übersetzung, die wir dann nach deutsch übersetzen können ?

Page 66: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Vision

• Wörterbuch-Portal

– Gegeben ein Wort, gesucht dessen deutsche Übersetzung

– Finden wir es im Wörterbuch ?

– Gibt es ähnliche Worte in verwandten Sprachen ?

• Aus welcher Sprache könnte es kommen ?

• Was ist seine Bedeutung dort ?

Page 67: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Vision

• Wörterbuch-Portal

– Gegeben ein Wort, gesucht dessen deutsche Übersetzung

– Finden wir es im Wörterbuch ?

– Gibt es ähnliche Worte in verwandten Sprachen ?

– Kontextanalyse: Wie wird es eigentlich verwendet?

• Ausgabe von Beispielbelegen aus einem Korpus

Page 68: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Praktikum

• Wörterbuch-Portal

– Gegeben ein Wort, gesucht dessen deutsche Übersetzung

– Finden wir es im Wörterbuch ?

– Gibt es ähnliche Worte in verwandten Sprachen ?

– Kontextanalyse: Wie wird es eigentlich verwendet?

• Ausgabe von Beispielbelegen aus einem Korpus

… oder finden wir andere Wörterbücher, über die hinweg wir eine deutsche

Entsprechung finden können ?

Page 69: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Praktikum

• Wörterbuch-Portal

– Gegeben ein Wort, gesucht dessen deutsche Übersetzung

– Finden wir es im Wörterbuch ?

– Gibt es ähnliche Worte in verwandten Sprachen ?

– Kontextanalyse: Wie wird es eigentlich verwendet?

• Ausgabe von Beispielbelegen aus einem Korpus

Ziel ist (a) Umwandlung neuer Ressourcen

(b) Verknüpfung mit bestehenden Ressourcen (c) prototypische Datenbankimplementierung

(d) prototypische Webschnittstelle

Page 70: DBMS-Praktikum Linguistic Linked Open Data · –Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen Folgendes Beispiel ist der besseren Verständlichkeit

Vielen Dank für Ihre Aufmerksamkeit

• Nächstes Mal (nach Ostern)

– Bildung von Arbeitsgruppen

– Verteilung von (Teil-) Aufgaben

– Ausarbeitung von Meilensteinen für das Semester

Pascal Hitzler et al. (2008), Semantic Web - Grundlagen. Springer-Verlag, Heidelberg (online über die Bibliothek)

überfliegen Sie bitte bis 28.04.2014 S. 17-88