dbms-praktikum linguistic linked open data · –haitisches creol beruht z.t. auf dem...
TRANSCRIPT
Linguistic Linked Open Data
• Organisatorisches
• Motivation
– Wörterbuchverknüpfung
• Grundlagen
– IT: Datenbanken, XML, Semantic Web, Linked Data
– Sprachtechnologie: Verknüpfte Wörterbücher
• Anwendung
Organisatorisches
• Praktikum
– Grundlage sind DB1 und DB2
– setzt DB3 fort
• aber nicht voraus
– wünschenswert: JAVA, XML
• Lehrkomponente und Projektkomponente
Organisatorisches
• Lehrkomponente und Projektkomponente
– Zu Semesterbeginn Grundlagenvermittlung
• Montag, 12-14, SR-9
– Danach selbständige Entwicklungsarbeit in Arbeitsgruppen mit (mindestens) monatlichen Treffen
• Ort und Zeit wird bedarfsabhängig vereinbart
Organisatorisches
• nächster Termin und Gruppenbildung erst am 28.04.2014 – Moodle-Portal wird eingerichtet
– zunächst bitte Email an mich • [email protected]
• Ein wesentlicher inhaltlicher Aspekt besteht im Einsatz von XML und Semantic-Web-Technologien Pascal Hitzler et al. (2008), Semantic Web - Grundlagen. Springer-Verlag, Heidelberg (online über die Bibliothek)
Organisatorisches
• nächster Termin und Gruppenbildung erst am 28.04.2014 – Moodle-Portal wird eingerichtet
– zunächst bitte Email an mich • [email protected]
• Ein wesentlicher inhaltlicher Aspekt besteht im Einsatz von XML und Semantic-Web-Technologien Pascal Hitzler et al. (2008), Semantic Web - Grundlagen. Springer-Verlag, Heidelberg (online über die Bibliothek)
überfliegen Sie bitte bis 28.04.2014 S. 17-88
Inhaltliches
• Motivation: Wörterbuchverknüpfung
• Linked Open Data
– W3C-Standards und zugehörige Datenbanken
• Linguistic Linked Open Data
– Natural Language Processing & Linked Data
• Wörterbücher als Linked Open Data
– Lexikalisch-semantische Ressourcen
Motivation
• Wörterbuchportal – wir erarbeiten eine Datenbank von
Wörterbüchern • Formalisierung der Wörterbücher
• Anfrage über Wörterbücher
• NEU: Anfrage über mehrere Wörterbücher gleichzeitig
• Anwendungsszenarien – menschliche Übersetzung
– maschinelle Sprachverarbeitung: Wortlisten für beliebige Paare von Sprachen
Motivation I
• manuelle Übersetzung
– Uns interessiert ein Text in Sprache A, die wir leider nicht sprechen
• z.B. Friaulisch
– Es gibt auch ein Wörterbuch dafür, aber leider nur von A in eine Sprache B, die wie ebenfalls nicht sprechen
• z.B. Italienisch
– Glücklicherweise aber wenigstens von B nach C, das wir sprechen
• z.B. Deutsch
Motivation I
• manuelle Übersetzung
– Uns interessiert ein Text in Sprache A, die wir leider nicht sprechen
• z.B. Friaulisch
– Es gibt auch ein Wörterbuch dafür, aber leider nur von A in eine Sprache B, die wie ebenfalls nicht sprechen
• z.B. Italienisch
– Glücklicherweise aber wenigstens von B nach C, das wir sprechen
• z.B. Deutsch
Manuell mit zwei Wörterbüchern einen friaulischen Text zu übersetzen, dauert endlos lange
Liegen beide maschinenlesbar vor, könnte man die
Verknüpfung aber automatisch herstellen und/oder abfragen
bestehende Wörterbuchnetze, z.B. http://woerterbuchnetz.de/, haben zwar bereits eine
Verknüpfung zwischen einzelnen Wörterbüchern, aber keine Möglichkeit, diese über eine dritte hinweg
anzufragen
Motivation II
• Sprachtechnologie: multilinguale Wortlisten
– angenommen, wir sind gezwungen, uns kurzfristig intensiv mit einer Sprache auseinanderzusetzen, über die wir kaum etwas wissen
• Haiti 2010: Erdbeben, tausende Notrufe via SMS – Können wir die automatisch klassifizieren, um Hilfe
zielgerichtet zu koordinieren?*
– Im Prinzip schon, aber nicht für Haitianisches Kreol
* NB: Sowohl MS als auch Google haben jeweils Übersetzungssysteme innerhalb von weniger als 48 Stunden gebaut
Motivation II
• Sprachtechnologie: multilinguale Wortlisten
– Haitisches Creol beruht z.T. auf dem Französischen, z.T. auf westafrikanischen Sprachen
Folgendes Beispiel ist der besseren Verständlichkeit halber Hawaiianisches Pidgin, das auf dem Englischen beruht.
Den Jesus dem come near Jerusalem an come … Odda guys cut branches from da palm trees in da fields, an put um down on top da road fo show respeck fo him.
Markus 11:1,8
Motivation II
• Auch ohne Hawaiianisches Pidgin zu verstehen, lässt sich der Text recht gut lesen, es gibt einige Unterschiede, aber die sind sehr systematisch – th- > d- (den, da), -th- > -dd- (odda)
– -r > (odda, fo)
– -e > -a (odda, da)
Den Jesus dem come near Jerusalem an come … Odda guys cut branches from da palm trees in da fields, an put um down on top da road fo show respeck fo him.
Markus 11:1,8
Motivation II
• mit maschinenlesbaren Wortlisten für zwei verwandte Sprachen lassen sich solche systematischen Korrespondenzen automatisch erlernen – und damit lassen sich Technologien aus dem
Englischen auf das Hawaiianische Pidgin (bzw. vom Französischen auf das Haitianische Kreol) übertragen
• ABER – Was, wenn solche Wortlisten nicht existieren?
• mit maschinenlesbaren Wortlisten für zwei verwandte Sprachen lassen sich solche systematischen Korrespondenzen automatisch erlernen – und damit lassen sich Technologien aus dem
Englischen auf das Hawaiianische Pidgin (bzw. vom Französischen auf das Haitianische Kreol) übertragen
• ABER – Was, wenn solche Wortlisten nicht existieren?
Motivation II
z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika
Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.
Markus 11:1,8
Motivation II
z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika es gibt plautdietsch-englische (oder –russische) Wörterbücher
http://plautdietsch.22web.org/lexicon/index.htm
Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.
Markus 11:1,8
Motivation II
z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika und deutsch-englische Wörterbücher führen uns dann zu einer passenden deutschen Übersetzung
Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.
Motivation II
z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika Um die „passenden“ hochdeutschen Ausdrücke zu einem plautdietschen zu finden, brauchen wir eine (automatische) transitive Suche über mehrere Wörterbücher hinweg
Aus see dicht bie Jerusalem kjeeme ... En fael schmeete aeare Kjleede oppem Wajch, en aundre schneede kjleene Asta ut dee Flekje.
Motivation II
z.B. Plautdietsch, niederdeutscher Dialekt in v.a. Russland und Amerika neben plautdietsch-englischen existieren auch plautdietsch-russische Wörterbücher Wenn wir den transitiven Abschluss von Verknüpfungen abfragen können, dann können wir auch mehrere „Pfade“ (über das Russische neben dem Englischen) in Betracht ziehen
• eventuelle Lücken können so geschlossen werden
Eine Technologie, die alle Pfade einer bestimmten Länge zwischen zwei Konzepten (Wörterbucheinträgen) sucht, wäre dafür ideal
• Das ist eines der Versprechen von Linked Data
Motivation III
• für manuelle (und maschinelle) Analyse
– wir arbeiten in einer Sprache, die wir nicht voll verstehen
– für ein uns unbekanntes Wort finden wir keinen Wörterbucheintrag
– suchen wir also statt dessen die Kontexte, in denen es auftritt
• erfordert Verknüpfung von Einzelworten mit ihren Verwendungskontexten (also Texten)
Inhaltliches
• Motivation: Wörterbuchverknüpfung
• Linked Open Data
– W3C-Standards und zugehörige Datenbanken
• Linguistic Linked Open Data
– Natural Language Processing & Linked Data
• Wörterbücher als Linked Open Data
– Lexikalisch-semantische Ressourcen
Linked Open Data (LOD)
• LOD cloud – http://lod-cloud.net/versions/2011-09-19/lod-
cloud_colored.html – Zahlreiche Ressourcen aus unterschiedlichen
Wissensdomänen • offene Lizenzen
– Enthält große Wissensbasen • DBpedia, YAGO, Freebase • WordNet, Cornetto
• beruht auf W3C-Standards – RDF, URI, SPARQL
RDF Datenmodell
• gerichtete gelabelte Graphen
• Strukturkomponenten
– Resource
– Property
– Value
– Statement (Triple)
RDF Datenmodell
• gerichtete gelabelte Graphen
• Strukturkomponenten
Resource Property
Resource
Statement (Triple)
RDF Datenmodell
• gerichtete gelabelte Graphen
• Strukturkomponenten
Resource Property
Resource
Statement (Triple)
Resource Property
Statement (Triple)
Literal
(Value)
URIs
• Resourcen und Properties werden durch URIs dargestellt
– Uniform Resource Identifier
• global eindeutige Identifikation einer beliebigen Ressource
RDF Beispiel
resto:
the-leaf food:salad513
„The Leaf“
resto:hasName
resto:serves
food:hasName
„Green Salad“
RDF Beispiel
Namespaces (informell)
resto http://restaurants.com/
food http://food-registry.org/
resto:
the-leaf food:salad513
„The Leaf“
resto:hasName
resto:serves
food:hasName
„Green Salad“
RDF Notation(en): Turtle
• vereinfacht
– RDF Graph wird als Sequent von Tripeln geschrieben
– getrennt durch „.“
• verwandte Notationen: N3, N-Triples
Notationen: Turtle
<http://restaurants.com/the-leaf> <http://restaurants.com/hasName> “The Leaf“ .
<http://restaurants.com/the-leaf> <http://restaurants.com/serves>
<http://food-registry.org/salad513> .
<http://food-registry.org/salad513> <http://food-registry.org/hasName>
„Green Salad“ .
resto:
the-leaf food:salad513
„The Leaf“
resto:hasName
resto:serves
food:hasName
„Green Salad“
RDF Notation(en): Turtle
• vereinfacht
– RDF Graph wird als Sequent von Tripeln geschrieben
– getrennt durch „.“
• verschiedene Abkürzungen möglich, z.B.
– global definierte Namespace-Präfixe
Notationen: Turtle
@prefix resto: <http://restaurants.com/> .
@prefix food: <http://food-registry.com/> .
resto:the-leaf resto:hasName “The Leaf“ .
resto:the-leaf resto:serves food:salad513 .
food:salad513 food:hasName „Green Salad“.
resto:
the-leaf food:salad513
„The Leaf“
resto:hasName
resto:serves
food:hasName
„Green Salad“
RDF Notation(en): Turtle
• vereinfacht
– RDF Graph wird als Sequent von Tripeln geschrieben
– getrennt durch „.“
• verschiedene Abkürzungen möglich, z.B.
– global definierte Namespace-Präfixe
– mehrere Tripel mit gleichem Subjekt (erste Ressource) können zusammengefasst und mit „;“ getrennt werden
Notationen: Turtle
@prefix resto: <http://restaurants.com/> .
@prefix food: <http://food-registry.com/> .
resto:the-leaf resto:hasName “The Leaf“ ;
resto:the-leaf resto:serves food:salad513 .
food:salad513 food:hasName „Green Salad“.
resto:
the-leaf food:salad513
„The Leaf“
resto:hasName
resto:serves
food:hasName
„Green Salad“
RDF-Verarbeitung
• RDF Editor – Protégé 3.4 (nicht 4.x!)
• http://protege.stanford.edu/
• API – Sesame
• http://www.openrdf.org/
• Anfragesprache – SPARQL
• http://www.w3.org/TR/rdf-sparql-query/
SPARQL
• vereinfacht: „SQL meets Turtle“ SELECT DISTINCT ?language ?name WHERE { ?language rdf:type <http://dbpedia.org/ontology/Language> . ?language rdfs:label ?name . } LIMIT 100 • beispielhafter SPARQL end point
– http://dbpedia.org/sparql
RDF-Linearisierung
• neben Turtle existieren weitere Linearisierungen, u.a.
– RDF/XML
• XML-Format
– RDF/HDT
• sehr kompaktes Binärformat zum Datenaustausch
– RDFa
• „RDF in Attributes“, gestattet Einbettung von RDF in „Gast“-(XML-)Sprachen
Linked Data Definition
1. Use URIs as names for things
2. Use HTTP URIs so that people can look up those names.
3. When someone looks up a URI, provide useful information, using standards like RDF and SPARQL
4. Include links to other URIs, so that they can discover more things.
http://www.w3.org/DesignIssues/LinkedData.html
Linked Open Data: The 5 star plan
Open Licences allow republishing and reuse
● Motivation for collaboration:
● High potential that invested efforts can be reused, i.e. data, links, vocabularies, schemas
● (Effortful) feedback: Users complement data, extend vocabularies and contribute changes.
Linked Open Data cloud: May 2007
http://lod-cloud.net/versions/2007-05-01/lod-cloud.png
Linked Open Data cloud: mid-2007
LDL-2012 Tutorial
Linked Open Data cloud: Oct 2007
http://lod-cloud.net/versions/2007-10-08/lod-cloud.png
Linked Open Data cloud: Nov 2007
http://lod-cloud.net/versions/2007-11-07/lod-cloud.png
Linked Open Data cloud: Feb 2008
http://lod-cloud.net/versions/2008-02-28/lod-cloud.png
Linked Open Data cloud: Mar 2008
http://lod-cloud.net/versions/2008-03-31/lod-cloud.png
Linked Open Data cloud: Sep 2008
http://lod-cloud.net/versions/2008-09-18/lod-cloud.png
Linked Open Data cloud: Mar 2009
http://lod-cloud.net/versions/2009-03-27/lod-cloud.png
Linked Open Data cloud: Jul 2009
http://lod-cloud.net/versions/2009-07-14/lod-cloud.png
Linked Open Data cloud: Sep 2010
http://lod-cloud.net/versions/2010-09-22/lod-cloud.png
Linked Open Data cloud: Sep 2011
Source http://lod-cloud.net
Linked Open Data cloud
• große Datenmengen – allgemeine Wissensbasen (DBpedia, Freebase)
– Bibliothekenbestände (Deutsche Nationalbibliothek)
– wissenschaftliche Datenbanken (Chemie, Geographie, Biologie)
– Datenbanken mit Allgemeinwissen (lastfm: Musik)
– Wörterbücher, Thesauri
– Vokabularien, um andere Daten zu beschreiben
– usw.
• auch in anderen Disziplinen adaptiert – z.B. in Sprachwissenschaft und Sprachtechnologie
Inhaltliches
• Motivation: Wörterbuchverknüpfung
• Linked Open Data
– W3C-Standards und zugehörige Datenbanken
• Linguistic Linked Open Data
– Natural Language Processing & Linked Data
• Wörterbücher als Linked Open Data
– Lexikalisch-semantische Ressourcen
Linguistic Linked Open Data
• zahlreiche sprachwissenschaftliche Ressourcen sind nach RDF konvertiert und verknüpft worden. Gründe:
– Representation and modelling
– Structural interoperability
– Integrating distributed resources
– Conceptual interoperability
– Dynamic Import
Representation and modelling
● RDF Datenmodell: gelabelte gerichtete (Multi-) Graphen
● Einheitlicher Formalismus mit explizit spezifizierbarer Semantik für unterschiedliche Resourcentypen
– Wörterbücher, Translation Memories, Datenbanken, Vokabular
● Verschiedene Vokabulare (RDFS, OWL, SKOS, lemon) erlauben problemspezifische Modellierung
● Vokabulare sind wiederverwendbar und werden dezentral gehostet
Structural interoperability
● Mit Ressourcen in RDF kann man unterschiedliche Informationsquellen frei kombinieren
● Anfragen über unterschiedliche Ressourcen mit SPARQL
– z.B. Wörterbücher und Korpora
● Sind Wörterbücher und Korpora nach unterschiedlichen Standards repräsentiert, muss man die Schnittstelle selbst implementieren
Integrating distributed resources
● Federation in SPARQL 1.1: eingebettete Sub-Anfragen, die gegen ein anderes Repositorium laufen
● Physische Integration in einer einzigen Datenbank nicht unbedingt notwendig
● Querverweise auf andere Vokabulare und Ressourcen jederzeit möglich
Conceptual interoperability
● Resourcen können (und sollten) auf die Vokabularien verweisen, die sie benutzen
● Es existieren mehrere Terminologie-Repositorien für grammatische Kategorien, Sprachbezeichner, usw.
Dynamic import
● URI-Referenzen, die während der Anfragezeit aufgelöst werden, ermöglichen stets Zugriff auf den aktuellen Stand der Daten
● Wurde die Ressource erweitert, steht uns dieses Wissen zur Verfügung
● Versionierung ermöglicht Vermeidung von Inkonsistenzen
LLOD
Mögliche Anwendungen
• Nachrichten: Über wen reden wir eigentlich ?
– Entity Recognition (JRC Names)
• Kann man einen Bias in der politischen Berichterstattung finden ?
– Sentiment Analysis (SentiWS, EuroSentiment)
• Wer schreibt eigentlich unsere Gesetze ?
– Semantic Textual Similarity (WordNet)
Mögliche Anwendungen
• Digital Humanities
– Wie können wir (z.B.) Historikern helfen, relevante Texte zu finden ?
– Können wir denen schon eine automatische Voranalyse geben ? (Named Entity Recognition)
• Anwendungsbeispiel für das Praktikum kommt ebenfalls aus dieser Domäne
– Die Technologie kann aber auch anderweitig eingesetzt werden.
Inhaltliches
• Motivation: Wörterbuchverknüpfung
• Linked Open Data
– W3C-Standards und zugehörige Datenbanken
• Linguistic Linked Open Data
– Natural Language Processing & Linked Data
• Wörterbücher als Linked Open Data
– Lexikalisch-semantische Ressourcen
LLOD
Verknüpfte lexikalische Daten: Ein Beispiel
OHG
Lexvo
Glotto-log
OLiA
Linked Datainteroperablegrammaticalcategories
Linked Datalanguage
identifiers fromtypology
Linked DataISO-639
languageidentifiersOS
ON
PIE+PGmc
other
lemonUby
Linked DataGerman &
English lexicalresources
Goth
machine-readable, linkedKöbler dictionaries (LOD edition)
OE
XML edition and DB interface
RDF conversion and linking(Chiarcos & Sukhareva, 2014)
XML conversion(Price 2012)
originalOE Köbler dictionary
(human-readable PDF)(http://www.koeblergerhard.de/germanistischewoerterbuecher/altenglischeswoerterbuch/AENG-S.pdf)
Vision
• Wörterbuch-Portal
– Gegeben ein Wort, gesucht dessen deutsche Übersetzung
– Finden wir es im Wörterbuch ?
• Haben wir die deutsche Übersetzung im Wörterbuch ?
• Haben wir eine (z.B.) englische Übersetzung, die wir dann nach deutsch übersetzen können ?
Vision
• Wörterbuch-Portal
– Gegeben ein Wort, gesucht dessen deutsche Übersetzung
– Finden wir es im Wörterbuch ?
– Gibt es ähnliche Worte in verwandten Sprachen ?
• Aus welcher Sprache könnte es kommen ?
• Was ist seine Bedeutung dort ?
Vision
• Wörterbuch-Portal
– Gegeben ein Wort, gesucht dessen deutsche Übersetzung
– Finden wir es im Wörterbuch ?
– Gibt es ähnliche Worte in verwandten Sprachen ?
– Kontextanalyse: Wie wird es eigentlich verwendet?
• Ausgabe von Beispielbelegen aus einem Korpus
Praktikum
• Wörterbuch-Portal
– Gegeben ein Wort, gesucht dessen deutsche Übersetzung
– Finden wir es im Wörterbuch ?
– Gibt es ähnliche Worte in verwandten Sprachen ?
– Kontextanalyse: Wie wird es eigentlich verwendet?
• Ausgabe von Beispielbelegen aus einem Korpus
… oder finden wir andere Wörterbücher, über die hinweg wir eine deutsche
Entsprechung finden können ?
Praktikum
• Wörterbuch-Portal
– Gegeben ein Wort, gesucht dessen deutsche Übersetzung
– Finden wir es im Wörterbuch ?
– Gibt es ähnliche Worte in verwandten Sprachen ?
– Kontextanalyse: Wie wird es eigentlich verwendet?
• Ausgabe von Beispielbelegen aus einem Korpus
Ziel ist (a) Umwandlung neuer Ressourcen
(b) Verknüpfung mit bestehenden Ressourcen (c) prototypische Datenbankimplementierung
(d) prototypische Webschnittstelle
Vielen Dank für Ihre Aufmerksamkeit
• Nächstes Mal (nach Ostern)
– Bildung von Arbeitsgruppen
– Verteilung von (Teil-) Aufgaben
– Ausarbeitung von Meilensteinen für das Semester
Pascal Hitzler et al. (2008), Semantic Web - Grundlagen. Springer-Verlag, Heidelberg (online über die Bibliothek)
überfliegen Sie bitte bis 28.04.2014 S. 17-88