seminar semantic media mining - kickoff

108
SEMANTIC MEDIA MINING Seminar Dr. Harald Sack / Jörg Waitelonis Christian Hentschel / Magnus Knuth / Nadine Steinmetz Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2012/13 Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC ). Freitag, 19. Oktober 12

Upload: harald-sack

Post on 16-Jan-2015

463 views

Category:

Education


2 download

DESCRIPTION

Handout für die Einführungsveranstaltung zum Seminar "Semantic Media Mining", 17.10.2012, Hasso Plattner Institut, Universität Potsdam, Dr. Harald Sack, Wintersemester 2012/13

TRANSCRIPT

Page 1: Seminar Semantic Media Mining - Kickoff

SEMANTIC MEDIA MINING

SeminarDr. Harald Sack / Jörg Waitelonis

Christian Hentschel / Magnus Knuth / Nadine SteinmetzHasso-Plattner-Institut für Softwaresystemtechnik

Universität PotsdamWintersemester 2012/13

Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).Freitag, 19. Oktober 12

Page 2: Seminar Semantic Media Mining - Kickoff

1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

2

Semantic Media Mining

Freitag, 19. Oktober 12

Page 3: Seminar Semantic Media Mining - Kickoff

Dr. Harald Sack■ Senior Researcher am HPI■ Leiter der Forschungsgruppe

„Semantische Technologien“■ Forschungsschwerpunkte:□ Semantic Web Technologien□ Multimedia Retrieval□ Wissensrepräsentation■ Yovisto.com / SEMEX

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

3

Semantic Media MiningDozenten / Tutoren

Freitag, 19. Oktober 12

Page 4: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Dipl. Inform. Jörg Waitelonis

■Studium Informatik Uni-Jena bis 2006■2006-2007 Exist-Seed Projekt Osotis■ seit 2007 Gründer von yovisto.com■ Forschung: Semantic Web, Multimedia-Retrieval,

Suchmaschinen Technologien

4

Semantic Media Mining Dozenten / Tutoren

Freitag, 19. Oktober 12

Page 5: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

5Dipl.-Inf. Magnus Knuth

■Studium Informatik, Uni Leipzig bis 2007

■ Institut für Medizinische Informatik, Statistik und Epidemiologie, Uni Leipzig 2006-2010

■Research Assistant am HPI, Contentus & Mediaglobe■ Forschungsgebiete: Semantic Web, Knowledge

Management, Read-Write-Web, Linked Data Cleansing

Semantic Media MiningDozenten / Tutoren

Freitag, 19. Oktober 12

Page 6: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

6 Dipl.-Inf. Nadine Steinmetz

■Studium Informatik, TU Ilmenau bis 2005

■2005-2010 TU Berlin:

• kooperative Lernszenarien

• Integration von Semantic Web Technologien in kooperative Lernplattformen

■ seit 05/2010 am HPI:• Semantische Analyse, Named Entity Recognition,

Disambiguierung

Semantic Media MiningDozenten / Tutoren

Freitag, 19. Oktober 12

Page 7: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

7 Christian Hentschel, M.Sc.

■2005: B.Sc. in Softwaresystemtechnik

■2007: M.Sc. in Computational Visualistics an der Otto-von-Guericke-Universität Magdeburg

■2007-2011: wiss. Mitarbeiter am Fraunhofer Heinrich Hertz Institut

■Theseus

■ seit 2011: Doktorand am HPI

■Forschungsgebiet: visuelle Klassifikation von Bild- und Videoinhalten

Semantic Media MiningDozenten / Tutoren

Freitag, 19. Oktober 12

Page 8: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

8

Freitag, 19. Oktober 12

Page 9: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

9

■ Projektzeitraum: 2009-2012■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten ■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von

AV-Inhalten

Freitag, 19. Oktober 12

Page 10: Seminar Semantic Media Mining - Kickoff

Freitag, 19. Oktober 12

Page 11: Seminar Semantic Media Mining - Kickoff

1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

11

Semantic Media Mining

Freitag, 19. Oktober 12

Page 12: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

12

Wie kann ich etwas (wieder) finden...?Freitag, 19. Oktober 12

Page 13: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

13„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)

„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)

„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)

Metadaten

Freitag, 19. Oktober 12

Page 14: Seminar Semantic Media Mining - Kickoff

•bibliografische Metadaten

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

14

Identifikation überISBN / ISSNAutor(en)Titel...

Klassifikation überKategorienSchlüsselwörterAbstract / Zusammenfassung...

Freitag, 19. Oktober 12

Page 15: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

15

• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).

....

Strukturierte Metadaten

•bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)

•sind typisiert (Autor ist vom Typ Zeichenkette)

•Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core)

Freitag, 19. Oktober 12

Page 16: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

16

Tierreich (Animalia)

Wirbeltiere

Mensch (Homo)

Moderner Mensch (Homo sapiens)

Menschenartige (Hominidae)

Primaten

Säugetiere (Mammaliae)

Mehrzeller (Eukaria)

Strukturierte Metadaten

•können hierarchisch strukturiert werden (Taxonomie)

Tierreich (AnimaliaWirbeltiere

Mensch (Homo)

Moderner Mensch (Homo sapiens)

Menschenartige (Hominidae)

Primaten

Säugetiere (Mammaliae)

Mehrzeller (Eukaria)

Freitag, 19. Oktober 12

Page 17: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

17

Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte

DDC 23 (2011)• 4 Bände• 4000 Seiten• 45.000 Klassen• 96.000 Registerbegriffe

DDC 1 (1876)• 44 Seiten

Strukturierte Metadaten

• Klassifikationssystemez.B. Dewey Decimal System

Freitag, 19. Oktober 12

Page 18: Seminar Semantic Media Mining - Kickoff

Unstrukturierte Metadaten

• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt.

• Bsp.: Inhaltsangabe/abstract

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

18

Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaft l iches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz....

Freitag, 19. Oktober 12

Page 19: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

19

Autoritative vs. nicht-autoritative Metadaten

• Autoritative Metadatenstammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten• einem ausgewiesenen Experten

Freitag, 19. Oktober 12

Page 20: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

20

Autoritative vs. nicht-autoritative Metadaten

• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.• den Benutzern• prominentes Beispiel: Social

Tagging Systeme

Freitag, 19. Oktober 12

Page 21: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

21

AutorRessource

Benutzer

autoritativeMetadaten

Apfel

Frucht

nicht-autoritativeMetadaten

Apfel

apple

Obst

Frühstück

kaufen

Kollaborative Annotation -- Social Tagging

© E.C. Publications, Inc.

Freitag, 19. Oktober 12

Page 22: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

22

Kollaborative Annotation -- Social Tagging

http://www.wordle.net/

Freitag, 19. Oktober 12

Page 23: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

23

Semantische Metadaten

Freitag, 19. Oktober 12

Page 24: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

24

Semantische Metadaten

• sind strukturierte/unstrukturierte Metadaten• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie)

und daher maschinenlesbar (und maschinenverstehbar)

Freitag, 19. Oktober 12

Page 25: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

25

Semantische Metadaten

"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“

(Thomas R. Gruber, 1993)

Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante

Begriffe, Beziehungen)

Explizit: Bedeutungen aller Begriffe definiert

Formal: maschinenverstehbar

Gemeinsam: Konsens bzgl. Ontologie

Freitag, 19. Oktober 12

Page 26: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Semantische Metadaten

Freitag, 19. Oktober 12

Page 27: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

• Titel• Schlüsselwörter• ...

Eigenschaften

Semantische Metadaten

Freitag, 19. Oktober 12

Page 28: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

• Titel• Schlüsselwörter• ...

Eigenschaften

Semantische Metadaten

Freitag, 19. Oktober 12

Page 29: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

• Titel• Schlüsselwörter• ...

Eigenschaften

Semantische Metadaten

Freitag, 19. Oktober 12

Page 30: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Semantische Metadaten

Freitag, 19. Oktober 12

Page 31: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Semantische Metadaten

Freitag, 19. Oktober 12

Page 32: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon1..n

1..n

Semantische Metadaten

Freitag, 19. Oktober 12

Page 33: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

1..n

1..n

Semantische Metadaten

Freitag, 19. Oktober 12

Page 34: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine1..n

1..n

Semantische Metadaten

Freitag, 19. Oktober 12

Page 35: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

1..n

1..n

Semantische Metadaten

Freitag, 19. Oktober 12

Page 36: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

1..n

1..n

Semantische Metadaten

Freitag, 19. Oktober 12

Page 37: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

HaraldSack

ist eine

1..n

1..n

Semantische Metadaten

Freitag, 19. Oktober 12

Page 38: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

HaraldSack

ist eine

Digitale Kommunikationist ein

1..n

1..n

Semantische Metadaten

Freitag, 19. Oktober 12

Page 39: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

HaraldSack

ist eine

Digitale Kommunikationist ein

1..n

1..n

Mann

Frauist eine

ist eine

Semantische Metadaten

Freitag, 19. Oktober 12

Page 40: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

HaraldSack

ist eine

Digitale Kommunikationist ein

1..n

1..n

Mann

Frauist eine

ist eine

Semantische Metadaten

Freitag, 19. Oktober 12

Page 41: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

27 • erlauben die Festlegung formaler Axiome• z.B. „Es ist nicht möglich, dass das Publikationsdatum

vor dem Geburtsdatum eines Autors der Publikation liegt.“

• erlauben das Ziehen von Schlussfolgerungen• z.B. „Alle Menschen sind sterblich.“

„Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“

Raffael: Die Schule von Athen, 1510

Semantische Metadaten

Freitag, 19. Oktober 12

Page 42: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-

Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.

Named Entity Recognition

Freitag, 19. Oktober 12

Page 43: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-

Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.

Jörg Waitelonis Text

Named Entity Recognition

Freitag, 19. Oktober 12

Page 44: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-

Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.

http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI

Jörg Waitelonis Text

Named Entity Recognition

Freitag, 19. Oktober 12

Page 45: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-

Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.

http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI

http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata

Jörg Waitelonis Text

Named Entity Recognition

Freitag, 19. Oktober 12

Page 46: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-

Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.

http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI

http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata

foaf:Person RDF Metadata

Jörg Waitelonis Text

Named Entity Recognition

Freitag, 19. Oktober 12

Page 47: Seminar Semantic Media Mining - Kickoff

Entity Mapping

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

29

foaf:Person

Jörg Waitelonisis a

foaf:Projectfoaf:Documentfoaf:Organization disjoint with foaf:firstname Jörg

foaf:lastname Waitelonis

property

property

foaf:Person

knows

Harald Sack

is a

foaf:interestfoaf:publicationsfoaf:workplaceHomepage...

property

Freitag, 19. Oktober 12

Page 48: Seminar Semantic Media Mining - Kickoff

Entity Mapping

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Entity Mapping

29

foaf:Person

Jörg Waitelonisis a

foaf:Projectfoaf:Documentfoaf:Organization disjoint with foaf:firstname Jörg

foaf:lastname Waitelonis

property

property

foaf:Person

knows

Harald Sack

is a

foaf:interestfoaf:publicationsfoaf:workplaceHomepage...

property

Freitag, 19. Oktober 12

Page 49: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

30

Jörg Waitelonis

Entitäten-zuweisung

Entität

Named Entity Recognition

Freitag, 19. Oktober 12

Page 50: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

30

Jörg Waitelonis

Entitäten-zuweisung

Entität

Doktorand

ist ein

Klasse

Named Entity Recognition

Freitag, 19. Oktober 12

Page 51: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

30

Jörg Waitelonis

Entitäten-zuweisung

Entität

Doktorand

ist ein

Klasse

Person

ist eine

Klasse

Named Entity Recognition

Freitag, 19. Oktober 12

Page 52: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Determine possible Entity Mapping Candidates

Freitag, 19. Oktober 12

Page 53: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Determine possible Entity Mapping Candidates

We have to examine the Context...

Freitag, 19. Oktober 12

Page 54: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Determine possible Entity Mapping Candidates

We have to examine the Context...

Freitag, 19. Oktober 12

Page 55: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Freitag, 19. Oktober 12

Page 56: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Create all possible Sets of Mapping Candidates

Freitag, 19. Oktober 12

Page 57: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Create all possible Sets of Mapping Candidates

ArmstrongGeorge Armstrong Custer

Neil Armstrong

The Armstrong Twins

Armstrong, Florida

Armstrong, Ontario

Armstrong Automobile

Joe Armstrong

Armstrong County, Texass

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Armstrong Tunnel

Louis Armstrong International Airport

Armstrong‘s Theorem

Sir Thomas Armstrong

Ian Armstrong

Freitag, 19. Oktober 12

Page 58: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Create all possible Sets of Mapping Candidates

Armstrong MenschGeorge Armstrong Custer

Neil Armstrong

The Armstrong Twins

Armstrong, Florida

Armstrong, Ontario

Armstrong Automobile

Joe Armstrong

Armstrong County, Texass

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Armstrong Tunnel

Louis Armstrong International Airport

Armstrong‘s Theorem

Sir Thomas Armstrong

Ian Armstrong

HumanBill Mensch

Bob Mensch

David Mensch

Homer Mensch

Louise Mensch

Halber Mensch

Mensch ärgere Dich nichtMensch Computer

Peter van Mensch

Daniel Mensch

Mensch (album)

Freitag, 19. Oktober 12

Page 59: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Create all possible Sets of Mapping Candidates

Armstrong Mensch MondGeorge Armstrong Custer

Neil Armstrong

The Armstrong Twins

Armstrong, Florida

Armstrong, Ontario

Armstrong Automobile

Joe Armstrong

Armstrong County, Texass

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Armstrong Tunnel

Louis Armstrong International Airport

Armstrong‘s Theorem

Sir Thomas Armstrong

Ian Armstrong

HumanBill Mensch

Bob Mensch

David Mensch

Homer Mensch

Louise Mensch

Halber Mensch

Mensch ärgere Dich nichtMensch Computer

Peter van Mensch

Daniel Mensch

Mensch (album)

Der Mond (Oper)

MOND

Mond Nickel CompanyBrunner Mond

Bernard Mond

Peter Mond

Julian Mond

Ludwig Mond

Violet MondMOND Technologies

Robert Mond

Henry Mond

Alfred Mond

Chava Mond

Freitag, 19. Oktober 12

Page 60: Seminar Semantic Media Mining - Kickoff

Named Entity Recognition

Armstrong Mensch Mond

George Armstrong Custer

Neil Armstrong

Armstrong, Florida

Armstrong, Ontario

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Sir Thomas Armstrong

Human

Bob Mensch

David Mensch

Homer Mensch

Louise Mensch

Halber Mensch

Mensch ärgere Dich nichtMensch Computer

Mensch (album)

Der Mond (Oper)

Mond (Erdtrabant)

Mond Nickel CompanyBrunner Mond

Bernard Mond

Peter Mond

Julian Mond

Ludwig Mond

Henry Mond

Alfred Mond

Chava Mond

(1) Co-occurence Analysis(2) Semantic Analysis

Demo: SEMEX NER http://mediaglobe.yovisto.com/semex/

Freitag, 19. Oktober 12

Page 61: Seminar Semantic Media Mining - Kickoff

1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

34

Semantic Media Mining

Freitag, 19. Oktober 12

Page 62: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Themen35

(1) Linked Soccer: Man muss keine Ahnung von Fußball haben.

(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?

Freitag, 19. Oktober 12

Page 63: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Linked Soccer - Motivation36 ■ Informationen liegen in verschiedenen, losen, un-/semi-strukturierten

Datenquellen, z.B.:□Spieler- und Teaminformationen in Wikipedia/DBpedia□Live-Spielergebnisse in Live-Tickern und Tweets□historische Begegnungen auf versch. Webseiten (z.B. von Vereinen)

■Ziel: ein Datensatz, der all diese Informationen strukturiert aggregiert und sich selbständig aktualisiert□Erzeugung eines Linked Data Datensatzes,□aus frei verfügbaren Quellen,□mit vorhandenen semantischen Entitäten verbunden□ stetige Aktualisierung anhand neu verfügbarer Daten

Freitag, 19. Oktober 12

Page 64: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Linked Soccer - das Spiel

■ “Linked Soccer” ist ein Spiel in 16 Seminartreffen■gespielt wird in Teams zu je 3-4 Spielern■Ziel des Spiels ist die Beantwortung von Fragen zu

Fußballstatistiken mit Hilfe von aggregiertem Linked Data■Der Spielverlauf ist wie folgt:□Teilnahme an Seminartreffen□Zwischen- und Abschlusspräsentation□Ausarbeitung□Software

37

Freitag, 19. Oktober 12

Page 65: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Ziel des Spiels

Beantworte folgende Fragen (Beispiel) mit Hilfe von Linked Data:

■Welcher Verein erzielte in der Geschichte der 2. Bundesliga die wenigsten Tore?

■Welcher Spieler erzielte bei Spielen in der 1. Bundesliga die meisten Eigentore?

■ Bei welcher Begegnung der laufenden Saison 2012/2013 wurden die meisten Gelb-Roten Karten gezeigt (1. und 2. Bundesliga gemeinsam)?

■Welches Team (1. und 2. Bundesliga gemeinsam) erzielte in der Saison 1995/1996 die meisten Tore in der ersten Halbzeit?

■Welcher Spieler des Teams “SpVgg Greuther Fürth” wurde in der Spielsaison 2009/2010 am häufigsten in der Spielhälfte seiner eigenen Mannschaft gefoult?

38

Freitag, 19. Oktober 12

Page 66: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Spieltaktik: Linked Data

■Verwendung von Informationen über Entitäten aus der Linked Open Data Cloud (DBpedia, Freebase, ...)■einfach erweiterbares Datenschema

(RDF, RDFS)■Abfrage per SPARQL■Nutzung von semantischen

Technologien:□Named Entity Recognition□RDFa□GRDDL

39

Freitag, 19. Oktober 12

Page 67: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die Spieler: Entitäten

Welche Entitäten kommen in Frage?■Spieler■Mannschaften■Begegnungen□Ergebnis, Tore, Karten, Fouls, ...

■Ligen■Verbände■ ...

40

Freitag, 19. Oktober 12

Page 68: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die Spielregeln: DatenquellenFokus auf öffentliche und freie Quellen:■DBpedia (http://dbpedia.org/page/Johannes_Focher)■öffentliche Kalender (https://www.google.com/calendar/ical/

spielplan.fussball.em%40gmail.com/public/basic.ics)■Wikipedia■Twitter/Facebook■RSS-Feeds (News, Medien)

41

Freitag, 19. Oktober 12

Page 69: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die Spielregeln (2)

alternative Quellen (nach Absprache mit den Schiedsrichtern!):■www.fussballdaten.de■www.worldfootball.net■www.fussball.de■UEFA (z.B. http://www.uefa.com/uefachampionsleague/

season=2012/clubs/club=52758/matches/index.html)■Statistiken von Vereinsseiten (z.B. http://www.bvb.de/?%9CS

%1B%E7%F4%9D)■diverse Live-Ticker (z.B. http://liveticker.tagesspiegel.de/de/

popup/co12/)

42

Freitag, 19. Oktober 12

Page 70: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die Meisterschaft■Recherche von öffentlichen Datenquellen

■Selektion relevanter Entitäten

■Erstellen einer erweiterbaren Datenstruktur

■Entwickeln einer Strategie zur Extraktion der Daten

■ Identifikation der Entitäten (z.B. anhand von Bezeichnern und Hash-Tags), Aggregation der Daten (Mapping)

■Persistierung der Daten in geeignetem Store

■Entwickeln einer dynamischen Webseite zur Präsentation der Daten

■Ableiten von Statistiken

■Erweiterungen

43 1. Woche

2. Woche

3. Woche

4. Woche

9. Woche

12. Woche

13. Woche

16. Woche

Freitag, 19. Oktober 12

Page 71: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die Kommentare44

Freitag, 19. Oktober 12

Page 72: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden

44

Freitag, 19. Oktober 12

Page 73: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden

Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein

44

Freitag, 19. Oktober 12

Page 74: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden

Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein

Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein

44

Freitag, 19. Oktober 12

Page 75: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden

Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein

Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein

Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“= Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden

44

Freitag, 19. Oktober 12

Page 76: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden

Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein

Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein

Giovanni Trapattoni: „Fußball ist Ding, Dang, Dong. Es gibt nicht nur Ding.“= ???

Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“= Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden

44

Freitag, 19. Oktober 12

Page 77: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Materialien / Einstieg in das Thema

■Bücher zu Semantic Web Technologien□ T. Heath, Ch. Bitzer

Linked Data - Evolving the Web into a Global Data Space,Morgan & Claypool, 2011.

■Tutorial: How to Publish Linked Data on the Web, Bizer et. al■Linked Data Starting Point (Papers und Tools): http://linkeddata.org

■DBpedia (http://dbpedia.org/)■Twitter API (https://dev.twitter.com/docs)■W3C GRDDL Specification (http://www.w3.org/TR/grddl/)

45

Freitag, 19. Oktober 12

Page 78: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?

46

Freitag, 19. Oktober 12

Page 79: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?

46

■viele online Geschäftsmodelle basieren auf Werbung■unterschiedliche Arten von Werbe-Einblendungen:

■Einblendungen als Text (incl. Link)■Einblendungen als Bilder (horizontal/vertikal/kombiniert)■PopUps & Co.

■Video Werbung: Bumper, Zwischeneinblendungen

Freitag, 19. Oktober 12

Page 80: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?

46

■viele online Geschäftsmodelle basieren auf Werbung■unterschiedliche Arten von Werbe-Einblendungen:

■Einblendungen als Text (incl. Link)■Einblendungen als Bilder (horizontal/vertikal/kombiniert)■PopUps & Co.

■Video Werbung: Bumper, Zwischeneinblendungen

Freitag, 19. Oktober 12

Page 81: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

47 ■Wie wird die Werbung bzgl. einer Webseite ausgewählt?■Abhängig vom Benutzer (Personalisierung), z.B. bei

Facebook, Cookies■Abhängig von Aktionen der Benutzer, z.B.

Sucheingabe bei Googel AdSense

■Collaborative Filtering, z.B. Amazon“Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.”

■ohne besonderen Zusammenhang zum Inhalt

Freitag, 19. Oktober 12

Page 82: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

47 ■Wie wird die Werbung bzgl. einer Webseite ausgewählt?■Abhängig vom Benutzer (Personalisierung), z.B. bei

Facebook, Cookies■Abhängig von Aktionen der Benutzer, z.B.

Sucheingabe bei Googel AdSense

■Collaborative Filtering, z.B. Amazon“Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.”

■ohne besonderen Zusammenhang zum Inhalt Das ist die RegelFreitag, 19. Oktober 12

Page 83: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

48

Freitag, 19. Oktober 12

Page 84: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

49

Freitag, 19. Oktober 12

Page 85: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

50

Freitag, 19. Oktober 12

Page 86: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

51

■ Intelligente Verknüpfung von Multimediadaten mit inhaltlich dazu passenden Produkten.■Online Werbung wird zu inhaltsbasierten

Produktempfehlungen.■ “Storytelling”, um dem Nutzer zu kommunizieren, warum

dieses Produkt empfohlen wird (Assoziationsketten).■Verwendung von semantischen Technologien:

■RDF / RDFa■Named Entity Recognition

Ziel:

Freitag, 19. Oktober 12

Page 87: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

52

■Guiness Buch der Rekorde, Craig Glenday [1]■Mirabell Mozartkugeln Geschenkbox [2]■ “Wie wird das Wetter?: Eine verständliche Einführung für jedermann

von Jörg Kachelmann und Siegfried Schöpfer (1. Februar 2006) EUR 8,95 Taschenbuch” [3]

“Baumgartner springt aus der Stratosphäre

und holt sich den Weltrekord”

Beispiel

generierte Empfehlungen z.B.

[1] http://www.amazon.com/Guinness-World-Records-Craig-Glenday/dp/0440423104[2] http://www.austriangrocery.com/de/mirabell-mozartkugeln/mirabell-mozartkugeln-geschenkbox

[3| http://www.amazon.de/Wie-wird-das-Wetter-verständliche/dp/3499620898/ref=sr_1_1?ie=UTF8&qid=1350294405&sr=8-1

Freitag, 19. Oktober 12

Page 88: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

53 Schritt 1: Semantische Produktdatenbank aufbauen

■manuell: Annotation des Produktes durch sem. Entitäten/Kategorien■automatisch: Wo findet man (semantische) Produktbeschreibungen?

■eingebettet in Webseiten (als Microformat, RDFa)■ z.B. sears.com■ vgl. Goodrelations Ontologie (mit Mappings zu DBpedia)

■ in semantischen Suchmaschinen (z.B. http://sindice.com)

Demo: RDFa Distiller http://www.w3.org/2007/08/pyRdfa/

Freitag, 19. Oktober 12

Page 89: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER)

■ “Eingabetext” kann stammen aus:■Webseiten■Social Media Posts: Tweets, Facebook, Google +, etc■Videos■ sonstigen Dokumenten

■Named Entity Recognition■Zuordung von Begriffen zu semantischen Entitäten■Mehrdeutigkeiten auflösen (Disambiguierung)

Freitag, 19. Oktober 12

Page 90: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER)

■ “Eingabetext” kann stammen aus:■Webseiten■Social Media Posts: Tweets, Facebook, Google +, etc■Videos■ sonstigen Dokumenten

■Named Entity Recognition■Zuordung von Begriffen zu semantischen Entitäten■Mehrdeutigkeiten auflösen (Disambiguierung)

“Baumgartner springt aus der Stratosphäre

und holt sich den Weltrekord”

dbp:Felix_Baumgartner

dbp:Stratosphere

dbp:World_recordPREFIX dbp: http://dbpedia.org/resource/

Freitag, 19. Oktober 12

Page 91: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

Freitag, 19. Oktober 12

Page 92: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

Freitag, 19. Oktober 12

Page 93: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

dbp:Felix_Baumgartner

NER

Freitag, 19. Oktober 12

Page 94: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

dbp:Felix_Baumgartner

NER

dbp:Mozartkugel

NER

Freitag, 19. Oktober 12

Page 95: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

dbp:Felix_Baumgartner

NER

category:People_from_Salzburg

dc:subject

dbp:Mozartkugel

NER

Freitag, 19. Oktober 12

Page 96: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

dbp:Felix_Baumgartner

NER

category:People_from_Salzburg

dc:subject

dc:subject

dbp:Wolfgang_Amadeus_Mozart

dbp:Mozartkugel

NER

Freitag, 19. Oktober 12

Page 97: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

dbp:Felix_Baumgartner

NER

category:People_from_Salzburg

dc:subject

dc:subject

dbp:Wolfgang_Amadeus_Mozart

dc:subject

category:Wolfgang_Amadeus_Mozart

dbp:Mozartkugel

NER

Freitag, 19. Oktober 12

Page 98: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

dbp:Felix_Baumgartner

NER

category:People_from_Salzburg

dc:subject

dc:subject

dbp:Wolfgang_Amadeus_Mozart

dc:subject

category:Wolfgang_Amadeus_Mozart

category:Wolfgang_Amadeus_Mozart_in_popular_culture

skos:broader

dbp:Mozartkugel

NER

Freitag, 19. Oktober 12

Page 99: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen

“... Baumgartner...”

dbp:Felix_Baumgartner

NER

category:People_from_Salzburg

dc:subject

dc:subject

dbp:Wolfgang_Amadeus_Mozart

dc:subject

category:Wolfgang_Amadeus_Mozart

category:Wolfgang_Amadeus_Mozart_in_popular_culture

skos:broader

dc:subject

dbp:Mozartkugel

NER

Freitag, 19. Oktober 12

Page 100: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

56 Formal: Spezielle Anwendung von (semantischer) Suche■ Produkte sind die Dokumente ■ Texte (z.B. aus Webseiten, Video, Audio) sind die Suchanfragen:■ “Finde die am besten passenden Produkte zu einem gegebenen Text”

P ... Menge von Dokumenten (Produkte).FP = featP(p) ... Funktion zum Extrahieren von Deskriptoren FP eines Dokuments.FQ = featQ(p) ... Funktion zum Extrahieren von Deskriptoren FQ einer Suchanfrage.

dist(FP, FQ) ... Distanzfunktion basierend auf einer Metrik, die den Abstand zwischen zwei Mengen von Deskriptoren bestimmt.

Aufgabe für das Seminar:

P erzeugen, featP, featQ, dist(FP, FQ) implementieren.

Freitag, 19. Oktober 12

Page 101: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

57 Vorgehen:

1. Literatur Recherche2. Anforderungsanalyse aufstellen3. initiale Produktdatenbank P erstellen (featP)4. Text-Analyse implementieren (featQ)5. zwei einfache Metriken implementieren ( dist(FP, FQ) )6. Evaluation:■ entweder gegen Ground Truth?■ oder durch Rating/Voting?

7. weitere Metriken implementieren8. Optimieren9. Produktdatenbank erweitern

Freitag, 19. Oktober 12

Page 102: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

57 Vorgehen:

1. Literatur Recherche2. Anforderungsanalyse aufstellen3. initiale Produktdatenbank P erstellen (featP)4. Text-Analyse implementieren (featQ)5. zwei einfache Metriken implementieren ( dist(FP, FQ) )6. Evaluation:■ entweder gegen Ground Truth?■ oder durch Rating/Voting?

7. weitere Metriken implementieren8. Optimieren9. Produktdatenbank erweitern

1. Woche2. Woche3. Woche

4.-5. Woche6.-7. Woche

8.-9. Woche

Rest

Freitag, 19. Oktober 12

Page 103: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

(2) Intelligente Produktempfehlungen

58

■ Recommender Systems: http://en.wikipedia.org/wiki/Recommender_system■ Empfehlungsdienst http://de.wikipedia.org/wiki/Empfehlungsdienst■ Verkaufsführung http://de.wikipedia.org/wiki/Guided_Selling

■ Bharat Bhasker; K. Srikumar (2010). Recommender Systems in E-Commerce. CUP. ISBN 978-0-07-068067-8.■ Francesco Ricci; Lior Rokach; Bracha Shapira; Paul B. Kantor, ed. (2011). Recommender Systems Handbook.

ISBN 978-0-387-85819-7.■ Bracha Shapira; Lior Rokach (June 2012). Building Effective Recommender Systems. ISBN 978-1-4419-0047-0.■ Dietmar Jannach; Markus Zanker; Alexander Felfernig; Gerhard Friedrich (2010). Recommender Systems:An Introduction. CUP.

ISBN 978-0-521-49336-9.■ E. Peis; J. M. Morales-del-Castillo; J. A. Delgado-López. Semantic Recommender Systems. Analysis of the state of the topic:

http://www.upf.edu/hipertextnet/en/numero-6/recomendacion.html

■ ACM Conference on Recommender Systems: http://www.recsys.acm.org/2012/program.html

■ Goodrelations Paper: An ontology for describing products and services offers on the web; M. Hepp - Knowledge Engineering: Practice and Patterns, 2008 - Springer http://www.heppnetz.de/projects/goodrelations/

■ DBpedia: http://dbpedia.org/ , Freebase: http://freebase.org/

Einstiegs- und Lesestoff:

Freitag, 19. Oktober 12

Page 104: Seminar Semantic Media Mining - Kickoff

1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

59

Semantic Media Mining

Freitag, 19. Oktober 12

Page 105: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Semantic Media Mining

60

□Semesterwochenstunden: 4□ECTS: 6□Leistungsfeststellung: □Schriftliche Ausarbeitung zum Vortragsthema (Umfang ca. 20 Seiten)

□Musterausarbeitung in den Materialien zum Seminar□Umsetzung einer vorgegebenen Implementierungsaufgabe im Team□Präsentation der Ergebnisse

(Zwischenpräsentation, Endpräsentation, Wochenbesprechungen)

Freitag, 19. Oktober 12

Page 106: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Semantic Media Mining

61 □Projektteams mit je 2-3 Studenten bearbeiten alle die selbe Aufgabenstellung (doodle Link s. Blog) bis 24.10.□Termine□24.10.2012: Technologieeinführung□ab dem 29.10.2012: Wöchentliche Seminargruppentreffen

□Termine nach Absprache□ca. 19.12.2012: Zwischenpräsentation der Projektergebnisse□ca. 6.2.2013: Abschlusspräsentation der Ergebnisse□ca. 6.3.2013: Abgabe Ausarbeitung

Freitag, 19. Oktober 12

Page 107: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Semantic Multimedia

62

Freitag, 19. Oktober 12

Page 108: Seminar Semantic Media Mining - Kickoff

Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

63 Literatur

• P. Hitzler, S. Roschke, Y. Sure: Semantic Web Grundlagen, Springer, 2007.

• Grundlegende Materialien via Seminar-Blog http://smm2013.blogspot.com/

Seminar Semantic Media Mining

Freitag, 19. Oktober 12