semantische suche

82
Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam 11. Juni 2009 Semantische Suche am Beispiel audiovisueller Daten Donnerstag, 11. Juni 2009

Upload: harald-sack

Post on 05-Dec-2014

4.130 views

Category:

Technology


2 download

DESCRIPTION

Traditionelle Suchmaschinen stoßen im World Wide Web heute schnell an ihre Grenzen. Zum Einen erhält der Benutzer auf eine Suchanfrage hin oft Listen mit Millionen von Dokumenten zurück, von denen er meist nur die er-sten Seiten in Augenschein nimmt, so dass eine Beurteilung der Vollständig-keit des Suchergebnisses nicht mehr möglich ist. Zum Anderen enthält diese Vielzahl von Ergebnissen zahlreiche nicht relevante Informationen, die durch die Mehrdeutigkeit von Suchbegriffen bzw. auch durch deren Nutzung in un-terschiedlichem Kontext und Pragmatik verursacht werden. Wünschenswert wären demnach sowohl eine höhere Treffgenauigkeit und damit Qualität der erzielten Suchergebnisse sowie ein besserer Überblick über die Suchergebnis-se einerseits und über den gesamten Suchraum andererseits. Abhilfe ver-spricht eine semantische Suche, die sich am tatsächlichen Inhalt und der Bedeutung des Inhalts der durchsuchten Dokumente orientiert, anstatt wie heute üblich am Vergleich von Zeichenketten, wobei Kontext und Pragmatik berücksichtigt werden müssen. Im Semantic Web wird die Bedeutung natür-lichsprachlicher und multimedialer Dokumente mit Hilfe geeigneter Wissens-repräsentationen explizit gemacht. Werden diese Wissensrepräsentationen in den Suchprozess integriert, eröffnen sich neue Möglichkeiten, die Qualität der erzielten Suchergebnisse zu verbessern und speziell an die Bedürfnisse des Benutzers anzupassen. Inhaltliche Zusammenhänge zwischen einzelnen Do-kumenten können explizit gemacht werden und erlauben über Klassifikatio-nen und Kategorisierungen neue Wege der Visualisierung des Such- und Er-gebnisraumes hin zu einer explorativen Suche, die es dem Benutzer gestat-tet, die Suchergebnisse und damit im Zusammenhang stehende Informatio-nen und Dokumente zu erforschen und zu erfahren. Diese neuen Möglichkei-ten der semantischen Suche werden am Beispiel der Videosuchmaschine yovisto.com dargestellt.

TRANSCRIPT

Page 1: Semantische Suche

Dr. Harald Sack

Hasso-Plattner-Institut für Softwaresystemtechnik

Universität Potsdam

11. Juni 2009

Semantische Sucheam Beispiel audiovisueller Daten

Donnerstag, 11. Juni 2009

Page 2: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Dr. Harald Sack■ Promotion Uni Trier, 2002: formale Verifikation

■ 2002-2008: PostDoc FSU Jena

■ 2007-2009: Gastwissenschaftler am HPI

■ seit 1.1.2009: Senior Researcher am HPI

■ Forschungsschwerpunkte:

□ Semantic Web Technologien

□ Multimedia Retrieval

■ Videosuchmaschine yovisto.com

2

0. Kurzvorstellung

Donnerstag, 11. Juni 2009

Page 3: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

3

0. Kurzvorstellung

Donnerstag, 11. Juni 2009

Page 4: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

4

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 5: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

5

1. Schlüsselwort-basierte Suche1.1 Klassisches Information Retrieval

“Information-Retrieval Systems • process files of records and requests for information, and • identify and retrieve from the files certain records in response to the

information requests. • The retrieval of particular records depends on the similarity between

the records and the queries, which in turn is • measured by comparing the values of certain attributes to records

and information requests.”(nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983)

Menge von Anfragen

informationrequests

Menge von Dokumenten

files of records

Indexierungs-sprache

similarityIndexierungAnfrage-

formulierung

Donnerstag, 11. Juni 2009

Page 6: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

6

1. Schlüsselwort-basierte Suche1.1 Klassisches Information Retrieval

InformationRetrieval

Bereitstellenvon

Informationen

Suchfunktionenund

Navigationsformen

Interne Wissens-repräsentationen

Verfahren derWissensrekonstruktion

Analyse/Modellierungder im Objektbereich

festgelegtenWissensobjekte

mit dem Zielberuht auf

durch Anwendung von durch Anwendung von

operieren überErgebnisse abgelegt alsAllgemeines Modell des Information Retrievalnach [Kuhlen 1995]

Informations-aufbereitung

Retrieval

Donnerstag, 11. Juni 2009

Page 7: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Information Retrieval Modelle

• Boolean Retrieval

• Vector Space Model

• Probabilistic Model

7

1. Schlüsselwort-basierte Suche1.1 Klassisches Information Retrieval

A B

C(A ∧ ¬B) ∧ C

• verwendet Aussagenlogik als Retrievalsprache• erlaubt Selektion und Verknüpfung beliebiger

Dokumentenmengen aus einer einer Dokumentenkollektion• mit Hilfe Boolescher Junktoren (Suchoperatoren) • einfache Implementierung• keine differenzierte Termgewichtung möglich• keine Rangreihenfolge der Ergebnisse (Ranking)

Donnerstag, 11. Juni 2009

Page 8: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Information Retrieval Modelle

• Boolean Retrieval

• Vector Space Model

• Probabilistic Model

8

1. Schlüsselwort-basierte Suche1.1 Klassisches Information Retrieval

Deskriptor1

Deskriptor2

Deskriptor3

Dokument = (2,4,2)Suchabfrage = (1,0,0)

Dokument

Suchanfrage

2

2

4

Bsp.: n = 3

ρ

• Dokumente und Anfragen werden als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert

• Zum Retrieval wird die Distanz zwischen Suchanfrage- und Dokumentenvektor verwendet

• Relevanzbewertung (Ranking) erfolgt nach der ermittelten Distanz

• Differenzierte Termgewichtung möglich• lineare Termanordnung im Dokument geht

verloren • mangelnde semantische Sensitivität

(Vokabularabhängigkeit)

G. Salton, A. Wong, C. S. Yang: "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pp. 613–620, 1975.

Donnerstag, 11. Juni 2009

Page 9: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Information Retrieval Modelle

• Boolean Retrieval

• Vector Space Model

• Probabilistic Model

9

1. Schlüsselwort-basierte Suche1.1 Klassisches Information Retrieval

• Dokumente werden gemäß der Wahrscheinlichkeit ihrer Relevanz bzgl. der Anfrage gewichtet

• IR-System schätzt die Wahrscheinlichkeit der Relevanz bzgl. einer Anfrage ab

Robertson, S. E., Sparck Jones, K.: Relevance weighting of search terms. In Document Retrieval Systems, P. Willett, Ed. Taylor Graham Series In Foundations Of Information Science, vol. 3. Taylor Graham Publishing, London, UK, 143-160, 1988.

Donnerstag, 11. Juni 2009

Page 10: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Information Retrieval Modelle10

1. Schlüsselwort-basierte Suche1.1 Klassisches Information Retrieval

Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004.

Donnerstag, 11. Juni 2009

Page 11: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Evaluation von Information Retrieval Systemen11

1. Schlüsselwort-basierte Suche1.1 Klassisches Information Retrieval

relevante Dokumente gefundene Dokumente

relevante Dokumente, die gefunden wurden

R P

Recall=| R ∩ P |

|R|

Precision=| R ∩ P |

|P|

Text REtrieval Conference (TREC, seit 1992)veröffentlicht jährlich Challenges in unterschiedlichen Gebieten des Information Retrievals mit zugehörigen Testdaten

Donnerstag, 11. Juni 2009

Page 12: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

12

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 13: Semantische Suche

• World Wide Web ist ein verteiltes Hypermediasystem

• multimediale Dokumente

• über Hyperlinks miteinander vernetzt

• WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben

• Erstellung und Pflege eines Indexes (Web Crawler + Indexing)

• Verarbeitung von Suchabfragen (Retrieval + Ranking)

• Aufbereitung der Ergebnisse (Visualisierung)

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

13

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

Donnerstag, 11. Juni 2009

Page 14: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

14

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

Web-Crawler (Web Robot)

URL Liste

http://www.xxxx.de/1234...http://www.xxxx.de/2234...http://www.xxxx.de/3234...http://www.xxxx.de/4234...http://www.xxxx.de/5234...http://www.xxxx.de/6234...http://www.xxxx.de/7234......

<a href=“...“ .../>

<a href=“...“ .../>

HTMLDokumente

WWW-ServerHTTP Request

WWW-Server liefert angefragteHTML-Dokumente an denWeb-Crawler zurück

1

2

3

4

Donnerstag, 11. Juni 2009

Page 15: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Vorverarbeitung und Indexierung15

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

Datennormalisierung

Wortidentifikation

Sprachidentifikation

Word Stemming

POS-Tagging

Deskriptorengenerierung

Web Crawler

Indexierung

Datenanalyseund Anlegender Index-

Datenstrukturen

Donnerstag, 11. Juni 2009

Page 16: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Effiziente Indexdatenstrukturen16

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

Aachen

Altavista

Ananas

……

Zustand

Zypern

Indexdatei

AnanasDocID Pos Frequenz GewichtD123 1;13;77;132 4 9.4D456 22;38 2 6.7 … … … …D998 15 1 1.2

Location List D123Frequenz URL <H1> … <H6> <title> … text

4 1 1 0 1 … 1

D123 http://producers.ananas.org/index.htm

<html><head><title=“Ananas around the World“></head><body> … </body></html>

Invertierte Datei

Direkte Datei

Donnerstag, 11. Juni 2009

Page 17: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Relevanzbewertung (Ranking)

• Ranking erfolgt nach Linkpopularität (Google PageRank)

17

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

A

1.0

D

1.0

B

1.0

C

1.0

Ausgangssituation

Nr. PR(A) PR(B) PR(C) PR(D)1 1,0 1,0 1,0 1,0

2 1,0 0,575 2,275 0,15

3 2,083 0,575 1,1912 0,15

… … … … …

n 1,49 0,7833 1,577 0,15

Iteration der PageRank Berechnung A

1.49

D

0,15

B

0,78

C

1.57

resultierender PageRank

Donnerstag, 11. Juni 2009

Page 18: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Das ,Google Paradigma‘18

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

• Eingabe einer Suchphrase

• Boolesche Verknüpfung einzelner Suchbegriffe• Volltextsuche

• Normalisierung ...

Donnerstag, 11. Juni 2009

Page 19: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Das ,Google Paradigma‘19

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

Donnerstag, 11. Juni 2009

Page 20: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Das ,Google Paradigma‘20

1. Schlüsselwort-basierte Suche1.2 Suchmaschinen im World Wide Web

• Erzeugung einer linearen (nach Relevanz gewichteten) Ergebnisliste

• TFIDF / PageRank

• Personalisierung (Logdatenanalyse)

Donnerstag, 11. Juni 2009

Page 21: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

21

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 22: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

22

1. Schlüsselwort-basierte Suche1.3 Probleme aktueller WWW-Suchmaschinen

Das WWW ist ,ziemlich groß`•ca. 25 x 109 in Suchmaschinenindizierte Dokumente (TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005)

•Web Crawler: > 1012 Dokumente(The Official Google Blog: We knew the Web was Big....., Juli 25, 2008)

•DeepWeb (Darkweb) schätzungsweise bis zu 550 mal größer als das Surface Web (Bergman, 2001)

Probleme:• Aktualität des Suchmaschinenindex• syntaktische / semantische Inkonsistenzen im Suchmaschinenindex• Skalierbarkeit der Suchmaschinenanwendung• kann man der Information auch trauen...?

Donnerstag, 11. Juni 2009

Page 23: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

23

1. Schlüsselwort-basierte Suche1.3 Probleme aktueller WWW-Suchmaschinen

Problemfeld 1: Informationssuche

•Keyword-Suche führt zu vielen nicht relevanten Ergebnissen•Bedeutungsunterschiede•Homonyme•unterschiedlicher Kontext

•Keyword-Suche findet nichtalle relevanten Ergebnisse•Synonyme•fehlende Kontextpräzisierung

Suchbegriff: „Golf“

Donnerstag, 11. Juni 2009

Page 24: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

24

1. Schlüsselwort-basierte Suche1.3 Probleme aktueller WWW-Suchmaschinen

Problemfeld 2: Informationsextraktion• kann nur von menschlichem

“Agenten“ korrekt durchgeführt und bewertet werden

•heterogene Anordnung von Information

•Software-Agent verfügt nicht über• Kontextwissen• Weltwissenum Informationen aus der Text-/Bilddarstellung zu lösen

• implizites Wissen, muss durch logische Schlussfolgerungenaus der Kombination vorhandener Informationen ermittelt werden

bild.de

Donnerstag, 11. Juni 2009

Page 25: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

25

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 26: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

26

2. Suche in audiovisuellen Daten2.1 allgemeine Problematik

Wie findet man etwas in einem audiovisuellen Archiv?

• Damit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen.

Donnerstag, 11. Juni 2009

Page 27: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

27

2. Suche in audiovisuellen Daten2.1 allgemeine Problematik

Retrieval in Audiovisuellen (zeitabhängigen) Daten

automatische inhaltliche Analyse ist • schwierig und• berechnungs-/speicheraufwändig

Marlene Dietrich ????????

„...ich bin von Kopf bis Fuß...“

{

© Friedrich Wilhelm Murnau Stiftung, DFI

Donnerstag, 11. Juni 2009

Page 28: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

28

2. Suche in audiovisuellen Daten2.1 allgemeine Problematik

Retrieval in Audiovisuellen (zeitabhängigen) Daten

• Fazit: Wir benötigen textuelle Beschreibungen

• des Inhalts

• des Produktionsprozesses

• der technischen Parameter

• etc....

Metadaten

AV-Analysemanuell

automatisch

Donnerstag, 11. Juni 2009

Page 29: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

29

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 30: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

30

2. Suche in audiovisuellen Daten2.1 Automatisierte Analyse und Metadatengewinnung

Videosuchmaschine - prinzipielle Architektur

VideoDatabase

MetadataServer

MPEG-Dekoder

temporaleVideo-

segmentierung

Extraktion vonMPEG-7

Deskriptoren

Inde

xier

ung

Retrieval

User-interfaceQuery input, Player, Timeline, Summary,...

Metadatengenerierung

Donnerstag, 11. Juni 2009

Page 31: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

31 Automatische Metadatengewinnung in AV-Daten

•Typische Aufgaben:

•Segmentierung (Shot-, Szenen-, Kapiteldetektion)

•Videoanalyse

•kombinierte Audio-/Videoanalyse...

•Intelligent Character Recognition (ICR)

•Objekterkennung / Objektverfolgung

•Gesichtserkennung / Identifikation ...

•Kontextdetektion

•in-/outdoor, Landschaft, Gebäude,...

•Genreerkennung

•Nachrichten, Sport, Werbung,...

•Eventanalyse

•Tennis, Fußball etc. ...

2. Suche in audiovisuellen Daten2.1 Automatisierte Analyse und Metadatengewinnung

Donnerstag, 11. Juni 2009

Page 32: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

32 Videosegmentierung

sub-shot 1 sub-shot 2 sub-shot 3 sub-shot 4 sub-shot 5

scene 1 scene 2 scene 3 scene 4 scene 5

shot 1 shot 2 shot 3

frames

scenelevel

shotlevel

framelevel

sub-shotlevel

news feature film commercials feature filmprogram/clip level

frames

2. Suche in audiovisuellen Daten2.1 Automatisierte Analyse und Metadatengewinnung

Donnerstag, 11. Juni 2009

Page 33: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

33 Szenenerkennung

•Eine Szene ist ein zeitliches Videosegment mit 3 konsistenten Eigenschaften:

•Ereignis

•Kameraeinstellung

•Zeitraum

2. Suche in audiovisuellen Daten2.1 Automatisierte Analyse und Metadatengewinnung

Donnerstag, 11. Juni 2009

Page 34: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

34 Keyframe Extraktion

Shot-/Subshotdetection

Color:DominantColor,ScalableColor,ColorLayout,ColorStructureTexture:EdgeHistogram,HomogeneousTexture,TextureBrowsingShape:Contour-basedShape,Region-basedShape

Motion:GoF/GoP,MotionActivity,CameraMotion,MotionTrajectory,ParametricMotion

shot01 shot02

2. Suche in audiovisuellen Daten2.1 Automatisierte Analyse und Metadatengewinnung

Donnerstag, 11. Juni 2009

Page 35: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

35

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 36: Semantische Suche

yovisto.com• Videosuchmaschine mit dem Schwerpunkt

akademischer Lehrveranstaltungen

• aktuell mehr als 6.000 Vorlesungen undwissenschaftliche Vorträge aus der ganzen Welt

• automatische Segmentierung und Videoanalyse

• benutzergenerierte Co-Annotation

• Social Tagging

• Diskussionen

• Rezensionen

• Wikis

• Lernmaterialien

• Zielgenauer Zugriff auf gesuchte Videoinhalte

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

36

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 37: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

37 yovisto.com - Arbeitsweise

WWWWWW

upload your ownacademic videorecording

analyze and link toany available academic video recording in the WWW

video analysis andsearch index creation

search forvideo content

browse, play, and annotate video results

search engine frontend

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 38: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Strukturelle (temporäre) Segmentierung■ Grobsegmentierung (rein strukturell)

□ --> Zerlegung Einzelbilder/Blöcke, Histogrammvergleich

■ Feinsegmentierung (inhaltsbasiert)

□ --> Objekterkennung/-verfolgung

□ --> OCR/ICR

□ --> Korrelation Audio/Video (NLP)

38

Zeit

ZeitZusammenfassen Verfeinern Zusammenfassen

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 39: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Inhaltsbezogene Videoanalyse■ Ergebnis: Videosegmente mit zugeordneten, zeitbezogenen

Metadaten

■ Metadaten setzen sich zusammen aus kombinierten Low Level/ High Level Deskriptoren

■ Metadaten als Basis für traditionelles Information Retrieval

39

ZeitMetadaten

Metadaten

Metadaten

Metadaten Metadaten

Metadaten

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 40: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

40

ICR / OCR

ASR

Dic

tiona

ry

Keyterm Spotting

Metadatengewinnung

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 41: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

41 Benutzergenerierte Metadaten□ automatische Analyse nur begrenzt leistungsfähig

□mangelnde Genauigkeit / Vollständigkeit

□ Benutzergenerierte Metadaten können qualitativ zuverlässiger sein

□ autoritative Metadaten

□ strukturierte Daten

□ unstrukturierte (textuelle) Daten

□ nicht-autoritative Metadaten

□ Tags

□ Kommentare

□ Diskussionen

□ Rezensionen

□ Feedback

□ etc...

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 42: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Kollaborative Annotation42

AutorRessourceBenutzer

autoritativeMetadaten

Apfel

Frucht

nicht-autoritativeMetadaten

Apfel

apple

Obst

Frühstück

kaufen

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 43: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

43 Kollaborative Annotation -- Social Tagging

•Visualisierung der Benutzerannotation als Tag-Cloud

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 44: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Temporale Annotation der Videodaten44

• Nutzer1: Informatik • Nutzer4: Vorlesung• Nutzer3: Dr. Sack…

• Nutzer1: Sprache • Nutzer2: Kehlkopf, Sprache• Nutzer3: Spracherzeugung• Nutzer4: Klausur• ...

• Nutzer2: Phonogramm• Nutzer3: Piktogramm, Ideogramm• Nutzer4: Klausur, Schriftzeichen, Logogramme• ...

0:00:00 0:02:34 0:13:57

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Key Frame 01 Key Frame 02 Key Frame 03

Zeit

Donnerstag, 11. Juni 2009

Page 45: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Spatiale Annotation45

(xmin, ymin, xmax, ymax)Hieroglyphen mitKönigskartusche,Haute-Relief

(xmin, ymin, xmax, ymax)Harald Sack

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 46: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

MPEG-7 Metadata Description Framework■ umfassender XML-basierter Standard zur strukturellen und inhaltlichen

Beschreibung von multimedialen Daten

46

<!xml version=“1.0“ encoding=“iso-8859-1“><Mpeg7 xmlns=urn:mpeg:mpeg7:schema:2001 …>…<AudioVisualSegment> <TextAnnotation type=“heading“ xml:lang=“de“> <FreeTextAnnotation> Der Computer als universales Kommunikationsmedium </FreeTextAnnotation> </TextAnnotation> ….. <MediaTime> <MediaTimePoint> T00:03:42.2 </MediaTimePoint> <MediaDuration> PT1M28.6S </MediaDuration> </MediaTime> ….

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 47: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Facettierte Suche■ Nutze (strukturierte)

Metadaten zur Differenzierung und Kategorisierung der Suchergebnisse

■ ermöglicht besserenÜberblick durch facettierte Filterung

47

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 48: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Facettierte Suche■ Nutze (strukturierte)

Metadaten zur Differenzierung und Kategorisierung der Suchergebnisse

■ ermöglicht besserenÜberblich durchfacettierte Filterung

48

2. Suche in audiovisuellen Daten2.2 yovisto.com - Akademische Videosuche

Donnerstag, 11. Juni 2009

Page 49: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

49

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 50: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

50

3. Semantische Suche3.1 Semantic Web Technologie

Die ursprüngliche Vision des World Wide Web

„The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help… “

Voraussetzung:• Inhalte können maschinell gelesen und korrekt

interpretiert (= verstanden) werden

Tim Berners-Lee, Semantic Web Roadmap, Sept 1998

Wie kann das funktionieren?

Donnerstag, 11. Juni 2009

Page 51: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

51

3. Semantische Suche3.1 Semantic Web Technologie

Inhalte im Web maschinell „verstehen“•um Inhalte im Web maschinell „verstehen“ zu können werden zwei unterschiedliche Ansätze verfolgt

Natural Language Processing• Natürliche Sprache soll mit

Techniken der Linguistik und Statistik analysiert werden

• Die Bedeutung (Semantik) soll implizit (oder auch explizit) daraus erschlossen werden

• Techniken kommen im klassischen Information Retrieval (WWW-Such-maschinen) zum Einsatz

Semantic Web• (Natürlichsprachliche) Web-

Inhalte werden explizit mit Hilfe von semantischen Metadaten annotiert

• semantische Metadaten tragen die Bedeutung (Semantik) der Web-Inhalte und lassen sich maschinell lesen und korrekt interpretieren

Donnerstag, 11. Juni 2009

Page 52: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

52

3. Semantische Suche3.1 Semantic Web Technologie

Inhalte im Web maschinell „verstehen“

Text: „Diego zu Bayern?“

Diego Ribas da Cunha (Instanz)

Fußballspieler

ist ein

(Klasse)

Person

ist eine

(Klasse)

Superklasse

Subklasse

ist eine

Klassen-zugehörigkeit

Entitäten-zuweisung

• Die Bedeutung (Semantik) der Klassenmuss ebenfalls explizit definiert werden.

• Bedeutung wird über geeignete Wissens-repräsentationen (Ontologien) kodiert

Donnerstag, 11. Juni 2009

Page 53: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

53

3. Semantische Suche3.1 Semantic Web Technologie

Ontologien als Wissensrepräsentation

„Philosophische Disziplin, die sich primär mit dem Sein, dem Seienden als solchem und mit den fundamentalen Typen von Entitäten beschäftigt…“ (wikipedia)

"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“

(Thomas R. Gruber, 1993)

Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante Begriffe, Beziehungen)Explizit: Bedeutungen aller Begriffe definiertFormal: maschinenverstehbarGemeinsam: Konsens bzgl. Ontologie

Donnerstag, 11. Juni 2009

Page 54: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

54

3. Semantische Suche3.1 Semantic Web Technologie

Ontologien als Wissensrepräsentation

Symbol Gegenstandsteht für

„Golf“Ogden, Richards, semiotisches Dreieck, 1923

Konzept

ruft hervor referenziert

verwendengemeinsames Konzept

Donnerstag, 11. Juni 2009

Page 55: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Das Semantic Web - Datenzentrierte Verarbeitung •Die Bedeutung der Informationen (Semantik) wird durch standardisierte Wissensrepräsentationen (Ontologien) explizit formalisiert (strukturiert)

• Damit wird es möglich,

•die Bedeutung der Informationen maschinell zu verarbeiten

•unterschiedliche (heterogene) Daten miteinander in Beziehung zu setzen

•implizite (nicht offensichtliche) Information aus der vorhandenen (offensichtlichen) Information automatisch zu folgern

55

3. Semantische Suche3.1 Semantic Web Technologie

Das Semantic Web ist eine Art globaler Datenbank, dieein universales Netz semantischer Aussagen bereit hält

Donnerstag, 11. Juni 2009

Page 56: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Das Semantic Web - Architektur56

3. Semantische Suche3.1 Semantic Web Technologie

URI / IRI

XML / XSDData Interchange: RDF

RDFS

Ontology: OWL Rule: RIF

Query:SPARQL

Proof

Unifying Logic

Cry

pto

Trust

Interface & Application

Current Research

Donnerstag, 11. Juni 2009

Page 57: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

57

3. Semantische Suche3.1 Semantic Web Technologie

Inhalte im Semantic Web<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xmlns:foaf="http://xmlns.com/foaf/0.1/" version="XHTML+RDFa 1.0" xml:lang="en">... <body>... <div class=“content“ about=“http://www2.diego10.com.br/diego“ instanceof=“foaf:Person“> <span property=“foaf:givenname“>Diego</span> zu Bayern?“ ... <img rel=“foaf:depiction“ src=“http://www.bild.de/xyz.jpg /> ... </div> ... </body></html>

Webseite

http://www2.diego10.com.br/diego

foaf:Person

rdf:type

Diego

foaf:givenname

http://www.bild.de/xyz.jpgfoaf:depiction

Donnerstag, 11. Juni 2009

Page 58: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Linked Data - Datenzentrierte Verarbeitung •Ziel des Semantic Web: ...to create a ,Web of Data‘

58

3. Semantische Suche3.1 Semantic Web Technologie

Donnerstag, 11. Juni 2009

Page 59: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

59

3. Semantische Suche3.1 Semantic Web Technologie

Linked Data Mashups□ Linked Data Mashups sind Web-Anwendungen, die vernetzte RDF-

Daten aus unterschiedlichen Datenquellen nutzen

□ im Gegensatz zu diversen Schnittstellen und Ergebnisformaten regulärer Web-APIs bieten vernetzte Daten (Linked Data) folgende Vorteile:

□ flexibles, standardisiertes Datenformat (RDF)□ standardisierter Zugriffsmechanismus (http)□ Möglichkeit, Verweise (Links) zwischen unterschiedlichen Datenquellen

zu setzen» ermöglicht Navigation» wird von Suchmaschinen genutzt (Crawler)» Ermöglichung expressiver Suchfunktionalität über gesammelte

Daten hinweg

S. Auer, J. Lehmann, Ch. Bizer: Semantitsche Mashups auf Basis vernetzter Daten, in T. Pellegrini, A. Blumauer (Hrsg.): Social Semantic Web, Springer, 2009.

Donnerstag, 11. Juni 2009

Page 60: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

60

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 61: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

61

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

Semantisch unterstütztes Information Retrieval• Semantische Annotationen ermöglichen eine Verbesserung der

traditionellen Schlüsselwort-basierten Suche durch

• Erweiterung / Präzisierung der Suchergebnisse

• Herleitung von impliziten Informationen

• Herstellung von Querverweisen

• Nutzung von semantischen Beziehungen zur Visualisierung und Navigation durch den Suchraum (Explorative Suche)

•Um semantische Annotationen im Information Retrieval effizient nutzen zu können, müssen diese explizit in die Indexdatenstruktur einer Suchmaschine integriert werden

Donnerstag, 11. Juni 2009

Page 62: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

62

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

Erweiterung der Suchergebnisse•Keyword-basierte Suche liefert nicht alle inhaltlich relevanten Suchergebnisse zu einer Suchphrase, da Synonyme, Metaphern und Umschreibungen den gesuchten Inhalt mit anderen Termen beschreiben.

•Verfeinerung/Erweiterung der ursprünglichen Suchphrase (Query Refinement)• Nutzung von Wörterbüchern und Thesauri

• Synonyme, Ober- und Unterbegriffe

• Nutzung von Domain Ontologien

• Meronyme, Holonyme, Assoziationen

Suchphrase: Bank

Mögliche Erweiterung: Bank ∨ Kreditanstalt ∨ Sparkasse ∨ ... Bank ∨ Konto ∨ Kredit ∨ ... Bank ∨ Santander ∨ Raiffeisen ∨ ...

Donnerstag, 11. Juni 2009

Page 63: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

63

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

Präzisierung der Suchergebnisse•Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante Suchergebnisse zu einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt werden.

•Verfeinerung/Erweiterung der ursprünglichen Suchphrase (Query Refinement)• Nutzung von Wörterbüchern und Thesauri

• Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren

• Nutzung von Domain Ontologien

• Meronyme, Holonyme

Suchphrase: Bank

Mögliche Erweiterung: Bank ∧ Kreditanstalt oder Bank ∧ Sitzgelegenheit oder Bank ∧ Sediment

Donnerstag, 11. Juni 2009

Page 64: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

64

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

Herleitung impliziter Information■ deduktives Reasoning

□ häufigste Form, aus explizit gespeicherten Fakten wird auf implizites Wissen geschlossen

□ Anna rdf:type Mutter .Mutter rdf:subClass Frau .Schlussfolgerung: Anna ist eine Frau

■ induktives Reasoning

□ Lernprozess, aus vorhandenem Faktenwissen werden allgemeinere Behauptungen aufgestellt

□ Anna rdf:type Frau .Anna hasChild Franz .Beate rdf:type Frau .

□ Lerne neues Konzept „Mutter“ aus positivem Beispiel (Anna) und negativem Beispiel (Beate) --> (Frau ⊓ ∃hasChild)

Donnerstag, 11. Juni 2009

Page 65: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

65

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

Herstellung von Querverweisen□ Bereitstellung von Suchergebnissen, die zwar den Suchbegriff nicht

notwendigerweise enthalten, aber mit diesem in inhaltlichem Zusammenhang stehen

□ Nutzung von Domain Ontologien

□ Nutzung von Thesauri und Kookurrenzanalysen repräsentativer Dokumentenkorpora

Suchphrase: Hemingwayermittelter Oberbegriff zu Hemingway: amerikanischer AutorAusweitung der Suche auf andere amerikanische Autoren

dbpedia:Ernest_Hemingway

dbpedia:AmericanNovelists

rdf:type

Hemingway

Instanzerkennung

dbpedia:Edgar_Allen_Poe

rdf:type

Donnerstag, 11. Juni 2009

Page 66: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Explorative Suche• Abkehr vom „Google Paradigma“

• Visualisierung von Querverbindungen zwischen

• Suchbegriffen (Ontologieebene)

• Suchergebnissen (Instanzebene)

• Ermöglicht es dem Benutzer

• Suchergebnisse „zufällig“ zu entdecken, die er eigentlich gar nicht gesucht hat (Serendipity)

• einen besseren Überblick über den Suchraum / Ergebnisraumzu gewinnen

66

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

Donnerstag, 11. Juni 2009

Page 67: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Implementierung einer explorativen Suche• Beispiel NPBibSearch

• bibliografische Suche auf ECCC(Electronic Colloquium of Computational Complexity)

67

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

(NP-Ontologie, Sack, Niedermeier, Vogel )

decision problem complexity classis a member ofhas member

can be reduced to

is weaker / stronger

is special/general variant

SAT 3-SATColorability

is a is a

NP P

NP-complete

is a is a

graph problem logic problem set problem… problem

is a is a

Donnerstag, 11. Juni 2009

Page 68: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Implementierung einer explorativen Suche• Beispiel NPBibSearch

• bibliografische Suche auf ECCC(Electronic Colloquium of Computational Complexity)

68

3. Semantische Suche3.2 Semantisch unterstütztes Information Retrieval

reducible to

reducible to

SAT

3-SAT

Colorability

CNF-SAT

2-SAT

SATSAT

Knapsack

Vertex Cover

generalization

weakerversion

Sack: NPBibSearch - an Ontology Augmented Bibliographic Search, SWAP 2005Sack, Krüger, Dom: A Knowledge Base on NP-complete Decision Problems and its Application in Bibliographic Search, XML-Tage Berlin, 2006

Donnerstag, 11. Juni 2009

Page 69: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

69

5. Explorative Suche

Donnerstag, 11. Juni 2009

Page 70: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

70

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 71: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Semantische Videoanalyse■ Ursprüngliche Metadaten enthalten

□ OCR/ICR - Textdaten

□ Textdaten aus Audio-Transkribierung

□ Low Level Deskriptoren

■ Identifiziere relevante Schlüsselwörter

□ traditionell TF/IDF, OKAPI, TF-ICF, KLD, etc.

■ Mapping der relevanten Schlüsselwörter auf Domain-Ontologie

□ Statistische Auswahl der relevanten Domain-Ontologie (Kategorisierung)

□ Manuelle Auswahl durch Autor/Ersteller

■ Instanz-Erkennung / Konzept-Erkennung

□ Disambiguierung durch Koreferenz-/Kontextanalyse, Clustering, Machine Learning, etc.

71

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 72: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Semantische Annotation • Entitätenerkennung in den textuellen Metadaten des

Grunddatenbestand

72

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

ZeitMetadaten

Metadaten

Metadaten

Metadaten Metadaten

Metadaten

Person xyOrt yz

Person xyPerson yzOrt xyzEreignis abc

semantische Metadaten(z.B. als DC-RDF / MPEG7-COMM u.a.)

Donnerstag, 11. Juni 2009

Page 73: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Semantische Annotationen• Entitätenerkennung in den textuellen Metadaten des

Grunddatenbestand

• Mapping der erkannten Entitäten gegen vorhandene Ontologien

73

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

Person xyOrt yz

Person xyPerson yzOrt xyzEreignis abc

z.B. bibliografische Daten, geografische Daten, enzyklopädische Daten, ....

Donnerstag, 11. Juni 2009

Page 74: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Semantische Annotationen• Entitätenerkennung in den textuellen Metadaten des

Grunddatenbestand

• Mapping der erkannten Entitäten gegen vorhandene Ontologien (Linked Open Data)

• Nutzung von Objektbeziehungen (object properties) innerhalb der Ontologien zur Herstellung von Querbezügen zwischen den vorhandenen textuellen Metadaten

74

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

Klasse A Klasse BstehtInBeziehungMit

Donnerstag, 11. Juni 2009

Page 75: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Semantische Annotationen• Entitätenerkennung in den textuellen Metadaten des

Grunddatenbestand

• Mapping der erkannten Entitäten gegen vorhandene Ontologien (Linked Open Data)

• Nutzung von Objektbeziehungen (object properties) innerhalb der Ontologien zur Herstellung von Querbezügen zwischen den vorhandenen textuellen Metadaten

• Nutzung der Querbezüge zur Navigation (Visualisierung) der ursprünglichen Grunddaten

75

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

Donnerstag, 11. Juni 2009

Page 76: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Explorative Suche - ein einfaches Beispiel• Suche im Grunddatenbestand nach ,Ernest Hemingway‘

• Identifikation einer Entität dbpedia:Ernest_Hemingway

• Bestimmung gleichartiger Entitäten

76

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ .dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist .

Finde weitere Ressourcen vom selben Typ, d.h.(1) finde weitere amerikanische Autoren(2) finde Ressourcen (Videos) mit weiteren amerikanischen Autoren

Donnerstag, 11. Juni 2009

Page 77: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Explorative Suche - ein einfaches Beispiel• Suche im Grunddatenbestand nach ,Ernest Hemingway‘

• Identifikation einer Entität dbpedia:Ernest_Hemingway

• Bestimmung eines geeigneten ,Properties‘

77

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ .dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist ....dbpedia:Ernest_Hemingway dbpedia:ontology/influences dbpedia:Ezra_Pound .dbpedia:Ezra_Pound rdfs:type dbpedia:class/yago/AmericanNovelist ....dbpedia:J._D._Salinger dbpedia:ontology/influences dbpedia:Ernest_Hemingway .dbpedia:J._D._Salinger rdfs:type dbpedia:class/yago/AmericanNovelist .

Donnerstag, 11. Juni 2009

Page 78: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Explorative Suche - ein einfaches Beispiel• Suche im Grunddatenbestand nach ,Ernest Hemingway‘

• Identifikation einer Entität dbpedia:Ernest_Hemingway

• Bestimmung eines geeigneten ,Properties‘

78

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ .dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist ....dbpedia:Ernest_Hemingway dbpedia:ontology/influences dbpedia:Ezra_Pound .dbpedia:Ezra_Pound rdfs:type dbpedia:class/yago/AmericanNovelist ....dbpedia:J._D._Salinger dbpedia:ontology/influences dbpedia:Ernest_Hemingway .dbpedia:J._D._Salinger rdfs:type dbpedia:class/yago/AmericanNovelist .

Donnerstag, 11. Juni 2009

Page 79: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Explorative Suche - ein einfaches Beispiel• Suche im Grunddatenbestand nach ,Ernest Hemingway‘

• Identifikation einer Entität dbpedia:Ernest_Hemingway

• Bestimmung eines geeigneten ,Properties‘

79

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ .dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist ....dbpedia:Ernest_Hemingway dbpedia:ontology/influences dbpedia:Ezra_Pound .dbpedia:Ezra_Pound rdfs:type dbpedia:class/yago/AmericanNovelist ....dbpedia:J._D._Salinger dbpedia:ontology/influences dbpedia:Ernest_Hemingway .dbpedia:J._D._Salinger rdfs:type dbpedia:class/yago/AmericanNovelist .

Donnerstag, 11. Juni 2009

Page 80: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

Explorative Suche - ein einfaches Beispiel• Suche im Grunddatenbestand nach ,Ernest Hemingway‘

• Identifikation einer Entität dbpedia:Ernest_Hemingway

• Bestimmung eines geeigneten „Properties“

• Nutzung des Properties zur Navigation/Visualisierung

• Erweitere Suche mit asoziierten Entitäten

80

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

dbpedia:ontology/influences dbpedia:ontology/influences

Ezra Pound Ernest Hemingway J.D. Salinger

Donnerstag, 11. Juni 2009

Page 81: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

81

3. Semantische Suche3.3 Semantische Suche in audiovisuellen Daten

Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.

Explore Window

Donnerstag, 11. Juni 2009

Page 82: Semantische Suche

Kolloquium: Semantische Suche, Dr. Harald Sack, HPI Potsdam

82

Semantische Suche

1. Schlüsselwort-basierte Suche

1.1 klassisches Information Retrieval

1.2 Suchmaschinen im World Wide Web

1.3 Probleme aktueller WWW-Suchmaschinen

2. Suche in Audiovisuellen Daten

2.1 allgemeine Problematik

2.2 automatisierte Videoanalyse und Metadatengewinnung

2.2 yovisto.com - Akademische Videosuche

3. Semantische Suche

3.1 Semantic Web Technologie

3.2 Semantisch unterstütztes Information Retrieval

3.3 Semantische Suche in Audiovisuellen Daten

Vielen Dank für Ihre Aufmerksamkeit !Fragen....?

Links:• HPI Homepage: http://www.hpi.uni-potsdam.de/meinel/sack.html• Yovisto: www.yovisto.com• Blogs: http://moresemantic.blogspot.com/ http://yovisto.blogspot.com/

Donnerstag, 11. Juni 2009