Download - Semantische Suche in audiovisuellen Daten
Thementag: Effiziente Erschließung digitaler MedienTHESEUS – Innovationszentrum Internet der Dienste Salzufer 6, 10587 Berlin, 20. Juni 2011
Semantische Suche in audiovisuellen Daten
Dr. Harald SackHasso-Plattner-Institut für Softwaresystemtechnik
Universität Potsdam
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
■ Das HPI wurde im Oktober 1998 im Rahmen einer Public-Private-Partnership gegründet
■ Forschung und Lehre am HPI ist dem „IT Systems Engineering“ gewidmet
■ 10 Professoren und ca. 100 Mitarbeiter in Forschung und Lehre
■ aktuell 450 Studenten in universitären Studiengängen „IT Systems Engineering“
■ CHE-Ranking 2010 sieht HPI auf Top-Rang
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
■ Research Topics
□ Semantic Web Technologies
□ Ontological Engineering
□ Information Retrieval
□ Multimedia Analysis & Retrieval
□ Social Semantic Web
□ Data/Information Visualization
■ Research Projects
Semantic Technologies & Multimedia Retrieval
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
http://projekt-mediaglobe.de/
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
http://projekt-mediaglobe.de/
■ THESEUS Forschungsprogramm: Neue internetbasierte Wissensinfrastruktur.
■ UseCase Contentus: Technologien für die Mediathek der Zukunft.
■ Projekt Mediaglobe: Effizientes Arbeiten mit Mediadaten in Medienarchiven und Rundfunkanstalten.
■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten
■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
http://projekt-mediaglobe.de/
■ THESEUS Forschungsprogramm: Neue internetbasierte Wissensinfrastruktur.
■ UseCase Contentus: Technologien für die Mediathek der Zukunft.
■ Projekt Mediaglobe: Effizientes Arbeiten mit Mediadaten in Medienarchiven und Rundfunkanstalten.
■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten
■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
http://www.yovisto.com/
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
■ Videoportal für akademische Aufzeichnungen
■ Vorlesungen
■ Konferenzen & Vorträge
■ Lehrfilme
■ über 10.000 internationale Videos zu allen wissenschaftlichen Themen
■ automatisierte Videoanalyse
■ kollaborative Annotation
■ Semantische Analyse & Annotation
■ Semantische Suche
■ Explorative Suche
http://www.yovisto.com/
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Wie findet man etwas in einem Videoarchiv?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Wie findet Google etwas in einem Video?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Wie findet man etwas in einem audiovisuellen Archiv?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
1. Schritt: Digitalisierung analoger AV-Medien Damit audiovisuelle Daten einer computer-gestützten gezielten Suche zugänglich werden, müssen sie zuerst digitalisiert werden.
Wie findet man etwas in einem audiovisuellen Archiv?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
1. Schritt: Digitalisierung analoger AV-Medien Damit audiovisuelle Daten einer computer-gestützten gezielten Suche zugänglich werden, müssen sie zuerst digitalisiert werden.
2. Schritt: VerschlagwortungDamit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen.
Wie findet man etwas in einem audiovisuellen Archiv?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Manuelle Audio-/Videoanalyse
Wie findet man etwas in einem audiovisuellen Archiv?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
automatisierte inhaltliche Erschließung audiovisueller Daten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Genre-Analyse
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Face-Detection
Genre-Analyse
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Face-Detection
Overlay-text
Genre-Analyse
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Face-Detection
Overlay-text
Logo-Detection
Genre-Analyse
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Face-Detection
Overlay-text
Logo-Detection
Genre-Analyse
Szenen-text
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Automatisierte Audio- und Videoanalyse
automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig
Face-Detection
Overlay-text
Logo-Detection
Genre-Analyse
Szenen-text{
Audio-Mining
StrukturelleAnalyse
TranskriptionSprecher-
identifikation
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
• Ergebnis: Videosegmente mit zugeordneten, zeitbezogenen Metadaten
• Metadaten setzen sich zusammen aus kombinierten Low Level / High Level Deskriptoren
• Metadaten als Basis für traditionelles und semantisches Information Retrieval
Metadata Extractiontime
Automatisierte Audio- und Videoanalyse
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
time
e.g., person xy
location yz
event abc
e.g., bibliographical data,geographical data,encyclopedic data, ..
Video Analyse /Metadaten Extraktion
Entity Recognition/ Mapping
Semantische Analyse & Annotation
Ontologien
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Was bringt ,semantische Suche‘?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Wie findet man etwas im WWW?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das „Google Dilemma“
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das „Google Dilemma“
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das „Google Dilemma“Suchvorschläge
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das „Google Dilemma“Suchvorschläge
Multimodale Ergebnisse
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das „Google Dilemma“Suchvorschläge
Multimodale Ergebnisse
Suchfacetten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das „Google Dilemma“
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das „Google Dilemma“
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“
Homonyme erschweren präzises Suchen
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“
Volkswagen Golf
Volkswagen Rabbit
大众高尔夫
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“
Synonyme erschweren vollständiges Suchen
Volkswagen Golf
Volkswagen Rabbit
大众高尔夫
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Noch ein Dilemma....Wie finde ich dieses Auto?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Noch ein Dilemma....Wie finde ich dieses Auto?
Geodätische Strukturen
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Noch ein Dilemma....Wie finde ich dieses Auto?
Buckminster Fuller
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Noch ein Dilemma....Wie finde ich dieses Auto?
Geodätische Strukturen +Buckminster Fuller +Dymaxion
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Noch ein Dilemma....Wie finde ich dieses Auto?
Buckminster FullerGeodätische Strukturen Geodätische Strukturen +Buckminster Fuller +Dymaxion
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Semantische Analyse & Annotation...
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Entity Recognition/ Mapping
Semantische Analyse & Annotation
textuelleMetadaten
Wissens-repräsentation
Entität A
unstrukturierteMetadaten
Low Level /High Level Deskriptoren
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Entity Recognition/ Mapping
Semantische Analyse & Annotation
textuelleMetadaten
Wissens-repräsentation
Entität A
Klasse X
ist ein
unstrukturierteMetadaten
Low Level /High Level Deskriptoren
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Entity Recognition/ Mapping
Semantische Analyse & Annotation
textuelleMetadaten
Wissens-repräsentation
Entität A
Klasse X
ist ein
unstrukturierteMetadaten
Low Level /High Level Deskriptoren
ist Subklasse von
Klasse Y
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Entity Recognition/ Mapping
Semantische Analyse & Annotation
textuelleMetadaten
Wissens-repräsentation
Entität A
Klasse X
ist ein
unstrukturierteMetadaten
Low Level /High Level Deskriptoren
ist Subklasse von
Klasse Y
steht in Beziehung mit
Klasse Z
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Entity Recognition/ Mapping
Semantische Analyse & Annotation
textuelleMetadaten
Wissens-repräsentation
Entität A
Klasse X
ist ein
unstrukturierteMetadaten
Low Level /High Level Deskriptoren
ist Subklasse von
Klasse Y
steht in Beziehung mit
Klasse Z
ist ein
Entität B
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Entity Recognition/ Mapping
Semantische Analyse & Annotation
textuelleMetadaten
Wissens-repräsentation
Entität A
Klasse X
ist ein
unstrukturierteMetadaten
Low Level /High Level Deskriptoren
ist Subklasse von
Klasse Y
steht in Beziehung mit
Klasse Z
ist ein
Entität B
Existiert eine Entität B, die mit Entität A in Beziehung steht?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Named Entity Recognition
• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten
• Kontextanalyse und Disambiguierung
Semantische Analyse & Annotation
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Named Entity Recognition
• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten
• Kontextanalyse und Disambiguierung
Semantische Analyse & Annotation
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Named Entity Recognition
• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten
• Kontextanalyse und Disambiguierung
Truman
Keyterm / User Tag
Semantische Analyse & Annotation
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Named Entity Recognition
• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten
• Kontextanalyse und Disambiguierung
Truman
Keyterm / User Tag
Truman Capote
Harry S. Truman
Truman, Minesota
The Truman Show
?
?
?
?
Semantic Entities
Semantische Analyse & Annotation
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
RDF graph to find relations between entities co-occurringin a text maintaining the hypothesis that disambiguationof co-occurring elements in a text can be obtained byfinding connected elements in an RDF graph [7]. In orderto regard the special compilation of non-textual data, staticand user-genrated metadata in audio-visual content our novelapproach combines the use of semantic technologies andLinked Data with linguistic methods.
III. METHOD
According to a study about structure and characteristicsof folksonomy tags [8] an average of 83% of user-generatedtags are single terms. Also, an average of 82% of thereviewed tags are nouns. Based on these study results, weignore tag practices, such as camel case (”barackObama”)and treat tags as subjects or categories describing a resource.As a tag could also be part of a group of nouns representingan entity or a name (”flying machine”,”albert einstein”) thetags stored as single words without any given order have tobe combined in term groups of two or more terms to findall appropriate entities. Hence, every tag or group of tagswithin a given context may represent a distinct entity. Theterm combination process and subsequent mapping of termsand term groups to entities are described in sect. III-B.
To disambiguate ambiguous terms we combine two meth-ods: a co-occurences analysis of the terms in the context inWikipedia articles and an analysis of the page link graph ofthe Wikipedia articles of entity candidates. The scores forboth analysis steps are calculated to a total score.
A. Context Definition
Metadata exists in a certain context and has to be inter-preted according to this context. For tags of audio-visualcontent we identified two dimensions:
• temporal dimension• user-centered dimensionIn the temporal dimension a context can be defined as the
entire video, a segment or a single timestamp in the video.The user-centered dimension classifies a context by howmany users created the concerning metadata - only tags by acertain user or all tags regardless of which user. Fig. 1 showsthe combinations of the two dimensions of contexts formetadata in audio-visual content the interpretation regardingthe significance of a context.
Audio-visual content also provides the opportunity tosupply spatial information. Thus, tags in the same regionof a video frame are considered as related to each other.In the current approach we did not consider this contextdimension.
To describe our approach we use a sample context of ourtest set (see sect. IV). This sample context is composed oftags by only one user at a certain timestamp in the video.The video containing this sample context is a presentation
Figure 1. Dimensions of context definition in audio-visual content
by Dr. Garik Israelian at the TED conference3 entitled ”Howspectroscopy could reveal alien life”4. Our sample contextconsists of the tags ”hubble”, ”spitzer”, ”carbon”, ”dioxide”,”methan”, ”co2”, and ”water”.
B. Preprocessing
Term Combination: Our combination algorithm takesall tags of a specified spatio-temporal context (at a certaintimestamp/in a certain segment of a video, of a singleURL/image and generates every possible combination of atmost three terms of the context in every possible order. Inthat way we make sure to rectify groups of single termsthat belong together. We chose to generate combinationsof three words to make sure to also hit named entitiesconsisting of more than two words, such as ”public keycryptography” or ”alberto santos dumont”. About 90% ofthe DBpedia [9] labels consist of at most three words, butless than 5% consist of 4 words. Due to these numbersand performance issues we decided to limit the number ofterms to be combined to three. Subsequently in this paperby terms we will refer to single terms as well as generatedterm groups. The number c of combinations is calcultaed byc =
�jk=1
n!(n−k)! .
For our sample context containing 7 tags and at most3 terms in a combination (j = 3), 259 combinations aregenerated.
Term Mapping: The terms then have to be mapped tosemantic entities. For our approach we use entities of theLinked Open Data Cloud [10], in particular of the DBpedia,version 3.5.1.
DBpedia provides labels for the identification of distinctentities in 92 languages. We use English and German aswell as Finnish labels, as we noticed that neither English northe German labels contain important acronyms as labels, butthe Finnish language version does. As tagging users prefer tokeep it simple and short[2], resources dealing with ”DomainName System” would rather be tagged with ”DNS” than”Domain Name System”.
After simple string matching of the terms of the contextto DBpedia URIs, the URIs are revised for redirects and
3http://www.ted.com4http://yovisto.com/play/14415
Kontextanalyse und Disambiguierung
Wie setzt sich Kontext in AV-Daten zusammen?
• Temporale Kohärenz der Metadaten
• Spatiale Kohärenz der Metadaten
• Provenienz der Metadaten
Semantische Analyse & Annotation
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
TrumanKeyterm / User Tag
Semantische Analyse & AnnotationKontextanalyse und Disambiguierung
Wie setzt sich Kontext in AV-Daten zusammen?
• Temporale Kohärenz der Metadaten
• Spatiale Kohärenz der Metadaten
• Provenienz der Metadaten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
TrumanKeyterm / User Tag
Semantische Analyse & Annotation
PotsdamEisenhower
Inauguration
Context 1
other User Metadatawithin same segment
Kontextanalyse und Disambiguierung
Wie setzt sich Kontext in AV-Daten zusammen?
• Temporale Kohärenz der Metadaten
• Spatiale Kohärenz der Metadaten
• Provenienz der Metadaten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
TrumanKeyterm / User Tag
Semantische Analyse & Annotation
PotsdamEisenhower
Inauguration
Context 1
other User Metadatawithin same segment Black&White
Indoor
Context 2
AnalyticalMetadata
within same segment
Truman becomes President
Millions mourn Roosevelt
Kontextanalyse und Disambiguierung
Wie setzt sich Kontext in AV-Daten zusammen?
• Temporale Kohärenz der Metadaten
• Spatiale Kohärenz der Metadaten
• Provenienz der Metadaten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
TrumanKeyterm / User Tag
Semantische Analyse & Annotation
PotsdamEisenhower
Inauguration
Context 1
other User Metadatawithin same segment Black&White
Indoor
Context 2
AnalyticalMetadata
within same segment
Truman becomes President
Millions mourn Roosevelt
Context 3
Authoritative Metadata
for entire videoNews Parade of 1945
This Castle newsreel shows us war-related news highlights of the year 1945.
Kontextanalyse und Disambiguierung
Wie setzt sich Kontext in AV-Daten zusammen?
• Temporale Kohärenz der Metadaten
• Spatiale Kohärenz der Metadaten
• Provenienz der Metadaten
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Kontextanalyse und Disambiguierung(1) Kookkurrenz-Analyse
PotsdamEisenhower
Inauguration
Context
Truman
basierend auf Wikipedia
Tauchen die Kontext-Terme gemeinsam in den zu disambiguierenden Artikeln auf?
?
?
?
Semantische Analyse & Annotation
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
PotsdamEisenhower
Inauguration
Context
Truman
Semantische Analyse & Annotation
Tauchen die Kontext-Terme gemeinsam in den zu disambiguierenden Artikeln auf?
Kontextanalyse und Disambiguierung(1) Kookkurrenz-Analyse
basierend auf Wikipedia
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Truman
Keyterm / User Tag
LOD Cloud
Eisenhower
InaugurationPotsdam
Context
Semantische Analyse & AnnotationKontextanalyse und Disambiguierung(2) semantische Graphanalyse
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Suchen ist nicht gleich Suchen....
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Suchen ist nicht gleich SuchenVariante 1: Der Benutzer weiß genau, was er sucht....
•Ein einfaches Beispiel:
Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Suchen ist nicht gleich SuchenVariante 1: Der Benutzer weiß genau, was er sucht....
•Ein einfaches Beispiel:
Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...
Variante 1: Der Benutzer weiß genau, was er sucht....
•Ein einfaches Beispiel:
Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Suchen ist nicht gleich Suchen
Wem die Stunde schlägt. - Ernest H E M I N G W A Y. (Stockholm usw., Bermann-Fischer Verlag, 1941) 560 S. 8“
II 1, 2506, 34548
Variante 1: Der Benutzer weiß genau, was er sucht....
•Ein einfaches Beispiel:
Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Suchen ist nicht gleich Suchen
Wem die Stunde schlägt. - Ernest H E M I N G W A Y. (Stockholm usw., Bermann-Fischer Verlag, 1941) 560 S. 8“
II 1, 2506, 34548
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Suchen ist nicht gleich SuchenVariante 2: ...was, wenn man nicht genau weiß, was man sucht?
Mir hat das Buch „Wem die Stunde schlägt“ von Ernest Hemingway gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Suchen ist nicht gleich SuchenVariante 2: ...was, wenn man nicht genau weiß, was man sucht?
Mir hat das Buch „Wem die Stunde schlägt“ von Ernest Hemingway gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Explorative Suche• Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll?
• Was, wenn der Benutzer komplexere Antworten sucht?
• Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt?
• Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt?
• ...einen Überblick gewinnen• ...,Stöbern‘ statt ,Suchen‘• ...etwas ,zufällig‘ finden• ...Serendipity
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Wie kann man eine explorative Suche realisieren?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
time
e.g., person xy
location yz
event abc
e.g., bibliographical data,geographical data,encyclopedic data, ..
Video Analyse /Metadaten Extraktion
Entity Recognition/ Mapping
Semantische Videosuche...
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Data is a precious thing and will last longer than the systems themselves. (Tim Berners-Lee) http://linkeddata.org/
The Web of Data - The Semantic Web
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
http://dbpedia.org/
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Explorative Suche
dbpedia:For_Whom_the_Bell_Tolls
Wie soll das semantischeNetzwerk um dbpedia:For_Whom_the_Bell_Tollsherum durchsucht werden?
http://dbpedia.org/page/For_Whom_the_Bell_Tolls
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia:For_Whom_the_Bell_Tolls
Vielleicht sind andereBücher desselben Autorsfür mich interessant...?
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
dbpedia-owl:author
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
dbpedia-owl:author
dbpedia-owl:author
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
dbpedia-owl:author
dbpedia-owl:author
dbpedia-owl:author
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia:For_Whom_the_Bell_Tolls
Gibt es Autoren, diein ähnlicher Weise geschrieben haben...?
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
dbpedia:Raymond_Carver
dbpedia-
owl:influenced_by
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
dbpedia:Raymond_Carver
dbpedia-
owl:influenced_by
dbpedia:Jack_Kerouac
dbpedia-
owl:influenced_by
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia-owl:author
dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls
dbpedia:Raymond_Carver
dbpedia-
owl:influenced_by
dbpedia:Jack_Kerouac
dbpedia-
owl:influenced_by
dbpedia-owl:influenced_by
dbpedia:Jerome_D._Salinger
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia:Raymond_Carver
dbpedia:Jack_Kerouac
dbpedia:Jerome_D._Salinger
und was sollte man von diesen eigentlich gelesen haben...?
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger
dbpedia-owl:notableWork
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger
dbpedia-owl:notableWork dbpedia-owl:notableWork
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger
dbpedia-owl:notableWork dbpedia-owl:notableWork dbpedia-owl:notableWork
Explorative Suche
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
...und wie sieht eine explorative Videosuche aus?
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.http://mediaglobe.yovisto.com:8080/
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011
Kontakt:Dr. Harald Sack / Jörg WaitelonisHasso-Plattner-Institut für SoftwaresystemtechnikUniversität PotsdamProf.-Dr.-Helmert-Str. 2-3D-14482 Potsdam
Homepage:http://www.hpi.uni-potsdam.de/meinel/team/sack.html
http://www.yovisto.com/
Blog: http://moresemantic.blogspot.com/
E-Mail: [email protected]
Twitter: lysander07 / biblionomicon / yovisto
Vielen Dank für
Ihre Aufmerksamkeit!