themen- und trenderkennung in agenturmeldungen
DESCRIPTION
Vortrag beim #LSWT2013 zum Thema Themen- und Trenderkennung in Meldungen von NAchrichtenagenturen - Der Vortrag umreißt den aktuellen Stand des Forschungsprojekts Topic/S http://aksw.org/Events/2013/LeipzigerSemanticWebTag/Kerntag.html http://topic-s.de/TRANSCRIPT
![Page 1: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/1.jpg)
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Martin Voigt, Michael Aleythe, Peter Wehner
![Page 2: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/2.jpg)
Wer sind wir?
fink & PARTNER Media Services GmbH
Medien Management für Verlage
Einige Kunde
Lehrstuhl für Multimedia Technologie, TU Dresden
Forschungsfelder
Adaptive, komposite Rich Internet Applications Semantisches Document Life Cycle Management
Friday, 14.06.2013 Topic/S Slide 1
![Page 3: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/3.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 2
![Page 4: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/4.jpg)
Motivation
Newsroom
Montag, 23.09.2013 Topic/S @ LSWT Slide 3
Quelle: ringier.com
![Page 5: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/5.jpg)
Problem
Überwältigende Datenmenge für den Redakteur
z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)
Montag, 23.09.2013 Topic/S @ LSWT
DPA
Reuters
KNA
Blogs
…
Nachrichtenagenturen Web, Social Media
…
In-house Produktion
Archive
Online
Slide 4
![Page 6: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/6.jpg)
Vision
Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)
Identifikation von Thementrends
Information-Push statt Pull
Montag, 23.09.2013 Topic/S @ LSWT Slide 5
![Page 7: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/7.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 6
![Page 8: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/8.jpg)
Workflow
Montag, 23.09.2013 Topic/S @ LSWT Slide 7
Mehr in [Voigt2013]
![Page 9: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/9.jpg)
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Slide 8
Source: onelanguageoneposter.com
Agentur Genauigkeit
KNA 80,3 %
DPA 94,4 %
EPD 80,3 %
Reuters 90,8 %
OTS 93,5 %
AFP 86 %
![Page 10: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/10.jpg)
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Named Entity Recognition Wortlisten- & Statistik-basiert
Disambiguierung interne & externe Datenbasis
Slide 9
Source: onelanguageoneposter.com
![Page 11: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/11.jpg)
Semantisches Model
Montag, 23.09.2013 Topic/S @ LSWT Slide 10
Media SemItemMatch SemItem
Quellen: freemake.com, samepage.io, free-vectors.com, trendwatching.com, viamusical.de
![Page 12: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/12.jpg)
Semantische Fakten Keine Wortlisten für NER! preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller Namen: Rene Muller, Rene Müller, René Muller, René Müller
Triples ohne SemItems: 31,3 Mio.
Montag, 23.09.2013 Topic/S @ LSWT Slide 11
SemItem Anzahl (alternative Namen)
Person 1.504.341 (2.499.962)
Organization 63.332 (98.127)
Place 89.702 (95.178)
Keyword 1351
![Page 13: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/13.jpg)
Speicherung
Oracle 11gR2 Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Einsatz
Integrierte Anfrage an relationale und semantische Daten
Cons
Inferenz
Unvollständiger SPARQL 1.1 Support
Einsatz von eigenen Regeln kaum möglich
Montag, 23.09.2013 Topic/S @ LSWT Slide 12
Quelle: musingmonika.com
![Page 14: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/14.jpg)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Clustering hierarchisches, agglomeratives Verfahren
Grundlage: Artikel und deren Entitäten
Eigenimplementierung aufgrund spezieller Herausforderungen
Ausführung und Zusammenfassung im Intervall Trend
Slide 13
![Page 15: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/15.jpg)
Top-Cluster (vom 19.09.2013)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Artikel 5 wichtigsten SemItems HotTopic
68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein
52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja
44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD
Ja
32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA
Ja
28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja
26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja
22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja
18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja
15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja
Slide 14
![Page 16: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/16.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 15
![Page 17: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/17.jpg)
Live Demo
Montag, 23.09.2013 Topic/S @ LSWT Slide 16
![Page 18: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/18.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 17
![Page 19: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/19.jpg)
Sum it up! Ergebnis Themenerkennung und Präsentation
gegenüber dem Redakteur Lessons learned NER: Schlecht für Non-English,
Kombination notwendig Stete Modeloptimierung hinsichtlich
der Anfragen Spezielle UI notwendig Mögliche, nächste Schritte „Vorhersage“ von Themen aufgrund
von kausalen und temporalen Beziehungen
Montag, 23.09.2013 Topic/S @ LSWT Slide 18
Quelle: ooltapulta.com
http://www.w3.org/community/swisig/
![Page 20: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/20.jpg)
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Danke! Fragen?
http://topic-s.de/
![Page 21: Themen- und Trenderkennung in Agenturmeldungen](https://reader033.vdocuments.site/reader033/viewer/2022060201/559a67661a28abe1348b463a/html5/thumbnails/21.jpg)
Quellen [Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012
[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013
Montag, 23.09.2013 Topic/S @ LSWT Slide 20