Copyright © 2010 TEMIS - All Rights Reserved Slide 1
Workshop „Text Mining“: Inhaltsanalyse von Textdaten im Publishing-Sektor
Stefan Geißler
TEMIS Deutschland GmbH
[email protected], www.temis.com,
Publishers‘ Forum, Berlin, 26./27.4.2010
Überblick
� Vortrag
• Wer ist TEMIS?
• Einige Thesen: Veränderungen im Bereich Inhalte-Anbieter/Verlage
• Analyse von Dokumenten-Inhalten: Text Mining
• Fallstudien: Anwendungen von Text Mining in der Praxis
Copyright © 2010 TEMIS - All Rights Reserved Slide 2
Praxis
� Demo
• Luxid®
• Luxid® Toolbar
� Praxis
• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)
TEMIS – Text Mining Solutions
New YorkPhiladelphia
Heidelberg
ParisGrenobleGegr. 2000
66
Copyright © 2010 TEMIS - All Rights Reserved Slide 3
Copyright © 2010 TEMIS - All Rights Reserved Slide 4
Entwicklungen im Publishing-Bereich
� Beschleunigung und Ausweitung
• Menge und Geschwindigkeit von Publikationen stark ansteigend (vgl. intensive Diskussion über Neuigkeiten auf Twitter vs. herkömmlichen Medien)
• Dagegen: Kapazität des Lesers zur Aufnahme und Berücksichtigung von Inhalten dagegen eher statisch• Zersplitterung von Wissensdomänen
Copyright © 2010 TEMIS - All Rights Reserved Slide 5
• Zersplitterung von Wissensdomänen
• Schlüsse ziehen aus Inhalten, die über mehrere Publikationen verteilt sind, wird schwieriger/wichtiger
• � vermehrter Druck, leicht zugängliche, rasch verfügbare Inhalte anzubieten
• � erhöhte Anforderungen an Durchsuchbarkeit von Inhalten (Suche immer mehr Sache des Endanwenders)
Entwicklungen im Publishing-Bereich
� Marktstruktur
• Elektronisches Publizieren senkt die Markteintritts-Barrieren ab
• � Neue Möglichkeiten für schnelle, agile Inhalte-Anbieter
• Aber: Die neuen Märkte sind tendenziell „Winner-takes-it-all“-Märkte: Wenige erfolgreiche Spieler können rasch
Copyright © 2010 TEMIS - All Rights Reserved Slide 6
it-all“-Märkte: Wenige erfolgreiche Spieler können rasch große Marktanteile erringen
• � Marktgefüge wird veränderlicher (volatiler)
Entwicklungen im Publishing-Bereich
� Neue (erhöhte) Anforderungen an Inhalte
• Rohe Inhalte immer häufiger frei verfügbar �Mehrwert-Inhalte sind gefordert
• Nutzungsverhalten geht vom linearen Lesen zum Navigieren in Netzen � Inhalte verlinken!
Copyright © 2010 TEMIS - All Rights Reserved Slide 7
„Kleinste publizierbare Einheit“?
� Für wissenschaftliche Autoren
• (augenzwinkernd), Tendenz, der Ökonomie des Wissenschaftsbetriebs folgend, Veröffentlichungen auch für kleinste Erkenntnisfortschritte zu verfassen
• „publish or perish!“
Copyright © 2010 TEMIS - All Rights Reserved Slide 8
� Für Verlage?
• In welcher Form können Inhalte gepackt und verkauft werden?
• Welchen Einfluss haben elektronisch verfügbare Texte und neue Technologien auf diese Frage?
Publizierbare Einheiten
Um 1500: Buch
19. Jh.: Journal
Spätes 20 Jh.: einzelner Artikel
Copyright © 2010 TEMIS - All Rights Reserved Slide 9
Spätes 20 Jh.: einzelner Artikel „paper“
Heute: spezifische automatisch extrahierte Fakten, „Antworten“
Hypothesen
� Der Übergang vom traditionellen Papier-basierten Publizieren in die elektronische Welt hat kaum zu überschätzende Folgen für die Produktion und Nutzung von Inhalten
� Diese Entwicklung wird neben dem Publizieren von herkömmlichen Dokumenten vermehrt die Erzeugung
Copyright © 2010 TEMIS - All Rights Reserved Slide 10
herkömmlichen Dokumenten vermehrt die Erzeugung und Vermarktung von strukturiertem Wissen (neben Artikeln und Büchern) hervorbringen
� Die hierfür nötigen Produktionsprozesse haben ihre eigenen Anforderungen an die eingesetzten Verfahren und Werkzeuge
Text Mining
Von der Zeichenkettensuche …
Copyright © 2010 TEMIS - All Rights Reserved Slide 11
(einfache Erkennung von Zeichenketten)…
Erweiterte Suche
… zu semantischer Konzeptsuche
Copyright © 2010 TEMIS - All Rights Reserved Slide 12
• Umfassendere, offene Suche• Relevantere Treffer• Suche ohne Notwendigkeit, den Suchgegenstand exakt formulieren zu können
Vorteile
für den
Nutzer
Erweiterte Suche
Copyright © 2010 TEMIS - All Rights Reserved Slide 13
• Visualisierung von Teilinformationen• Aufdecken von Zusammenhängen• Navigation auf automatisch erzeugten Strukturen
Vorteile
für Nutzer
Title: Google gives drivers a hand at the gas pumps
Source: InformationWeekAuthor: Antone GonsalvesDate: November 7, 2007
Metadata
Text Mining
Copyright © 2010 TEMIS - All Rights Reserved Slide 14
Entities
Facts
Text Mining
T-Mobile HTC
Qualcomm Motorola
Lucy Sackett
Persons
Gilbarco Veeder-Root
Companies
InformationWeek
Sackett
Gilbarco
Entities
Metadata
Copyright © 2010 TEMIS - All Rights Reserved Slide 15
Linux
United States
Open-source …
Atlanta
Locations
National Association of Conveni…
Organizations
Lucy Sackett
Internet
Technologies
Sackett
Facts
Product
New Service Google Service
Text Mining
Launch
Gilbarco New service
Announcement
Sackett InformationWeek
Entities
Facts
Metadata
Announcement
Who: GilbarcoWhom: unknownWhat: New ServiceWhen: unknown
Who: GilbarcoWhat: Google ServiceWhen: early next week
Launch
Who: SackettWhom: InformationWeekWhen: unknownWhat: unknown
Copyright © 2010 TEMIS - All Rights Reserved Slide 16
Gilbarco Google Service
Partnership
Gilbarco Google
Function
Sackett Gilbarco
Alliance
Google HTC
Qualcomm
Motorola
T-Mobile
Who: SackettCompany: GilbarcoFunction: spoke woman
Function
Who: GilbarcoWith whom: GoogleWhen; unknownState: Negative
Partnership
Who: GoogleWith whom: T-Mobile, HTC, Qualcom, MotorolaWhen: unknown
Alliance
Announcement
Fallstudien
� Angereicherte Inhalte („semantically enriched“):
• Springer: Ähnliche Dokumente & Verlinkung mit weiterführender Literatur
• Nature: Domänen-spezifische Annotation
• AFP: Kategorisierung von Nachrichten-Texte
Copyright © 2010 TEMIS - All Rights Reserved Slide 17
� Neue, abgeleitete Arten von Inhalten
• Lexis Nexis: Juristische Fakten strukturiert mit Domänen-Ontologie und automatischer Extraktion
• Current BioData: Abgeleitete Datenbanken mit strukturierten Fakten
Springer Science + Business Media
� Ziel• Automatisches Verlinken von zentralen Begriffen eines Dokuments mit weiterführender, erläuternder Literatur
• Automatische Identifikation von “ähnlichen Inhalten” über Journal- und Fachgrenzen hinweg
� Lösung• Indexierung neuer Inhalte mit strukturiertem
Copyright © 2010 TEMIS - All Rights Reserved Slide 18
• Indexierung neuer Inhalte mit strukturiertem Vokabular, automatische Normalisierung von Varianten (Flexion, syntaktische Varianten) und Verlinkung mit Definitionen o.ä.
• Erzeugung eines “semantischen Fingerabdrucks” des Dokuments (ohne redaktionellen Aufwand zur Pflege von Terminologien etc.)
• Integration in SpringerLink Portal-Umgebung
� Nutzen• Reichere Leseerfahrung für die Nutzer• Maßgeschneiderte Verweise / erhöhte Mediennutzung
Springer Science + Business Media
Automatische Erkennung der Verwandtschaft zwischen Texten über klimatische Effekte großer Vulkaneruptionen …
Copyright © 2010 TEMIS - All Rights Reserved Slide 19
… und in Brand geschossenen Ölquellen bei kriegerischen Auseinandersetzungen. Zusammenhänge über Journal- und Fach-grenzen hinweg und ohne manuelles Zutun.
Nature
� Ziel• Raschere Entwicklung neuer Onlineprodukte
• Erzeugung von Mehrwert durch automatische Auszeichnung von wissenschaftlichen Inhalten (Chemie, Biologie & Medizin)
� Lösung• Luxid® mit entsprechenden Domänen-spezifischen Skill Cartridges™
Copyright © 2010 TEMIS - All Rights Reserved Slide 20
• Luxid® mit entsprechenden Domänen-spezifischen Skill Cartridges™
� Nutzen• Reichhaltigere Leseerfahrung
• Rasche Erstellung von
themenspezifischen “Microsites”
Nature
Copyright © 2010 TEMIS - All Rights Reserved Slide 21
Agence France Press
� Ziel:
• Aufbau einer neuen B2B Plattform mit semantisch angereichertem Retrieval
� Lösung:
• TEMIS Luxid® Content Enrichment annotiert Personennamen, Orte, Firmen, IPTC codes, …
Integration mit Semantic Web Technologien: Ontologie
Copyright © 2010 TEMIS - All Rights Reserved Slide 22
• Integration mit Semantic Web Technologien: Ontologie Management und entsprechendem Suchzugriff
� Nutzen:
• Einheitlicher Zugang zu AFP Inhalten verschiedener Formate (Text, Audio, Video, …)
• Infrastruktur für mehr als 10 Mio. Artikel/Jahr in sechs Sprachen
Agence France Press
Copyright © 2010 TEMIS - All Rights Reserved Slide 23
Lexis Nexis
� Erhöhung von Qualität/Konsistenz und Effizienz bei existierenden Produkten
� Neue Angebote
• Verbesserte Suche beim Zugriff auf juristische Informationen
• “Faceted navigation”
Copyright © 2010 TEMIS - All Rights Reserved Slide 24
• “Faceted navigation”
• Anwendungsspezifische Taxonomien und Ontologien
• Inhalte werden in ihrem ontologischen Kontext präsentiert und suchbar gemacht
• Integration in Zugangsplattform
� Allgemein: Elektronisches Publizieren “On Demand”, weitreichende Unterstützung von zuvor zeitaufwändigen Arbeitsabläufen
Lexis Nexis
Copyright © 2010 TEMIS - All Rights Reserved Slide 25
Current BioData: Anbieter von strukturiertem Faktenwissen
� Ziel
• Automatisierung der Erzeugung von semantisch angereicherter Information aus Primärliteratur
• Indexing mit Domänen-spezifischen Entitäten und Beziehungen (Proteine, Gene, Krankheiten, Gewebetypen, etc.)
� Lösung
Copyright © 2010 TEMIS - All Rights Reserved Slide 26
� Lösung
• Informationsextraktion, Kategorisierung und Weiterleitung mit TEMIS Luxid® und spezifischen “Skill Cartridges™” in Biologie (BER), Medizin (MER), Chemie (CER)
� Nutzen
• Erhebliche Kostensenkungen bei Datensammlung und –analyse
• Skalierbarkeit der eigenen Angebote
Fazit
� Automatische Verfahren der Textanalyse sind von zentraler Bedeutung bei der Verwaltung großer Textmengen
� … sind heute vielfach im produktiven Einsatz
� … erlauben die rasche Erstellung neuer, spezifischer Produkte auch für Nischenmärkte
� … erlauben die Mehrfachverwertung von Inhalten in neuen Formen
Copyright © 2010 TEMIS - All Rights Reserved Slide 27
… erlauben die Mehrfachverwertung von Inhalten in neuen Formen
Überblick
� Vortrag
� Demo
• Luxid®
• Luxid® Toolbar
� Praxis
Copyright © 2010 TEMIS - All Rights Reserved Slide 28
• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)
Luxid® Content Enrichment Platform
� Luxid = Webbasierte Plattform, TEMIS Software Produkt
• Extraktion relevanter Informationen (Terme, Entitäten, Relationen…)
• Einsatz von (allgemeinen oder spezifischen) “Skill Cartridges™”
� Entsprechend angepasstes GUI zur Navigation
• Suche, Navigation, Analyse, Reportgenerierung, …
• Einsatz von geeigneten Visualisierungswerkzeugen
� Reiche Infrastruktur:
• Skalierbarkeit, Standards (XML, UIMA, …), Monitoring/Auditing,
Copyright © 2010 TEMIS - All Rights Reserved Slide 29
• Skalierbarkeit, Standards (XML, UIMA, …), Monitoring/Auditing, Dokumentation, Konnektoren, …
Luxid® Annotation Factory
Luxid®Repository
Luxid® Information Analytics
EndbenutzerRedaktion/Suchexperten
Luxid® Content Enrichment Platform
Demo
Copyright © 2010 TEMIS - All Rights Reserved Slide 30
Demo
Luxid vs. Luxid Toolbar
� Luxid
• Vielseitige Such- und Analyseplattform
• Für den nur gelegentlichen Nutzer ist oft ein einfacherer Zugang erwünscht
� Luxid Toolbar
Copyright © 2010 TEMIS - All Rights Reserved Slide 31
Luxid Toolbar
• Zugriff auf Luxid Analysen aus dem Webbrowser
• Annotierung von Web-Inhalten oder eigenen Dokumenten
• Verlinkung zu weiterführenden Inhalten
• Zusammenfassungen
Luxid® Toolbar
Copyright © 2010 TEMIS - All Rights Reserved Slide 32
Luxid® Toolbar
Demo
Copyright © 2010 TEMIS - All Rights Reserved Slide 33
Demo
Überblick
� Vortrag
� Demo
• Luxid®
• Luxid® Toolbar
� Praxis
Copyright © 2010 TEMIS - All Rights Reserved Slide 34
• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)
“Skill Cartridges™”
� Analysekomponenten: Was wird indexiert?
• Personen? Orte? Firmen? Krankheiten? Firmenübernahmen? Kritik? Lob? Firmen- oder Branchen-spezifische Terminologien, …
� Skill Cartridges™ sind
• Kombinationen aus lexikalischem Wissen (Terminologien/Thesauri) und Regeln
� Skill Cartridges™ sind
• TEMIS Produkte: direkt verfügbar, generisch
Copyright © 2010 TEMIS - All Rights Reserved Slide 35
• TEMIS Produkte: direkt verfügbar, generisch
• … oder Projekt-spezifisch: Erstellung nach Bedarf
� Erstellung?
• Durch TEMIS
• … oder durch Partner/Kunden nach Schulung und mit Nutzung geeignetere Entwicklungswerkzeuge
Skill Cartridge™ Entwicklungswerkzeuge
� Skill Cartridge Manager
• Eclipse-basierte integrierte Entwicklungsumgebung
• Syntax-Unterstützung, Compiler-Anbindung, Fehlermeldungen, klick/drag-and-drop-basierte Entwicklung
Copyright © 2010 TEMIS - All Rights Reserved Slide 36
� Knowledge Manager
• Vereinfachter Import von lexikalischem / terminologischem Wissen in Skill Cartridges
Praxis: Skill Cartridge Interna
� Statt eines Tutorials: Drei kleine Beispiels-Skill Cartridges
• Verwendung von linguistischer Information • SC „Elements“: Part of speech tags helfen bei Disambiguierung
• Modularer Aufbau komplexerer Skill Cartridges • SC „Mergers and Acquisitions“: Skill Cartridges im Baukastenprinzip
• Spezifische Herausforderungen
Copyright © 2010 TEMIS - All Rights Reserved Slide 37
• Spezifische Herausforderungen• SC „Coordination“: Das schwierige Wörtchen „und“
� Bottom-line
• Skill Cartridges sind ein mächtiger und vielfach eingesetzter Rahmen für komplexe Indexierungs- und Extraktionsaufgaben
• Keine Black-box: Nach entsprechender Einweisung sind eigene SCs auch durch Anwender/Kunden zu erstellen
Skill Cartridges™ Praxisteil
Praxis
Copyright © 2010 TEMIS - All Rights Reserved Slide 38
Praxis
Vielen Dank für Ihre Aufmerksamkeit!
Fragen?
Copyright © 2010 TEMIS - All Rights Reserved Slide 39
Vielen Dank für Ihre Aufmerksamkeit!
Fragen?