workshop „text mining“: inhaltsanalyse von textdaten im...

39
Copyright © 2010 TEMIS - All Rights Reserved Slide 1 Workshop „Text Mining“: Inhaltsanalyse von Textdaten im Publishing-Sektor Stefan Geißler TEMIS Deutschland GmbH [email protected] , www.temis.com , Publishers‘ Forum, Berlin, 26./27.4.2010

Upload: others

Post on 17-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Copyright © 2010 TEMIS - All Rights Reserved Slide 1

Workshop „Text Mining“: Inhaltsanalyse von Textdaten im Publishing-Sektor

Stefan Geißler

TEMIS Deutschland GmbH

[email protected], www.temis.com,

Publishers‘ Forum, Berlin, 26./27.4.2010

Page 2: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Überblick

� Vortrag

• Wer ist TEMIS?

• Einige Thesen: Veränderungen im Bereich Inhalte-Anbieter/Verlage

• Analyse von Dokumenten-Inhalten: Text Mining

• Fallstudien: Anwendungen von Text Mining in der Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 2

Praxis

� Demo

• Luxid®

• Luxid® Toolbar

� Praxis

• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)

Page 3: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

TEMIS – Text Mining Solutions

New YorkPhiladelphia

Heidelberg

ParisGrenobleGegr. 2000

66

Copyright © 2010 TEMIS - All Rights Reserved Slide 3

Page 4: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Copyright © 2010 TEMIS - All Rights Reserved Slide 4

Page 5: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Entwicklungen im Publishing-Bereich

� Beschleunigung und Ausweitung

• Menge und Geschwindigkeit von Publikationen stark ansteigend (vgl. intensive Diskussion über Neuigkeiten auf Twitter vs. herkömmlichen Medien)

• Dagegen: Kapazität des Lesers zur Aufnahme und Berücksichtigung von Inhalten dagegen eher statisch• Zersplitterung von Wissensdomänen

Copyright © 2010 TEMIS - All Rights Reserved Slide 5

• Zersplitterung von Wissensdomänen

• Schlüsse ziehen aus Inhalten, die über mehrere Publikationen verteilt sind, wird schwieriger/wichtiger

• � vermehrter Druck, leicht zugängliche, rasch verfügbare Inhalte anzubieten

• � erhöhte Anforderungen an Durchsuchbarkeit von Inhalten (Suche immer mehr Sache des Endanwenders)

Page 6: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Entwicklungen im Publishing-Bereich

� Marktstruktur

• Elektronisches Publizieren senkt die Markteintritts-Barrieren ab

• � Neue Möglichkeiten für schnelle, agile Inhalte-Anbieter

• Aber: Die neuen Märkte sind tendenziell „Winner-takes-it-all“-Märkte: Wenige erfolgreiche Spieler können rasch

Copyright © 2010 TEMIS - All Rights Reserved Slide 6

it-all“-Märkte: Wenige erfolgreiche Spieler können rasch große Marktanteile erringen

• � Marktgefüge wird veränderlicher (volatiler)

Page 7: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Entwicklungen im Publishing-Bereich

� Neue (erhöhte) Anforderungen an Inhalte

• Rohe Inhalte immer häufiger frei verfügbar �Mehrwert-Inhalte sind gefordert

• Nutzungsverhalten geht vom linearen Lesen zum Navigieren in Netzen � Inhalte verlinken!

Copyright © 2010 TEMIS - All Rights Reserved Slide 7

Page 8: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

„Kleinste publizierbare Einheit“?

� Für wissenschaftliche Autoren

• (augenzwinkernd), Tendenz, der Ökonomie des Wissenschaftsbetriebs folgend, Veröffentlichungen auch für kleinste Erkenntnisfortschritte zu verfassen

• „publish or perish!“

Copyright © 2010 TEMIS - All Rights Reserved Slide 8

� Für Verlage?

• In welcher Form können Inhalte gepackt und verkauft werden?

• Welchen Einfluss haben elektronisch verfügbare Texte und neue Technologien auf diese Frage?

Page 9: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Publizierbare Einheiten

Um 1500: Buch

19. Jh.: Journal

Spätes 20 Jh.: einzelner Artikel

Copyright © 2010 TEMIS - All Rights Reserved Slide 9

Spätes 20 Jh.: einzelner Artikel „paper“

Heute: spezifische automatisch extrahierte Fakten, „Antworten“

Page 10: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Hypothesen

� Der Übergang vom traditionellen Papier-basierten Publizieren in die elektronische Welt hat kaum zu überschätzende Folgen für die Produktion und Nutzung von Inhalten

� Diese Entwicklung wird neben dem Publizieren von herkömmlichen Dokumenten vermehrt die Erzeugung

Copyright © 2010 TEMIS - All Rights Reserved Slide 10

herkömmlichen Dokumenten vermehrt die Erzeugung und Vermarktung von strukturiertem Wissen (neben Artikeln und Büchern) hervorbringen

� Die hierfür nötigen Produktionsprozesse haben ihre eigenen Anforderungen an die eingesetzten Verfahren und Werkzeuge

Page 11: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Text Mining

Von der Zeichenkettensuche …

Copyright © 2010 TEMIS - All Rights Reserved Slide 11

(einfache Erkennung von Zeichenketten)…

Page 12: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Erweiterte Suche

… zu semantischer Konzeptsuche

Copyright © 2010 TEMIS - All Rights Reserved Slide 12

• Umfassendere, offene Suche• Relevantere Treffer• Suche ohne Notwendigkeit, den Suchgegenstand exakt formulieren zu können

Vorteile

für den

Nutzer

Page 13: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Erweiterte Suche

Copyright © 2010 TEMIS - All Rights Reserved Slide 13

• Visualisierung von Teilinformationen• Aufdecken von Zusammenhängen• Navigation auf automatisch erzeugten Strukturen

Vorteile

für Nutzer

Page 14: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Title: Google gives drivers a hand at the gas pumps

Source: InformationWeekAuthor: Antone GonsalvesDate: November 7, 2007

Metadata

Text Mining

Copyright © 2010 TEMIS - All Rights Reserved Slide 14

Entities

Facts

Page 15: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Text Mining

Google

T-Mobile HTC

Qualcomm Motorola

Lucy Sackett

Persons

Gilbarco Veeder-Root

Companies

InformationWeek

Sackett

Gilbarco

Entities

Metadata

Copyright © 2010 TEMIS - All Rights Reserved Slide 15

Linux

United States

Open-source …

Atlanta

Locations

National Association of Conveni…

Organizations

Lucy Sackett

Internet

Technologies

Sackett

Facts

Product

New Service Google Service

Page 16: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Text Mining

Launch

Gilbarco New service

Announcement

Sackett InformationWeek

Entities

Facts

Metadata

Announcement

Who: GilbarcoWhom: unknownWhat: New ServiceWhen: unknown

Who: GilbarcoWhat: Google ServiceWhen: early next week

Launch

Who: SackettWhom: InformationWeekWhen: unknownWhat: unknown

Copyright © 2010 TEMIS - All Rights Reserved Slide 16

Gilbarco Google Service

Partnership

Gilbarco Google

Function

Sackett Gilbarco

Alliance

Google HTC

Qualcomm

Motorola

T-Mobile

Who: SackettCompany: GilbarcoFunction: spoke woman

Function

Who: GilbarcoWith whom: GoogleWhen; unknownState: Negative

Partnership

Who: GoogleWith whom: T-Mobile, HTC, Qualcom, MotorolaWhen: unknown

Alliance

Announcement

Page 17: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Fallstudien

� Angereicherte Inhalte („semantically enriched“):

• Springer: Ähnliche Dokumente & Verlinkung mit weiterführender Literatur

• Nature: Domänen-spezifische Annotation

• AFP: Kategorisierung von Nachrichten-Texte

Copyright © 2010 TEMIS - All Rights Reserved Slide 17

� Neue, abgeleitete Arten von Inhalten

• Lexis Nexis: Juristische Fakten strukturiert mit Domänen-Ontologie und automatischer Extraktion

• Current BioData: Abgeleitete Datenbanken mit strukturierten Fakten

Page 18: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Springer Science + Business Media

� Ziel• Automatisches Verlinken von zentralen Begriffen eines Dokuments mit weiterführender, erläuternder Literatur

• Automatische Identifikation von “ähnlichen Inhalten” über Journal- und Fachgrenzen hinweg

� Lösung• Indexierung neuer Inhalte mit strukturiertem

Copyright © 2010 TEMIS - All Rights Reserved Slide 18

• Indexierung neuer Inhalte mit strukturiertem Vokabular, automatische Normalisierung von Varianten (Flexion, syntaktische Varianten) und Verlinkung mit Definitionen o.ä.

• Erzeugung eines “semantischen Fingerabdrucks” des Dokuments (ohne redaktionellen Aufwand zur Pflege von Terminologien etc.)

• Integration in SpringerLink Portal-Umgebung

� Nutzen• Reichere Leseerfahrung für die Nutzer• Maßgeschneiderte Verweise / erhöhte Mediennutzung

Page 19: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Springer Science + Business Media

Automatische Erkennung der Verwandtschaft zwischen Texten über klimatische Effekte großer Vulkaneruptionen …

Copyright © 2010 TEMIS - All Rights Reserved Slide 19

… und in Brand geschossenen Ölquellen bei kriegerischen Auseinandersetzungen. Zusammenhänge über Journal- und Fach-grenzen hinweg und ohne manuelles Zutun.

Page 20: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Nature

� Ziel• Raschere Entwicklung neuer Onlineprodukte

• Erzeugung von Mehrwert durch automatische Auszeichnung von wissenschaftlichen Inhalten (Chemie, Biologie & Medizin)

� Lösung• Luxid® mit entsprechenden Domänen-spezifischen Skill Cartridges™

Copyright © 2010 TEMIS - All Rights Reserved Slide 20

• Luxid® mit entsprechenden Domänen-spezifischen Skill Cartridges™

� Nutzen• Reichhaltigere Leseerfahrung

• Rasche Erstellung von

themenspezifischen “Microsites”

Page 21: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Nature

Copyright © 2010 TEMIS - All Rights Reserved Slide 21

Page 22: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Agence France Press

� Ziel:

• Aufbau einer neuen B2B Plattform mit semantisch angereichertem Retrieval

� Lösung:

• TEMIS Luxid® Content Enrichment annotiert Personennamen, Orte, Firmen, IPTC codes, …

Integration mit Semantic Web Technologien: Ontologie

Copyright © 2010 TEMIS - All Rights Reserved Slide 22

• Integration mit Semantic Web Technologien: Ontologie Management und entsprechendem Suchzugriff

� Nutzen:

• Einheitlicher Zugang zu AFP Inhalten verschiedener Formate (Text, Audio, Video, …)

• Infrastruktur für mehr als 10 Mio. Artikel/Jahr in sechs Sprachen

Page 23: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Agence France Press

Copyright © 2010 TEMIS - All Rights Reserved Slide 23

Page 24: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Lexis Nexis

� Erhöhung von Qualität/Konsistenz und Effizienz bei existierenden Produkten

� Neue Angebote

• Verbesserte Suche beim Zugriff auf juristische Informationen

• “Faceted navigation”

Copyright © 2010 TEMIS - All Rights Reserved Slide 24

• “Faceted navigation”

• Anwendungsspezifische Taxonomien und Ontologien

• Inhalte werden in ihrem ontologischen Kontext präsentiert und suchbar gemacht

• Integration in Zugangsplattform

� Allgemein: Elektronisches Publizieren “On Demand”, weitreichende Unterstützung von zuvor zeitaufwändigen Arbeitsabläufen

Page 25: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Lexis Nexis

Copyright © 2010 TEMIS - All Rights Reserved Slide 25

Page 26: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Current BioData: Anbieter von strukturiertem Faktenwissen

� Ziel

• Automatisierung der Erzeugung von semantisch angereicherter Information aus Primärliteratur

• Indexing mit Domänen-spezifischen Entitäten und Beziehungen (Proteine, Gene, Krankheiten, Gewebetypen, etc.)

� Lösung

Copyright © 2010 TEMIS - All Rights Reserved Slide 26

� Lösung

• Informationsextraktion, Kategorisierung und Weiterleitung mit TEMIS Luxid® und spezifischen “Skill Cartridges™” in Biologie (BER), Medizin (MER), Chemie (CER)

� Nutzen

• Erhebliche Kostensenkungen bei Datensammlung und –analyse

• Skalierbarkeit der eigenen Angebote

Page 27: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Fazit

� Automatische Verfahren der Textanalyse sind von zentraler Bedeutung bei der Verwaltung großer Textmengen

� … sind heute vielfach im produktiven Einsatz

� … erlauben die rasche Erstellung neuer, spezifischer Produkte auch für Nischenmärkte

� … erlauben die Mehrfachverwertung von Inhalten in neuen Formen

Copyright © 2010 TEMIS - All Rights Reserved Slide 27

… erlauben die Mehrfachverwertung von Inhalten in neuen Formen

Page 28: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Überblick

� Vortrag

� Demo

• Luxid®

• Luxid® Toolbar

� Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 28

• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)

Page 29: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Luxid® Content Enrichment Platform

� Luxid = Webbasierte Plattform, TEMIS Software Produkt

• Extraktion relevanter Informationen (Terme, Entitäten, Relationen…)

• Einsatz von (allgemeinen oder spezifischen) “Skill Cartridges™”

� Entsprechend angepasstes GUI zur Navigation

• Suche, Navigation, Analyse, Reportgenerierung, …

• Einsatz von geeigneten Visualisierungswerkzeugen

� Reiche Infrastruktur:

• Skalierbarkeit, Standards (XML, UIMA, …), Monitoring/Auditing,

Copyright © 2010 TEMIS - All Rights Reserved Slide 29

• Skalierbarkeit, Standards (XML, UIMA, …), Monitoring/Auditing, Dokumentation, Konnektoren, …

Luxid® Annotation Factory

Luxid®Repository

Luxid® Information Analytics

EndbenutzerRedaktion/Suchexperten

Page 30: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Luxid® Content Enrichment Platform

Demo

Copyright © 2010 TEMIS - All Rights Reserved Slide 30

Demo

Page 31: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Luxid vs. Luxid Toolbar

� Luxid

• Vielseitige Such- und Analyseplattform

• Für den nur gelegentlichen Nutzer ist oft ein einfacherer Zugang erwünscht

� Luxid Toolbar

Copyright © 2010 TEMIS - All Rights Reserved Slide 31

Luxid Toolbar

• Zugriff auf Luxid Analysen aus dem Webbrowser

• Annotierung von Web-Inhalten oder eigenen Dokumenten

• Verlinkung zu weiterführenden Inhalten

• Zusammenfassungen

Page 32: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Luxid® Toolbar

Copyright © 2010 TEMIS - All Rights Reserved Slide 32

Page 33: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Luxid® Toolbar

Demo

Copyright © 2010 TEMIS - All Rights Reserved Slide 33

Demo

Page 34: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Überblick

� Vortrag

� Demo

• Luxid®

• Luxid® Toolbar

� Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 34

• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)

Page 35: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

“Skill Cartridges™”

� Analysekomponenten: Was wird indexiert?

• Personen? Orte? Firmen? Krankheiten? Firmenübernahmen? Kritik? Lob? Firmen- oder Branchen-spezifische Terminologien, …

� Skill Cartridges™ sind

• Kombinationen aus lexikalischem Wissen (Terminologien/Thesauri) und Regeln

� Skill Cartridges™ sind

• TEMIS Produkte: direkt verfügbar, generisch

Copyright © 2010 TEMIS - All Rights Reserved Slide 35

• TEMIS Produkte: direkt verfügbar, generisch

• … oder Projekt-spezifisch: Erstellung nach Bedarf

� Erstellung?

• Durch TEMIS

• … oder durch Partner/Kunden nach Schulung und mit Nutzung geeignetere Entwicklungswerkzeuge

Page 36: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Skill Cartridge™ Entwicklungswerkzeuge

� Skill Cartridge Manager

• Eclipse-basierte integrierte Entwicklungsumgebung

• Syntax-Unterstützung, Compiler-Anbindung, Fehlermeldungen, klick/drag-and-drop-basierte Entwicklung

Copyright © 2010 TEMIS - All Rights Reserved Slide 36

� Knowledge Manager

• Vereinfachter Import von lexikalischem / terminologischem Wissen in Skill Cartridges

Page 37: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Praxis: Skill Cartridge Interna

� Statt eines Tutorials: Drei kleine Beispiels-Skill Cartridges

• Verwendung von linguistischer Information • SC „Elements“: Part of speech tags helfen bei Disambiguierung

• Modularer Aufbau komplexerer Skill Cartridges • SC „Mergers and Acquisitions“: Skill Cartridges im Baukastenprinzip

• Spezifische Herausforderungen

Copyright © 2010 TEMIS - All Rights Reserved Slide 37

• Spezifische Herausforderungen• SC „Coordination“: Das schwierige Wörtchen „und“

� Bottom-line

• Skill Cartridges sind ein mächtiger und vielfach eingesetzter Rahmen für komplexe Indexierungs- und Extraktionsaufgaben

• Keine Black-box: Nach entsprechender Einweisung sind eigene SCs auch durch Anwender/Kunden zu erstellen

Page 38: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Skill Cartridges™ Praxisteil

Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 38

Praxis

Page 39: Workshop „Text Mining“: Inhaltsanalyse von Textdaten im ...publishersforum.de/wp-content/uploads/2013/01/Text-Mining.pdf · 07.11.2007  · Microsoft PowerPoint - TEMIS Workshop

Vielen Dank für Ihre Aufmerksamkeit!

Fragen?

Copyright © 2010 TEMIS - All Rights Reserved Slide 39

Vielen Dank für Ihre Aufmerksamkeit!

Fragen?