living lab big data - startseite - fraunhofer iais · © fraunhofer-institut für intelligente...

32
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS www.iais.fraunhofer.de

Upload: others

Post on 02-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Big Data Konzeption einer Experimentierplattform

Dr. Michael May

Berlin, 10.12.2012

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

www.iais.fraunhofer.de

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Agenda

n  Ziele des Living Lab Big Data

n  Living Lab Big Data Architektur

n  Living Lab Big Data Anwendungen

n  Ausblick

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Ausgangslage

n  Viele Anwenderunternehmen sind in der Orientierungsphase

n  Vorstellungen von Big Data in Unternehmen oft diffus, sowohl zu

n  Einsatzmöglichkeiten als auch zu

n  vorhandenen Techniken

n  Ergebnisse Befragung und Zukunftsworkshops:

n  Hoher Bedarf an Best Practices, Training, Schulung (95% der Befragten)

n  Infrastruktur und Datenmanagement sind für sich genommen zu abstrakt, Lösungspotentiale zu bewerten

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Im Kontext von Big Data sind bereits viele Open-Source Projekte verfügbar (eine Auswahl)

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Big Data Anwendungen setzen auf eine Kombination von Tools aus verschiedenen Technologiekategorien

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

NoSQL Datenbanken – Verteilte nichtrelationale und schemafreie Datenbanken

Key/Value

BigTable/Columnar Document

Graph

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Im Kontext von Big Data sind bereits viele Anbieter am Markt (eine Auswahl)

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Barrieren

n  Die Auswahl der richtigen Technologie ist eine Herausforderung

n  keine Standardisierung

n  unterschiedlicher Entwicklungsstand

n  unzureichende Dokumentation

n  uneinheitliche Terminologie, …

n  Kaum Vergleichsmöglichkeiten, Benchmarks

n  Kaum Personal mit Erfahrung vorhanden

n  Anbieter reagieren mit „Out of the Box“-Lösungen (z.B. Appliance)

n  Hohe Kosten als Einstiegshürde

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Ziele des Living Labs

n  Lern- und Experimentierumgebung für Unternehmen

n  Technik „anfassbar“ machen, Einstiegshürden herabsetzen

n  Teil eines Schulungskonzeptes „Data Science“

n  Präsentation von Big-Data-Problemlösungen am Beispiel einer durchgängigen Anwendung des gesamten Technologie-Stacks

n  Verschiedene öffentlich verfügbare Big-Data-Datenbestände werden eingespielt und stehen zum Testen zur Verfügung.

n  Analyseverfahren für Big Data, die im Rahmen des THESEUS-Programms zum Thema Smart Semantics (Quote und Eat&Drink) entwickelt wurden

n  Hardwareinfrastruktur steht nicht im Fokus

n  Vorwettbewerblich, herstellerneutral, erweiterbar

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Agenda

n  Ziele des Living Lab Big Data

n  Living Lab Big Data Architektur

n  Living Lab Big Data Anwendungen

n  Ausblick

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Design Living Lab

n  Nicht eine einzelne Technologie (z.B. Hadoop, NoSQL), sondern eine Big Data Architektur, die flexibel genug ist,

n  verschiedenste Einsatzzwecke in verschiedensten Branchen abzudecken

n  es in den einzelnen Komponenten erlaubt, Technologien gegeneinander auszutauschen und z.B. auch eine individuelle Entscheidung zwischen OpenSource und kommerziellen Angeboten zu treffen

n  Erst wenn man in Architekturen denkt, erschließen sich Stärken und Schwächen existierender Technologien

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

«Lambda Architecture»

Quelle: Nathan Marz. Big Data: Principles and Best Practices of Scalable Realtime Data Systems. 2013

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab - Architektur

Serving Layer

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Agenda

n  Ziele des Living Lab Big Data

n  Living Lab Big Data Architektur

n  Living Lab Big Data Anwendungen

n  Ausblick

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Big Data Experimentierplattform – Technologie zum Anfassen im Rahmen des Schulungsmoduls „Data Scientist Big Data“

Ausgewählte Technologien

Anwendungs- fälle

Big Data Datensatz

6 Milliarden Webseiten (Q1/2012)

~ 20TB nur Text

Batch-Anwendung

Analyse von Kundenfeedback

Realtime-Anwendung

Big Data Themenmonitor

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Anwendungsfall: Monitoring von Themen

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Batch Layer - Zyklus von Stunden oder Tagen

Hadoop

HDFS

Map Reduce - Cascading Smart Semantic Components

mime-type detection

mime-type filter

text + title extraction

hash

duplicate detection

language detection

lang. filter ('de' ,'en')

keyword extraction

geo-location

Voldemort

{ "name" : "Leibniz Rechenzentrum", "kind" : "F+E", "language" : "de,en", "url" : "http://www.lrz.de/", "lat" : 39.145271, "lon" : -75.418762, "keywords" : [ { "key" : "Big Data", "count" : 2 }, { "key" : "Hadoop", "count" : 2 } ], "time" : "2012-12-07T11:57+0100" } ……..

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Speed Layer – Streaming

Storm Bolt Sequence Smart Semantic Components

mime-type detection

mime-type filter

text + title extraction

language detection

Lang. filter ('de', 'en')

keyword extraction

geo-location

{ "name" : "Fraunhofer IAIS", "language" : "de,en", "url" : "http://www.iais.fraunhofer.de/", "lat" : 50.74899, "lon" 7.20575, "keywords" : [ {"key" : "MapReduce", "count" : 7 }, {"key" : "Big Data", "count" : 64}, {"key" : "Hadoop", "count" : 6 } ], "time" : "2012-12-07T11:57+0100", "kind" : "F+E" } ------------------------------------ ..,{ "url" : "http://www.iais.fraunhofer.de/sitemap.html", "keywords" : [ "Big Data" ], "institutionUrl" : "www.iais.fraunhofer.de", "title" : "Sitemap", "lang" : "de" }, { "url" : "http://www.iais.fraunhofer.de/4858.html", "keywords" : [ "MapReduce", "Big Data" ], "institutionUrl" : "www.iais.fraunhofer.de", "title" : "Integrated Data Mining", "lang" : "de }, …

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Anwendungsfall: Kundenfeedbackanalyse

App Eat&Drink

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Use Case 2 – Workflow

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Technologiealternativen

Oracle Exad

ata

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Technologiealternativen

ParStream

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Technologiealternativen

Teradata A

ster

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Technologiealternativen

IBM Infosphere Stream

DB

2

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Technologiealternativen

MapR

MapReduce

MapR

Filesystem

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Technologiealternativen

Cloudera

MapReduce

Cloudera

HDFS

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Living Lab Technologiealternativen

Apache Drill

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Agenda

n  Ziele des Living Lab Big Data

n  Living Lab Big Data Architektur

n  Living Lab Big Data Anwendungen

n  Ausblick

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Wie kann das Living Lab genutzt werden?

n  Zielgruppe: Data Scientists, Analysten, Entwickler

n  Teil des Schulungskonzeptes Data Scientist – „Big Data Management“

n  Schulungsmodul

n  Individuelle Workshops

n  „Bring your own Data“

n  In-House-Installation möglich

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Geplante Data Scientist Schulungen von Fraunhofer IAIS

Big Data Management

Data Scientist Natural

Language Processing

(NLP)

Data Scientist Big Data Analytics

Basics

2-3 Tage 2 Tage 2 Tage

Ab März 2013 Ab Oktober 2012 Ab Februar 2013

Data Scientist Visual

Analytics

2 Tage

Ab Februar 2013

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Nächste Schritte

n  Diskussion von Referenzarchitekturen im Arbeitskreis Big Data der BITKOM

n  Gespräche mit Anbietern

n  Public-Private-Partnership

n  Living Lab Big Data@CEBIT 2013

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Zusammenfassung

n  Das Living Lab macht Big Data „anfassbar“

n  Ziel: Orientierung, Best Practices, Schulung

n  Zentrales Architekturkonzept: Lambda Architektur

n  Basiert auf Open-Source-Komponenten

n  Durch kommerzielle Komponenten teilweise substituierbar

n  Erlaubt Exploration von Alternativen

n  Herstellerunabhängig, vorwettbewerblich