big data: gemeinsam die herausforderungen angehen · herausforderungen in den bereichen arbeit und...

Big Data: Gemeinsam die Herausforderungen angehenZwischenergebnisse der Forschungsförderung

Inhaltsverzeichnis

Vorwort 2

Kompetenzzentren 3

BBDC Berlin Big Data Center 3ScaDS Competence Center for Scalable Data Services and Solutions 4SDIL Smart Data Innovation Lab 5

Begleitforschung 6

ABIDA Assessing Big Data 6

Forschungsprojekte 8

News-Stream 3.0 Echtzeitanalyse und Auswertung heterogener Nachrichtenströme mittels Big-Data-Technologien 8

VAVID Vergleichende Analyse von ingenieurrelevanten Mess- und Simulationsdaten 9

AGATA Analyse großer Datenmengen in Verarbeitungsprozessen 10BigPro Einsatz von Big-Data-Technologien

zum Störungsmanagement in der Produktion 11FEE Frühzeitige Erkennung und Entscheidungsunterstützung

für kritische Situationen im Produktionsumfeld 12iPRODICT Intelligente Prozessprognose basierend

auf Big-Data-Analytics-Verfahren 13BDSec Big-Data-Security 14GeoMultiSens Skalierbare multisensorale Analyse

von Geofernerkundungsdaten 15BigGIS Prädiktive und präskriptive Geoinformationssysteme basierend

auf hochdimensionalen geo-temporalen Datenstrukturen 16HUMIT Human-zentrierte Unterstützung inkrementell-interaktiver

Datenintegration am Beispiel von Hochdurchsatzprozessen in den Life Sciences 18

Impressum 19

1

4 BIG DATA: GEMEINSAM DIE HERAUSFORDERUNGEN ANGEHEN

Vorwort Das weltweite Datenwachstum in Industrie, sozialen Netzwerken oder in der Wissen-schaft ist enorm. Die intelligente und vertrauensvolle Nutzung von Big Data kann ein wichtiger Treiber für gesellschaftlichen und wissenschaftlichen Fortschritt sein, zur Verbesserung der medizinischen Versorgung beitragen, Logistikprozesse besser und effizienter gestalten oder über den wirtschaftlichen Erfolg von Unternehmen entschei-den. Die bei Big Data genutzten Verfahren – etwa aus dem maschinellen Lernen – führen zukünftig dazu, dass Maschinen aus Daten lernen können. Big Data ist die Grundlage für datenbasierte Wertschöpfungsprozesse.

Fortschritte werden aber nur durch den Einsatz von Big-Data-Technologien möglich sein. Deren Weiterentwicklung müssen wir heute angehen, um morgen die großen Herausforderungen in den Bereichen Arbeit und Beschäftigung, Klima und Energie, Gesundheit und Ernährung, Mobilität und Logistik, Sicherheit und Vertrauen sowie Kommunikation und Teilhabe lösen zu können.

Big Data ist die Grundlage für digital vernetzte, intelligente Systeme, die unser Leben in zunehmenden Maße prägen werden: Maschinen, Anlagen, Logistikprozesse und Produkte kommunizieren zunehmend automatisiert miteinander. Gleichzeitig wan-deln sich Berufsbilder schneller als bisher. Ethische Fragestellungen werden immer wichtiger: Wie werden Big Data und die zunehmende „Datafizierung“ unser Leben und unsere Gesellschaft verändern? Wo liegen die Grenzen des Machbaren und wo ziehen wir als Gesellschaft Grenzen?

Das Bundesministerium für Bildung und Forschung (BMBF) unterstützt bereits seit 2013 mit gezielten Förderprogrammen eine Erforschung der technologischen Mög-lichkeiten und gesellschaftlichen Herausforderungen. Es hat wegweisende Big-Data-Kompetenzzentren und branchenübergreifende Förderprojekte für die Erforschung von Big Data aus technologischer, ökonomischer und gesellschaftlicher Perspektive auf den Weg gebracht.

Viele der Forschungsprojekte wurden inzwischen erfolgreich abgeschlossen. Die Kom-petenzzentren gehen nach einer erfolgreichen Evaluierung in eine zweite Phase der Förderung. Das Begleitforschungsprojekt ABIDA erforscht weiter die gesellschaftli-chen Auswirkungen neuer Anwendungen in den Bereichen Big Data und Maschinelles Lernen. Mit Kompetenzzentren, Forschungsvorhaben und Qualifizierungsmaßnah-men im Bereich Maschinelles Lernen und der Plattform „Lernende Systeme“ werden die Ergebnisse aus der Big Data Forschung nachhaltig genutzt und fortgeschrieben.

BBDCBerlin Big Data Center

Das Berliner Kompetenzzentrum für Big Data (BBDC) hat sich zum Ziel gesetzt, durch die stärkere Verschmelzung der isoliert und separat voneinander existie-renden Gebiete Datenmanagement und Maschinelles Lernen (ML) neue, automa-tisch skalierbare Technologien zu entwickeln. Diese Technologien sollen riesige Datenfluten organisieren und aus diesen mittels intelligenter Verfahren fundierte Informationen für datengetriebene Entscheidungen ableiten. Durch diese Aktivi-täten wird wirtschaftlicher und gesellschaftlicher Mehrwert geschaffen. Konkret erforscht das BBDC deklarative Datenanalysesprachen und -systeme sowie skalier-bare Methoden des Maschinellen Lernens. Als Technologietreiber werden drei wirt-schaftlich, wissenschaftlich und gesellschaftlich relevante Anwendungsbereiche (Materialforschung, Medizin, Informationsmarktplätze) einbezogen.

Im Rahmen der Arbeiten des Zentrums wurde unter anderem eine tief in Scala eingebettete Sprache für die deklarative Spezifikation von Datenanalyseprogram-men namens Emma (http://emma-language.org/) entwickelt, welche mit dem ACM SIGMOD Research Highlights Award 2016 ausgezeichnet wurde. Emma ermög-licht eine automatische Optimierung, Parallelisierung sowie eine skalierbare und adaptive Verarbeitung von Algorithmen. Des Weiteren wurden umfangreiche For-schungsarbeiten z.B. im Bereich der Interpretierbarkeit von Modellen des Maschi-nellen Lernens, wie etwa tiefen neuronalen Netzen durchgeführt.

Das BBDC fördert Ausbildung, Forschung, Entwicklung, Innovation sowie die kommerzielle Nutzung von Big Data in Deutschland. Gleichzeit leistet das BBDC open-source Entwicklung und Technologietransfer in Unternehmen. Auf diese Weise trägt das BBDC zu einem Wettbewerbsvorteil deutscher Firmen sowohl in der Informationswirtschaft als auch in vertikalen Branchen bei.

Projektpartner:Technische Universität Berlin, Konrad-Zuse-Zentrum für Informationstechnik Ber-lin (ZIB), Fritz-Haber-Institut der Max-Planck-Gesellschaft, Beuth Hochschule für Technik Berlin, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH

Ansprechpartner:Prof. Dr. Volker Markl, Technische Universität Berlin, Datenbanksysteme und Informationsmanagement, [email protected] www.bbdc.berlin

KOMPETENZZENTREN 3


ScaDSCompetence Center for Scalable Data Services and Solutions Dresden/Leipzig

Wirtschaftliche und wissenschaftliche Konkurrenzfähigkeit wird immer häufiger bestimmt durch den effizienten und intelligenten Umgang mit sehr großen, oft verteilt vorliegenden und vielfach auch heterogenen Datenbeständen. Der dabei entstehende Ressourcenbedarf führt die bisherigen Ansätze der Datenakquisiti-on, -integration, -analyse und -visualisierung an ihre Grenzen. Das „Competence Center for Scalable Data Services and Solutions“ (ScaDS Dresden/Leipzig) adres-siert dieses Aufgabenspektrum ganzheitlich und anwendungsorientiert. Die For-schungsaktivitäten umfassen die Schwerpunkte „Datenqualität und -integration“, „Wissensextraktion“, „Visuelle Analyse“ sowie „Effiziente Big-Data-Architekturen“ und „Big-Data-Lifecycle-Management und Workflows“.

Dabei integriert das Zentrum ein breites Anwendungsspektrum aus den strate-gisch wichtigen Feldern Lebenswissenschaften, Werkstoff- und Ingenieurswissen-schaften, Umwelt- und Verkehrswissenschaften, Digital Humanities und Business Data. In einem service-orientierten, modularen Ansatz werden die Anwendungen im Hinblick auf Gemeinsamkeiten und Unterschiede ihrer Verarbeitungsmerk-male und Anforderungen in Aufgabenklassen aufgeteilt, die sich problemange-passt adressieren lassen. Das Kompetenzzentrum hat hierfür in einem iterativen Prozess ein umfassendes Konzept für Big-Data-Services entwickelt und diese als anwendungsbezogene Lösungen zur Verfügung gestellt. Eingebettet in die Region Sachsen etabliert sich das Kompetenzzentrum als Dienstleister für Industrie und Wissenschaft und entwickelt im weltweiten Verbund auch bereits internationale Bedeutung. Für dieses Ziel bündelt ScaDS die Methodenkompetenz der Universi-tätsstandorte Dresden und Leipzig in einer Organisation.

Projektpartner:Technische Universität Dresden, Universität Leipzig, Max-Planck-Institut für molekulare Zellbiologie und Genetik Dresden, Leibniz-Institut für ökologische Raumentwicklung e.V. Dresden

Ansprechpartner:Prof. Dr. Wolfgang E. Nagel, Technische Universität Dresden, Zentrum für Infor-mationsdienste und Hochleistungsrechnen, [email protected] www.scads.de

SDILSmart Data Innovation Lab

Produkte und Dienste der Zukunft beruhen auf der Nutzung von Daten als Roh-stoff und wichtigem Produktionsfaktor. Das „Data Engineering“ wird damit zu einem entscheidenden Faktor. Um aus dieser Entwicklung Wettbewerbsvorteile für den Standort Deutschland und Europa ziehen zu können, haben Partner aus Industrie und Wissenschaft das „Smart Data Innovation Lab“ (SDIL) am Karlsruher Institut für Technologie (KIT) gegründet. Die Plattform wird kontinuierlich um neue Hard- und Softwarelösungen für Big Data Analytics verschiedener Herstellerergänzt, welche mittlerweile von über 40 anwendungsnahen Forschungsprojekten genutzt wurde. Industrieunternehmen verknüpfen mit ihren Datenbeständen die Erwartung, die für sie in der Praxis wichtigen Fragestellungen durch entsprechen-de Forschungsaktivitäten beantworten zu können. Das SDIL richtet sich an zwei wissenschaftliche Zielgruppen, die Forschung in informatiknahen Disziplinen, die an neuen Technologien und Algorithmen für die Verwertung von Big Data arbei-tet und die Anwendungsforschung, die als Nutzer der Werkzeuge der SDILInfra-struktur die genannten strategischen Forschungsfelder auf Basis von Daten aus der Praxis bearbeiten soll.

Im Vergleich zu Laboren in Forschungsdisziplinen wie Chemie oder Physik, haben sich für die Analyse industrieller Daten noch keine Traditionen zu Prozessen oder Standardwerkzeugen ausgeprägt. Das BMBF-geförderte Forschungsprojekt Smart Data Innovation-Prozesse, -Werkzeuge und -Betriebskonzepte (SDI-X) setzt inner-halb des SDIL hierzu einfach und schnell nutzbare Lösungen um. Die heterogene SDIL wurde bisher im Projektverlauf durch replizierbare Best-Practices ergänzt: angefangen vom rechtlichen Rahmen über technische Betriebskonzepte bis hin zu ausführbaren Vorlagen für Big Data Analytics Workflows. Diese werden momentan in laufenden Projekten zwischen Industrie und Forschung auf dem SDIL erprobt, die die Plattform kostenfrei für Forschungszwecke nutzen können.

Ansprechpartner:Prof. Dr. Michael Beigl, Karlsruher Institut für Technologie, [email protected] www.sdil.de

KOMPETENZZENTREN 5


ABIDAAssessing Big Data

Die Erzeugung und Verarbeitung großer Datenmengen stellt einerseits ein großes Potential für zukünftige Innovationen dar. Andererseits wirft sie Fragen vonbedeutender gesellschaftlicher Relevanz auf, wie z.B. zu Transparenz, Schutz derPrivatsphäre oder Missbrauch bei Datenverwendungen. Zu diesen Fragen werden in dem auf vier Jahre angelegten Projekt ABIDA die gesamtgesellschaftlichen und wirtschaftlichen Folgen beim Umgang mit großen Datenmengen interdisziplinär erforscht.

Beteiligt sind Wissenschaftlerinnen und Wissenschaftler aus den Bereichen Tech-nikfolgenabschätzung, Rechtswissenschaft, Philosophie, Soziologie, Ökonomie und Politikwissenschaft. Während der ersten Projekthälfte wurde eine fachspezifische Übersicht der Problemstellung erarbeitet. Ergänzend dazu wurden mittels dreier Bürgerkonferenzen und einer repräsentativen Bevölkerungsumfrage die Einstel-lungen der Bevölkerung zu Big Data ermittelt. Durch Arbeitskreise, Fachtagungen und eine Experten-Delphi wird das Wissen weiterer Stakeholder mit einbezogen. Die Erkenntnisse der ersten Projektphase wurden in vielen Publikationen (Journal-artikel, Reports, Sammelbände) veröffentlicht.

Anhand der Ergebnisse wurden elf Themenfelder identifiziert, in denen Big Data von besonderer gesellschaftlicher Relevanz ist: Arbeit, Heim & Freizeit, Gesund-heit, Onlinemedien & Soziale Netzwerke, Bildung, Finanzen & Versicherungen, Verkehr, Handel, Wissenschaft, Demokratie, Mittelstand. Diese Themen werden in der zweiten Projekthälfte vertieft bearbeitet.

Neben der Forschungsarbeit der Projektpartner ist in der zweiten Phase der Ein-bezug weiterer Stakeholder und Experten/innen im Rahmen von Workshops und Fokusgruppen von großer Bedeutung. Um die Wissensbasis noch zu vergrößern, wurden 19 Gutachten vergeben. Alle diese Maßnahmen tragen dazu bei, die gesell-schaftlichen Potentiale und Risiken von Big Data umfassend zu analysieren und Handlungsoptionen für Politik, Forschung und Entwicklung aufzuzeigen.

Projektpartner:Westfälische Wilhelms-Universität Münster, Karlsruher Institut für Technologie – Institut für Technikfolgeabschätzung und Systemanalyse (ITAS), Leibniz Universi-tät Hannover, Technische Universität Dortmund, Ludwig-Maximilians-Universität München, Wissenschaftszentrum Berlin für Sozialforschung

Ansprechpartner:Prof. Dr. Thomas Hoeren, Dr. Barbara Kolany-Raiser, Universität Münster, Institut für Informations-, Telekommunikations- und Medienrecht, [email protected] www.abida.de

BEGLEITFORSCHUNG 7


News-Stream 3.0Echtzeitanalyse und Auswertung heterogener Nachrichtenströme mittels Big-Data-Technologien

Für den Fortbestand unabhängiger, agiler Medien unternehmen ist es von großer Bedeutung, aus heterogenen Datenströmen die relevanten Inhalte schnellstmöglich und verlässlich zu filtern, zu überprüfen und kontextbezogen einzuordnen. Dazu sind Big-Data-Systeme und-Werkzeuge erforderlich, die redaktionelle Prozesse auf Anwenderebene effizient unterstützen. Im Verbundprojekt „News-Stream 3.0“ wurden Analyseverfahren und Infrastrukturen entwickelt, die auf journalistische Anwendungs-szenarien ausgerichtet sind: Das Ziel des Projekts war die echtzeitnahe Verarbeitung von hochdynamischen, unstrukturierten Nachrichtenströmen und die gleichzeitige Anreicherung mit bereits verarbeiteten und archivierten, strukturierten Nachrich-tendaten sowie mit externen Wissensbasen. Um dieses Ziel zu erreichen wurden agile Entwicklungsmethoden, die an Scrum angelehnt sind, eingesetzt. Dadurch konnte die Entwicklung stets an den Bedürfnissen angepasst und auf neue Ideen eingegangen werden. Mit Blick auf die journalistischen Problemstellungen wurden verschiedene Analyseverfahren entwickelt, um den Journalisten bei seiner Arbeit zu unterstützen. In einigen Demonstratoren bekamen Journalisten eine fusionierte Sicht auf die Auswer-tungsergebnisse verschiedenster Nachrichtenquellen.

Im Verlaufe des Projektes zeigte sich, dass es vielfach auch für ganz spezielle Anwen-dungsfälle Unterstützungsbedarf durch die Anwender gibt. Auch dafür wurden Anwendungen konzipiert und exemplarisch umgesetzt. Die Ergebnisse des Projektes wurden Journalisten, aber auch Archivaren und Dokumentaren, in verschiedenen Präsentationen und anwendungsnahen Workshops vorgestellt.

Projektpartner:Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS), dpa-infocom GmbH, Deutsche Welle, neofonie GmbH

Ansprechpartner:David Laqua, Fraunhofer IAIS, [email protected]

www.newsstreamproject.de

VAVIDVergleichende Analyse von ingenieurrelevanten Mess- und Simulationsdaten

In den ingenieurtechnischen Bereichen ist in den letzten Jahren ein starker Zuwachs der für die Entwicklung und den Betrieb zur Verfügung stehenden Daten sowie eine wachsende Datenheterogenität zu beobachten. So werden etwa bei der virtuellen Produktentwicklung durch immer aufwändigere Simulationsrechnun-gen enorme Datenmengen erzeugt, die verarbeitet und analysiert werden müssen. Im Verbundprojekt „VAVID“ werden neue Techniken für einen effizienten Umgang mit Daten von numerischen Simulationen und Messdaten von Sensoren unter-sucht. Durch vergleichende Betrachtung solcher Daten können Zusammenhänge und Unterschiede der zugrunde liegenden Objekte aufgedeckt und genutzt werden. Hierzu werden Methoden zur Kompression von umfangreichen Datenbeständen, zur Datenextraktion, zum Datenmanagement, zur effizienten Analyse sowie zur interaktiven Visualisierung entwickelt und bereitgestellt, auch unter Einsatz paral-leler Datenverarbeitung. So wurden u.a. bereits sogenannte Deduplikationsverfah-ren für Simulationsdaten im Fahrzeug-Crash und Analysemethoden für eine große Zahl von Simulationen von Windenergieanlagen realisiert und auf ihren Einsatz auf verschiedenen Analysesystemen hin angepasst.

Projektpartner:Fraunhofer-Institut für Algorithmen und Wissenschaft- liches Rechnen (SCAI), Weidmüller Monitoring Systems GmbH, Scale GmbH, GE Global Research, GNS Gesellschaft für numerische Simulation mbH, SIDACT GmbH, Technische Univer-sität Dresden

Ansprechpartner:Prof. Dr. Jochen Garcke, Fraunhofer SCAI, [email protected] www.vavid.de

FORSCHUNGSPROJEKTE 9


AGATAAnalyse großer Datenmengen in Verarbeitungsprozessen

Industrielle und landwirtschaftliche Verarbeitungsprozesse werden heutzuta-ge zunehmend komplexer. Dies hat zur Folge, dass Fehlfunktionen wie etwa der Ausfall von Sensoren nicht immer rechtzeitig erkannt werden, was zu Schäden an den Anlagen, zu Produktionsausfällen sowie zu erhöhten Kosten durch die Lokalisation der Fehlerquellenführen kann. Im Verbundprojekt „AGATA“ wurde eine Algorithmen-Toolbox entwickelt, die die Analyse von großen Datenmengen in Produktionsprozessen ermöglicht. Die Algorithmen werden für die Analyse von kausalen Zusammenhängen in technischen Systemen, zur Überwachung von Produktionsanlagen und für die vorausschauende Erkennung von Störungen im Betrieb verwendet. Untersucht wurden dafür komplexer Verarbeitungsprozesse in der chemischen Industrie, in der Landwirtschaft und auch in der Abfallwirtschaft. Die erarbeite Lösung kann eingesetzt werden, um Anlagenpersonal frühzeitig zu warnen, beispielsweise wenn sich Komponentenausfälle abzeichnen oder das Pro-zessverhalten ineffizient oder fehlerhaft ist. Durch die Zusammenarbeit der Partner in AGATA haben sich auch weitere Fragen ergeben, die inzwischen bilateral von Forschungs-und Industriepartnern bearbeitet werden.

Projektpartner:Fraunhofer IOSB Institutsteil (industrielle Automation), Bayer Aktiengesellschaft,Karl Tönsmeier Entsorgungswirtschaft GmbH & Co. KG

Ansprechpartner:Dr. Alexander Maier, Fraunhofer IOSB-INA, [email protected] www.iosb.fraunhofer.de/servlet/is/48985/

BigProEinsatz von Big-Data-Technologien zum Störungsmanagement in der Produktion

Ziel des Verbundprojekts „BigPro“ war es, das Störungs-Management in Unternehmen der fertigenden Industrie effizienter zu gestalten. Im Vorhaben wurde eine BigData-Platt-form entwickelt, die flexibel hetero-gene Datenquellen (z.B. ERP, MES, Sensor- aber auch Sprachdaten) in Echtzeit und ereignisorientiert ver-arbeiten kann. Die Plattform wurde bei drei Anwendungspartnern für

ein proaktives Störungsmanagement in Produktion und Fertigung eingesetzt, das Störungen bereits vor deren Eintritt erkennt und dem Nutzer geeignete Gegenmaß-nahmen zur Störungsbehebung vorschlägt. Neben Systemdaten der Produktion kann auch das Wissen und die Wahrnehmung der Mitarbeiter durch Stimmungs-monitoring bzw. Spracherkennungstools erfasst werden, wobei Aspekte des Daten-schutzes und der Datensicherheit besonders berücksichtigt wurden.

Projektpartner:Forschungsinstitut für Rationalisierung e. V. (FIR e. V.) an der RWTH Aacheni2solutions GmbH, StolbergAsseco Solutions AG, KarlsruheWerkzeugmaschinenlabor der RWTH Aachen (WZL), AachenFZI Forschungszentrum Informatik am Karlsruher Institut für Technologie, Karlsruhecognesys gmbh, AachenSoftware AG, DarmstadtRobert Bosch GmbH, Gerlingen-SchillerhöheEICe Enterprise Integration Center Aachen GmbH, AachenEML European Media Laboratory GmbH, HeidelbergDFA Demonstrationsfabrik Aachen GmbH, AachenAUTO HEINEN GmbH, Bad Münstereifel

Ansprechpartner:Felix Jordan, FIR e. V. an der RWTH Aachen, [email protected] www.projekt-bigpro.de



FEEFrühzeitige Erkennung und Entscheidungsunterstützung für kritische Situationen im Produktionsumfeld

Das Ziel des Verbundprojekts „FEE“ ist die Integration der in Produktionsanlagen aufgezeichneten heterogenen Datenmengen in einer Big-Data-Analyseplattform. Verwendet werden neben aktuellen Daten aus Engineering- und Assetdatenban-ken, aus Prozess-Informations-Management-Systemen sowie aus Schichtbüchern und Betriebsvorschriften auch umfangreiche historische Datenbestände. Darauf aufbauend werden mittels Big-Data-Techniken Echtzeit-Methoden entwickelt, um Bediener von Anlagen durch geeignete Alarme vor unerwarteten Betriebszu-ständen frühzeitig zu warnen und mit interaktiven Assistenzfunktionen bei der Ad-hoc-Analyse sowie der Entwicklung von Eingriffsstrategien zu unterstützen. So wird proaktives statt reaktives Handeln ermöglicht.

Durch die Einbindung von Praxisanwendern aus der chemischen und der Mineral-ölindustrie wurden spezifische Anwendungsszenarien identifiziert, anhand derer die entwickelte Architektur und Methodik evaluiert werden. So wurde z.B. die unerwünschte Schaumbildung in der chemischen Prozessindustrie mit Methoden der Zeitreihenanalyse untersucht und Ausfallwahrscheinlichkeiten entsprechender Anlagen modelliert. Diese und andere Verfahren werden an die zu entwickelnde Big Data-Analyseplattform angepasst.

Projektpartner:ABB AG, RapidMiner GmbH,Technische Universität Dresden, Universität Kassel

Ansprechpartner:Dr. Benjamin Klöpper, ABB AG Forschungszentrum, [email protected]

iPRODICTIntelligente Prozessprognose basierend auf Big-Data-Analytics-Verfahren

Das Verbundprojekt „iPRODICT“ erforschte zwischen 2014 und 2017 in einem interdisziplinären Team aus Forschern und Industrieexperten einen intelligenten Ansatz zur teil-automatisierten Anpassung und Verbesserung von Geschäftsprozes-sen. Basierend auf der Analyse gesammelter Prozessdaten und der Echtzeitauswer-tung von Kontextinformationen aus Sensornetzwerken wurde, unter Verwendung einer eigens entwickelten Software, der optimale Prozessablauf mittels Prognose-berechnungen vorhergesagt. Mithilfe der entwickelten Big-Data-Analyseverfahren ist es möglich über 70 verschiedenen Fehlerarten zu analysieren und Prozesse in Echtzeit individuell auf die jeweilige Kontextsituation anzupassen.

Der entwickelte Ansatz wurde in Form eines integrierten Prototyps innerhalb eines Anwendungsszenarios aus der Pro-zessfertigung beim Anwendungspartner Saarstahl AG implementiert, getestet und validiert. Die Machbarkeit des Ansatzes konnte gezeigt werden. Ein im Projekt ent-wickeltes Werkzeug zur Zeitreihenanalyse1 steht als Open Source zur Verfügung.

Projektpartner:Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Blue Yon-der GmbH, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS), Pattern Recognition Company GmbH, Software AG, Saarstahl AG

Ansprechpartner:Andreas Emrich, DFKI, [email protected]

www.iprodict-projekt.de 1) tsfresh https://github.com/blue-yonder/tsfresh



BDSecBig-Data-Security

Der wirksame Schutz von IT-Systemen gegenüber Angriffen und Bedrohungen erlangt aktuell einen immer höheren Stellenwert. Mit Big-Data-Technologien wird es möglich, aus den riesigen Datenmengen sicherheitsrelevante Informationen zu extrahieren, um in Echtzeit nützliche und verlässliche Entscheidungshilfen zur zeitnahen Angriffserkennung und -verhinderung zu gewinnen. In dem Projekt „BDSec“ werden daher Big-Data-Technologien erforscht, die für viele Bereiche der IT-Sicherheit von Nutzen sein können.

Dazu werden vier Anwendungsfälle aus unterschiedlichen Bereichen exemplarisch behandelt, um breitenwirksame Problemlösungen zu entwickeln und Synergieef-fekte zu erforschen. Die Anwendungsfälle können hinsichtlich Einzel- und Massen-angriffen sowie des Angriffsziels auf der Ebene der Dienste und Anwendungen (sog. Applikationsschicht) oder der Ebene der Datenübertragung (sog. Netzwerkschicht) unterschieden werden. Bisher wurden bereits Big-Data-Security-Architekturen und -prozesse hinsichtlich nverschiedener Angriffsszenarien ausgearbeitet und z.B. in prototypischen Lösungen zur Erkennung von gezielten Angriffen gegen Webinfra-strukturen sowie zum Endnutzerschutz bei Web-Anwendungen implementiert.

Projektpartner:Leibniz Universität Hannover, Ruhr-Universität Bochum, Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC), DE-CIX Management GmbH, SAP SE

Ansprechpartner:Prof. Dr. Matthew Smith, Leibniz Universität Hannover, Forschungszentrum L3S, [email protected] www.projekt-bigpro.de

GeoMultiSensSkalierbare multisensorale Analyse von Geofernerkundungsdaten

Die Satellitenfernerkundung bietet die Möglichkeit, Prozesse der Erdoberfläche, die mit globalen Herausforderungen wie Klimawandel, Bevölkerungswachstum oder Verlust der biologischen Vielfalt in Zusammenhang stehen, kontinuierlich und global zu beobachten. Das kontinu-ierliche und flächendeckende Monitoring der Erdoberfläche erzeugt jedoch sehr große Datenmengen. Ziel des Verbund-projekts „GeoMultiSens“ war es deshalb, neue effektive Big-Data-Technologien für die fernerkundliche Multi-Sensor-Analyse zu erforschen und ihre Eignung an ausgewählten Anwendungsszenarien

zu demonstrieren. Dazu wurde eine integrierte Verarbeitungskette entwickelt, mit der sich Datenmengen im Petabyte-Bereich verarbeiten lassen. Eine besondere Her-ausforderung bestand in der Integration heterogener Erdbeobachtungsdaten, ihrer parallelen Analyse sowie der Visualisierung der Ursprungsdaten und Analyseer-gebnisse zur korrekten Detektion und Bewertung raum-zeitlicher Veränderungen der Erdoberfläche.

Projektpartner:Helmholtz-Zentrum Potsdam Deutsches GeoForschungs- Zentrum GFZ, Humboldt-Universität zu Berlin, Konrad- Zuse-Zentrum für Informationstechnik Berlin (ZIB)

Ansprechpartner:Dr. Mike Sips, GFZ, [email protected] www.geomultisens.de



BigGISPrädiktive und präskriptive Geoinformationssysteme basierend auf hochdimensionalen geo-temporalen Datenstrukturen

Im Projekt „BigGIS“ wurde eine neue Generation von Geoinformationssystemen mit Mechanismen, die in vielfältigen Anwendungsfällen Entscheidungen auf der Basis großer Mengen an heterogenen, geo-temporalen Daten besser und schneller unterstützen, erforscht. Dazu wurden mehrere lose gekoppelte Kompo-nenten entwickelt, die in einer Cloud-Infrastruktur eingesetzt werden können. Die Komponenten sind als einzelne Docker-Container verfügbar und werden über eine Rancher-Weboberfläche verwaltet. Zur Evaluierung und Demonstration der Plattform wird die bwCloud-Infrastruktur genutzt, in der mehrere Prozess-Stacks parallel betrieben werden können. Für die skalierbare Datenverarbeitung werden Technologien wie Apache Flink, Spark und Kafka genutzt, um komplexe Datenver-arbeitungs-Pipelines mit dem Tool StreamPipes visuell modellieren, betreiben und verwalten zu können. StreamPipes, eine benutzerfreundliche Plattform für skalier-bare Datenstromverarbeitung, wurde um GIS-bezogene Verarbeitungselemente,semantische Datenstromanreicherung, Validierung und Datensenken erweitert.

Für die Projektevaluation wurden drei Szenarien entwickelt - Smart City, Umwelt und Katastrophenschutz. Im Smart-City-Szenario wurden visuelle Tools für die Analyse von Urbanen Hitzeinseln, ein Tool für die Hitze basierte Wegfindung und ein Tool zur optimalen Platzierung von Sensoren in einem bestimmten Bereich entwickelt sowie die Genauigkeit und räumliche Auflösung bestehender Tempe-raturvorhersagemodelle verbessert. Dazu wurde eine automatisierte evolutionär-algorithmusbasierte Bewertung der Qualität mehrerer Messstationen implemen-tiert. Für das Umwelt-Szenario wurde die Kirschessigfliege ausgewählt („Drosophila suzukii“), ein für die Agrarwirtschaft relevanter Schädling. Es wurden visuelle Analyse-Tools zur Überwachung und Analyse der Ausbreitung der Art entwickelt. Im Katastrophenschutz-Szenario wurde ein Tool zur Erstellung eines optimalen Flugplanes für Drohnen konzipiert, das Feuerwehrleuten hilft, schnellstmöglich brauchbare Hydranten zu finden und Gaswolken mit Hilfe von UAV-gestützten IR-, RGB- und Hyperspektralaufnahmen zu erkennen.

Projektpartner:FZI Forschungszentrum Informatik am KIT, Universität Konstanz, Hochschule Karlsruhe, disy Informationssysteme GmbH, EXASOL AG, EFTAS Fernerkundung Technologietransfer GmbH, Landesanstalt für Umwelt, Messungen und Naturschutz Baden-Württemberg (LUBW)

Ansprechpartner:Prof. Dr. Thomas Setzer, FZI Forschungszentrum Informatik, [email protected] www.biggis-project.eu



HUMITHuman-zentrierte Unterstützung inkrementell-interaktiver Datenintegration am Beispiel von Hochdurchsatzprozessen in den Life Sciences

In der klinischen Forschung und der Entwicklung neuer Medikamente gegen Krankheiten wie Krebs, Alzheimer oder Diabetes generieren akademische For-schergruppen und große Pharmakonzerne eine ständig zunehmende Menge an Daten. Dabei ist es bisher nicht möglich, ältere Studien und externe Datenbanken mit den neuesten Experimenten zu verknüpfen. Das Projekt „HUMIT“ will durch neue Big-Data-Methoden mehr Informationen aus der Kombination neuer und schon existierender Daten gewinnen.

Das neu entwickelte HUMIT-System ermöglicht eine übergreifende Vergleichsmög-lichkeit von Screens im Drugdiscovery-Bereich. Dies wird durch eine semantische Datenablage mit automatisierter Charakterisierung der Rohdaten und eingesetzten Compounds sowie standardisiert ergänzter Notation (MIABAO – Minimal Anno-tation Bio Assay Ontology) erreicht. In der übergreifenden Betrachtung besteht gegenüber der zeitaufwändigen, vergleichenden Auswertung einzelner Screens das Potenzial weiterführender Erkenntnisse und darüber ggf. neue Wirkstoffkandida-ten zu identifizieren. Anknüpfend hieran könnten zukünftig aus der Screen-Vorse-lektion durch HUMIT selbstlernende Methoden (z.B. der Künstlichen Intelligenz, KI) weitere Potenziale eröffnen. Voraussetzung hierfür ist eine qualitativ hochwer-tige Rohdatenbasis mit adäquaten Annotationen, so wie sie durch HUMIT-System ermöglicht wird.

Projektpartner:Fraunhofer-Institut für Angewandte Informationstechnik (FIT), Fraunhofer-Institut für Molekularbiologie und Angewandte Oekologie (IME), Deutsches Zentrum für Neurodegenerative Erkrankungen e.V., soventec GmbH

Ansprechpartner:PD Dr. Christoph Quix, Fraunhofer FIT [email protected] www.humit.de

Impressum

Herausgeber und Veranstalter Bundesministerium für Bildung und Forschung Referat Datenwissenschaft, Informationstechnologien; Industrie 4.053170 Bonn

Konzept und Organisation Bundesministerium für Bildung und Forschung/ Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR)DLR ProjektträgerSoftwaresysteme und WissenstechnologienRosa-Luxemburg-Straße 2 10178 Berlin

StandApril 2018

Satz und GestaltungCD Werbeagentur GmbH, www.cdonline.de

Bildnachweise Rawpixel – Fotolia.com: Titel, foto_don – Fotolia.com: Seite 7, James Thew – Fotolia.com: Seite 10 BigPro: Seite 11, DFKI: Seite 13, GeoMultiSens: Seite 15

Diese Broschüre ist Teil der Öffentlichkeitsarbeit des Bundesministeriums für Bildung und Forschung. Sie wird kostenlos abgegeben und ist nicht zum Verkauf bestimmt.

Weitere Informationen unter: www.bmbf.de/de/23429.php

IMPRESSUM 19

www.bmbf.de

big data: gemeinsam die herausforderungen angehen · herausforderungen in den bereichen arbeit und...

Documents