do you know what k-means …for your business?

28
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | Do you know what K-Means …for your Business? Cluster-Analysen mit Oracle Harald Erb Oracle Business Analytics & Big Data DOAG 2016 Konferenz, Nürnberg

Upload: harald-erb

Post on 14-Apr-2017

45 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Do you know what K-Means …for your Business? Cluster-Analysen mit Oracle

Harald Erb Oracle Business Analytics & Big Data

DOAG 2016 Konferenz, Nürnberg

Page 2: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

• Harald Erb • Principal Sales Consultant

• Information Architect

• Kontakt

+49 (0)6103 397-403

[email protected]

Kontakt

DOAG 2016 Konferenz, Nürnberg

Page 3: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

K-Means Verfahren im Oracle-Kontext

3

Data Lab

Innovation

Discovery

Output Events

& Daten

Handlungsrelevante

Informationen Umsetzbare

Erkenntnisse

Data

Reservoir

Data Factory Enterprise

Information Store

(Echtzeit-)

Datenstrom

“Tagesgeschäft”

Unternehmens-

daten (ERP, CRM,

operative Daten)

Externe

strukturierte

Daten

Line of Governance

Intelligente

Prozesse

Event Engine BI &

Analyse

DOAG 2016 Konferenz, Nürnberg

Oracle White Paper - Information Management & Big Data, A Reference Architecture, 2014

Page 4: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Allgemeines, k-Means Algorithmen bzw. Erweiterungen

Cluster-Analysen mit k-Means

4

• Cluster-Analyse:

Oberbegriff für multivariate Methoden, die versuchen, Strukturen (Cluster) in den Daten zu finden

Methoden basieren meist auf Berechnungen der Distanz der Beobachtungen im multidimensionalen Datenraum

• Typische Fragestellungen:

Abnormale Datenpunkte innerhalb eines großen Data Sets finden

Cluster ähnlicher Textdokumente oder Kundensegmente

Guter Einstieg in Datenanalysen, bevor Klassifikations- oder Regressionsmethoden zum Einsatz kommen

• k-Means Clustering :

gehört zu den Austauschverfahren und ist ein partitionierender Clustering Algorithmus

Unterscheidung. Algorithmus von Lloyd ("der" k-Means Algorithmus) vs. MacQueen (führte mit dem Begriff "k-Means allerdings einen anderen Algorithmus ein)

• Vor- und Nachteile

Einfache und schnelle Implementierung, gute Laufzeiten

Schwachstelle: Die gefundene Lösung hängt stark von den gewählten Startpunkten ab

• Verschiedene k-Means Variationen, u.a.:

k-Medians: verwendet statt der euklidischen Distanz, u.a. die sog. „Manhattan-Distanz“ zur Abstandsberechnung

k-Means++-Algorithmus: wählt die Cluster-Schwerpunkte nicht zufällig, sondern nach Vorschrift

k-Medoids (PAM, Partitioning Around Medoids) minimiert die Distanzen (statt der Summe der Varianzen bei k-Means)

DOAG 2016 Konferenz, Nürnberg

Page 5: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Ablauf

Prinzip von k-Means

5

1. Initialisierung 2. Klassifizierung 3. Cluster-Zentren (Mean) berechnen 4. Iteration

n Durchgänge bis die Verschiebung der Cluster-Zentren ausreichend klein ist bzw. gegen 0 geht

DOAG 2016 Konferenz, Nürnberg

Page 6: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 6 DOAG 2016 Konferenz, Nürnberg

Cluster-Analysen für alle

Oracle Data Visualization

Page 7: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Tool-Überblick

Oracle Data Visualization Desktop

7

Datenquellen anbinden

DOAG 2016 Konferenz, Nürnberg

Data Sets inspizieren, aufbereiten & mit anderen Daten verknüpfen

Daten visualisieren und

übergreifend über alle Data Sets hinweg analysieren

Page 8: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Out-of-the Box: Analytische Funktionen

Cluster-Analyse mit Oracle Data Visualization Desktop

8

Für Ad-hoc Abfragen und im Data Visualization Tool bekommen Business Analysten mächtige aber leicht anwendbare Rechenfunktionen angeboten:

1. Trend Lines

2. Bin / Histogram

3. Regression Analysis

4. Forecast

5. Cluster

6. Outliers

7. Custom R scripts

Business Analysts

Anwendung der neuen Analytics

Funktionen oder Custom R Scripts

Neue Erkenntnisse erlangen

Data Lab

DOAG 2016 Konferenz, Nürnberg

Page 9: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Verwendung: Analytics 1-Click-Funktionen

Cluster-Analyse mit Oracle Data Visualization Desktop

9

DOAG 2016 Konferenz, Nürnberg

Page 10: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 10

Verwendung: cluster()-Funktion im Berechnungseditor

Cluster-Analyse mit Oracle Data Visualization Desktop

Detailinformationen zur Cluster-Bildung sind abrufbar

Verfügbare Methoden für K-Means: MacQueen, Lloyd, Hartigan-Wong, Forgy

DOAG 2016 Konferenz, Nürnberg

Page 11: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 11

Page 12: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Cluster-Analyse im Data Lab

Oracle Big Data Discovery vs. BDD-Shell und Jupyter Notebook

DOAG 2016 Konferenz, Nürnberg 12

Page 13: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Team Sport: Ein Tool für Business Analysts and Data Scientists

Oracle Big Data Discovery

13

DWH / OLTP

Databases

Database Administrator

(Enterprise IT)

Hadoop

Data Integration Specialist

(Enterprise IT)

Data Engineer

Data Science

Discovery Output

Business Analyst

New KPI, Report Requirement

Data Scientist

New Data Set (cleaned / enriched)

Arbeiten in einem Team

DOAG 2016 Konferenz, Nürnberg

Page 14: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Visual Data Discovery

Oracle Big Data Discovery

14 DOAG 2016 Konferenz, Nürnberg

Page 15: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Data Scientist setzt Analyse mit anderen Techniken fort

Oracle Big Data Discovery

16

DWH / OLTP

Databases

Database Administrator

(Enterprise IT)

Hadoop

Data Integration Specialist

(Enterprise IT)

Data Engineer

Data Science

Discovery Output

Business Analyst

New KPI, Report Requirement

Data Scientist

New Data Set (cleaned / enriched)

DOAG 2016 Konferenz, Nürnberg

Page 16: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

BDD Shell

Oracle Big Data Discovery

DOAG 2016 Konferenz, Nürnberg 17

Liste mit Oracle Big Data Discovery Data Sets

Import der Spark Machine Learning library MLlib

Konvertierung eines Oracle Big Data Discovery Data Sets in einen Apache Spark Dataframe

Import Package NumPy (Numerical Python)

Page 17: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Direktzugriff auf Oracle Big Data Discovery Data Sets

Jupyter Notebook

18 DOAG 2016 Konferenz, Nürnberg

Page 18: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 19

Cluster-Analyse in Echtzeit

Oracle Stream Analytics

Page 19: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 20

IoT Logical Reference Architecture

Adapted from: Internet of Things (IoT) - are traditional architectures good enough?, 2016, Guido Schmutz, SlideShare

DOAG 2016 Konferenz, Nürnberg

Page 20: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Oracle Stream Analytics

21

K-Means Machine Learning Pattern

DOAG 2016 Konferenz, Nürnberg

Prinzip der Anomalie-Erkennung (im 2-dimensionalen Raum)

Beispiel: Herstellung von Netzteilen. Ein 2-dimensionaler Raum ist über 2 Variablen (Features) definiert, die Messpunkte liegen üblicherweise in 2 Gruppen. Ein auffälliges Gerät ( x ) liegt zwar im Toleranzbereich aber außerhalb der beiden Gruppen

Page 21: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Oracle Stream Analytics

22

Event Stream zuweisen

Live Output

Topolgie-Ansicht

DOAG 2016 Konferenz, Nürnberg

Page 22: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Oracle Stream Analytics vs. Apache Streaming Lösungen

23

Adapted from: Introduction to Streaming Analytics, 2016, Guido Schmutz, SlideShare

DOAG 2016 Konferenz, Nürnberg

Page 23: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Hier geht die Analyse erst richtig los

K-Means Cluster Resultate interpretieren

24 DOAG 2016 Konferenz, Nürnberg

www.quora.com/How-do-you-interpret-k-means-clustering-results

Page 24: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Smart analysieren – mit Vorgehensmodell, Wissen und Oracle Business Analytics

Take away Message

25 DOAG 2016 Konferenz, Nürnberg

Data Analytics Kreislauf ein iterativer Prozess inkl. Fehlschläge! Im Fokus steht dabei immer die fachliche Aufgabe bzw. das Ziel der Analyse

Trotz komfortabler Analyse-Tools kommt Man nicht an solcher Lektüre vorbei, denn....

...K-means clustering (und die Anwendung anderer Algorithmen) is not a free lunch http://varianceexplained.org/r/kmeans-free-lunch

Page 25: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

Nächster Talk

Wie weiter?

26 DOAG 2016 Konferenz, Nürnberg

Page 26: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 27

Wie weiter? Oracle Technology Network: Data Visualization Desktop Tool • Software-Download (incl. Oracle R Distribution 3.1.1) öffen

Oracle Technology Network: Data Visualization Public Gallery • Diverse Advanced Analytics Beispiele inkl. Deployments öffen

Oracle BI TECHDEMO YouTube Channel • u.a. mit Sample App Version v607 und Advanced Analytics öffnen

Oracle Business Intelligence 12c Dokumentation • Beschreibung aller logischen Advanced Analytics SQL-Funktionen öffnen

Boris Dahav (Oracle USA) – Blog: • Enabling R and the relevant Analytics functions on OBIEE 12c öffnen

• OBIEE 12c Adv. Analytics Functions – Part 1: Introduction & Trendline öffnen

• OBIEE 12c Adv. Analytics Functions – Part 2: BIN and WIDTH_BUCKET öffnen

• OBIEE 12c Adv. Analytics Functions – Part 3: Forecast öffnen

• OBIEE 12c Adv. Analytics Functions – Part 4: Cluster öffnen

• OBIEE 12c Adv. Analytics Functions – Part 5: Outlier öffnen

• OBIEE 12c Adv. Analytics Functions – Part 6: Regression öffnen

• OBIEE 12c Adv. Analytics Functions – Part 7: EVALUATE_SCRIPT öffnen

Page 27: Do you know what K-Means …for your Business?

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 28 DOAG 2016 Konferenz, Nürnberg

Page 28: Do you know what K-Means …for your Business?