agenda sas visual data discovery - public.urz.uni ... reports erstellen im eg. copyright © 2010,...
TRANSCRIPT
Copyright © 2010, SAS Institute Inc. All rights reserved. 1
Copyright © 2010 SAS Institute Inc. All rights reserved.
Visuelle In-Memory-Datenanalyse mit der analytischen Power von SAS auf dem Server
Bernd Heinen, Ulrich Reincke, Martin Schütz
Visuelle In-Memory-Datenanalyse mit der analytischen Power von SASBernd Heinen, Ulrich Reincke, Martin Schütz, SAS Institute
2
Copyright © 2010, SAS Institute Inc. All rights reserved.
Agenda SAS Visual Data Discovery
Was ist es?
Für welche Projektanforderung ist es das richtige Tool?
Demo mit ein paar „Leckerbissen“
Datenzugriff, SAS-JMP-Integration, Stored Process
R-Integration
Graph Builder
Excel Profiler
Zusammenfassung
Copyright © 2010, SAS Institute Inc. All rights reserved. 2
3
Copyright © 2010, SAS Institute Inc. All rights reserved.
Was ist SAS Visual Data Discovery ?
Produktbündel, um
typische Projektanforderungen
auf einfache Weise
abzudecken
SAS VDD ermöglicht
Datenzugriff und Datenmanagement
Zugriffsmöglichkeiten auf das breite Analysespektrum von SAS
» Statistik, Grafik
» Optional: Qualitätskontrolle, Prognosen, Optimierung
Interaktive Visualisierung
4
Copyright © 2010, SAS Institute Inc. All rights reserved.
Für welche Projektanforderung ist es das richtige Tool? Für den SAS-Analytics Anfänger
Projektstart: Erste Erkenntnisse über die Daten gewinnen
Schnelle Ad-Hoc Analysen
„Quick and Dirty“
Ohne all zu großen Wert auf Revisionssicherheit zu legen
Bedienung über Point & Click
Visuelle Darstellungen
Wenn man noch nicht weiß, was man alles an Methoden für sein Projekt benötigt, und im Zweifel noch alle methodischen Möglichkeiten (inklusive Forschungsmethoden aus R) offen halten muss
Copyright © 2010, SAS Institute Inc. All rights reserved. 3
5
Copyright © 2010, SAS Institute Inc. All rights reserved.
Architektur
SAS Enterprise Guide JMP 9
SAS Integration Technology
SAS Foundation: Base, SAS/STAT, SAS/GRAPH
Client
Server
6
Copyright © 2010, SAS Institute Inc. All rights reserved.
Architektur mit analytischen Zusatzoptionen
SAS Enterprise Guide JMP 9
SAS Integration Technology
SAS Foundation: Base, SAS/STAT, SAS/GRAPH
Optional: Prognosen, Optimierung, Qualitätskontrolle, Access to …
Client
Server
Copyright © 2010, SAS Institute Inc. All rights reserved. 4
7
Copyright © 2010, SAS Institute Inc. All rights reserved.
Architektur mit optionaler R-Integration
SAS Enterprise Guide JMP 9 Optional: R
SAS Integration Technology
SAS Foundation: Base, SAS/STAT, SAS/GRAPH
Optional: Prognosen, Optimierung, Qualitätskontrolle, Access to …
Client
Server
8
Copyright © 2010, SAS Institute Inc. All rights reserved.
Nutzenvorteile der einzelnen Komponenten
SAS Enterprise Guide
Daten-ManagementJMP 9
VisualisierungOptional: R
Methoden-
erweiterung
Analytische Power
Client
Server
Copyright © 2010, SAS Institute Inc. All rights reserved. 5
9
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Datenmanagement im EG
10
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Ergebnisübergabe an JMP
Copyright © 2010, SAS Institute Inc. All rights reserved. 6
11
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Tabellenaufruf in JMP
12
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Verteilungsanalyse in JMP
1
2
Copyright © 2010, SAS Institute Inc. All rights reserved. 7
13
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Ergebnise der Verteilungsanalyse speichern
2
3
4
14
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Weiterverarbeitung der Ergebnise im EG
Copyright © 2010, SAS Institute Inc. All rights reserved. 8
15
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Weiterverarbeitung der Ergebnise im EG
16
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Weitere Datenmanagementschritte im EG
Copyright © 2010, SAS Institute Inc. All rights reserved. 9
17
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Weitere Datenmanagementschritte im EG
18
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Reports erstellen im EG
Copyright © 2010, SAS Institute Inc. All rights reserved. 10
19
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Erstellen eines Stored Process aus dem Gesamtprozessfluss
20
Copyright © 2010, SAS Institute Inc. All rights reserved.
Demo: Gesamtprozessfluss – Überblick
Datenmanagement in SASAufruf von JMP,
Übergabe der Daten
Rückgabe der Analyse-
daten an SAS
… oder direkte Analysen
auf den Basisdaten
Weiterverarbeitung
in SAS
Reporting in SAS
Berichts-
verteilung
Automatisierung
als Stored Process
… oder als SAS Programm im Batch-Betrieb
Analyse
in JMP
Copyright © 2010, SAS Institute Inc. All rights reserved. 11
21
Copyright © 2010, SAS Institute Inc. All rights reserved.
Welche Integrationsmöglichkeiten bietet JMP 9?
Aufruf aus dem EG-Prozessfluss heraus mit einem Add-In
Öffnen und Schreiben von SAS Tabellen auf dem Client oder dem SAS Server
Datenübergabe und Ausführung von SAS Programmen auf dem SAS Server
Aufruf von Stored Processes auf dem SAS Server mit Datenübergabe an JMP
Mit SAS Submit() kann SAS Code an einen SAS Server abgeschickt werden
22
Copyright © 2010, SAS Institute Inc. All rights reserved.
JMP-SAS IntegrationseinstellungenFür Code Aufrufe aus JMP
Copyright © 2010, SAS Institute Inc. All rights reserved. 12
23
Copyright © 2010, SAS Institute Inc. All rights reserved.
JMP-SAS Integration – Für Stored Processes
25
Copyright © 2010, SAS Institute Inc. All rights reserved.
Beispiel: Statistische Visualisierungsmöglichkeiten
Copyright © 2010, SAS Institute Inc. All rights reserved. 13
26
Copyright © 2010, SAS Institute Inc. All rights reserved.
Beispiel: Supply Chain Visualisierung
27
Copyright © 2010, SAS Institute Inc. All rights reserved.
Als Adobe-Flash Objekt exportieren und ins Portal stellen oder in MS Powerpoint einbetten
1. Create your Bubble Plot
2. Click on the "red triangle" and
select "Save as flash (SWF)......."
3. Save and note the path (that is,
C:/My Documents/.........)
4. In PowerPoint, go to the slide
where you'd like to place your graph
5. Select the tab for Developer.
6. Select the hammer and wrench
icon for “More Controls.”
7. Select Shockwave Flash.
8. On your slide, fix the box size
9. Right-click inside the box and
select "Properties."
10. Beside "Movie" put the path of
your .swf file. Change the
“embedmovie” property to “true”
(default is false).
11. View your PowerPoint as a
presentation, and watch the magic
unfold!
Copyright © 2010, SAS Institute Inc. All rights reserved. 14
28
Copyright © 2010, SAS Institute Inc. All rights reserved.
Geomarketing mit hinterlegten Landkarten
29
Copyright © 2010, SAS Institute Inc. All rights reserved.
Integration von in JMP/VDD
http://www.r-project.org
Copyright © 2010, SAS Institute Inc. All rights reserved. 15
30
Copyright © 2010, SAS Institute Inc. All rights reserved.
„R“ – Freie Software für statistische Analysen
1996 Code-Freigabe
Ihaka & Gentleman, Universität Auckland
Basierend auf der statistischen Sprache „S“
Chambers, Bell Laboratories, früher AT&T, jetzt Lucent Technologies
Vorteile
Freie Software, GNU GENERAL PUBLIC LICENSE Version 2
Analog zu SAS aktive Entwickler- und Nutzergemeinde
Umfangreiche Basis mit 2450 (1.9.2010) Erweiterungspaketen
Nachteile
Qualitätskontrolle
Kompatibilität
Haftung
31
Copyright © 2010, SAS Institute Inc. All rights reserved.
Warum VDD – R – SAS Integration?
Integration von R in JMP/VDD vereint Vorteile
Nutzung neuster Methoden aus der Forschung
Zertifizierter Analyse-Software mit hohem Qualitätsstandard
Einfache Nutzung Komplexer Algorithmen durch Menüführung in
Einheitliche, stabile Analyse-Plattform
SAS Enterprise Guide JMP 9 Optional: R
SAS Integration Technology
SAS Foundation: Base, SAS/STAT, SAS/GRAPHOptional: ETS, OR, QC, IML, Access to…
Client
Server
Copyright © 2010, SAS Institute Inc. All rights reserved. 16
42
Copyright © 2010, SAS Institute Inc. All rights reserved.
Ein Multi-Klassifikator zur Vorhersage räumlicher Lokalisierungen von Proteinen
Prädiktion 5 möglicher Orte eines Proteins innerhalb einer Zelle des E.Coli Bakteriumsin Abhängigkeit von 5 Eigen-schaften der unterliegenden Aminosäuresequenz *
Ecoli Datensatz aus demUCI Machine Learning Repository **
* A Probablistic Classification System for Predicting the Cellular Localization Sites of Proteins",
Paul Horton & Kenta Nakai, Intelligent Systems in Molecular Biology, 109-115. St. Louis, USA 1996.
** Frank, A. & Asuncion, A. (2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml].
Irvine, CA: University of California, School of Information and Computer Science.
Genexpression
Genotyp Phänotyp
43
Copyright © 2010, SAS Institute Inc. All rights reserved.
Modellierung mit Entscheidungsbäumen –Partition Plattform (VDD/JMP) Nicht-parametrisches Multi-Klassifikationsmodell
basierend auf rekursiver Partitionierung der Daten in Teildatensätze (Knoten / Blätter)
Heterogen untereinander
Homogen innerhalb
Verschiedene Heterogenitäts-maße hinsichtlich der Ziel-größe (2, Gini, Entropie)
Flexibel bzgl. Skalenniveaus
Robust bzgl. fehlender Werte
Leichte Interpretierbarkeitdurch Regeln
Copyright © 2010, SAS Institute Inc. All rights reserved. 17
44
Copyright © 2010, SAS Institute Inc. All rights reserved.
Modellierung mit Support Vector Machines –R-Implementierung* innerhalb eines JSL-Skript Suche nach der bzgl. der Zielklassen optimal
separierenden Hyperebene durch Maximierungder Differenzen zwischen den nächstenPunkten (Support Vektoren)unterschiedlicher Klassen
Kerneltechniken, falls keinlinearer Separator gefunden wird
Hohe Klassifikationsgenauigkeit
Geringe Interpretierbarkeit
* Algorithmus nach Chang und Lin. Bestandteil des R-Packetes
"e1071" der "Working Group Computational Intelligence" der TU Wien.
50
Copyright © 2010, SAS Institute Inc. All rights reserved.
Integration von MS EXCEL in JMP/VDD
Copyright © 2010, SAS Institute Inc. All rights reserved. 18
51
Copyright © 2010, SAS Institute Inc. All rights reserved.
JMP optimiert EXCEL-Modelle
Optimierte
Parameter
JMP findet optimale Faktorausprägungen für Rechenmodelle
52
Copyright © 2010, SAS Institute Inc. All rights reserved.
JMP optimiert EXCEL-Modelle
Ergebnis: Verteilung
der Zielgröße
JMP simuliert Unschärfen für nicht kontrollierbare Einflussgrößen
Annahme zufälliger Streuung
Copyright © 2010, SAS Institute Inc. All rights reserved. 19
53
Copyright © 2010, SAS Institute Inc. All rights reserved.
Visualisierung mittels Graph Builder
Darstellung statistischer Kenngrößen im Grafikdialog
Speichern der Grafiken als Skript in der Datentabelle
54
Copyright © 2010, SAS Institute Inc. All rights reserved.
Visualisierung mittels Graph Builder
Abrufen gespeicherter Skripte aus der Datentabelle
Copyright © 2010, SAS Institute Inc. All rights reserved. 20
55
Copyright © 2010, SAS Institute Inc. All rights reserved.
Gebietsbezogene Darstellung mit Graph Builder
56
Copyright © 2010, SAS Institute Inc. All rights reserved.
Karte von Napoleons Russlandfeldzug 1812 nach Charles Minard (1869)
Copyright © 2010, SAS Institute Inc. All rights reserved. 21
57
Copyright © 2010, SAS Institute Inc. All rights reserved.
Karte von Napoleons Russlandfeldzug 1812 animiert mit JMP (2010)
58
Copyright © 2010, SAS Institute Inc. All rights reserved.
Zusammenfassung
Ist Visual Data Discovery nur alter Wein in neuen Schläuchen?
Natürlich Nicht!
Schnelle, einfache, hochgradig visuelle und interaktive Analysen per Point an Click ohne mühevolle Syntaxchecks und Programmierung
» Intuitive Visualisierung von Geoinformationen
R-Integration zur Nutzung externer Algorithmen
Datenvorhaltung im RAM mit 64-Bit Architektur zur schnellen interaktiven Visualisierung
Durchgriffsmöglichkeiten auf die volle analytische Power der SAS Foundation Module (Base, STAT, IML, QC, OR, ETS, Graph, …)
Möglichkeit der Grid-Unterstützung auf einem Compute-Server
Nutzung von SAS Funktionalität über Stored Processes
Bei Projektfragen stehen wir Ihnen gerne weiter zur Verfügung
Copyright © 2010, SAS Institute Inc. All rights reserved. 22
59
Copyright © 2010, SAS Institute Inc. All rights reserved.
WeiterführendeProduktinforma-tionen finden Sie unter:
Produktseite
http://www.sas.com/technologies/analytics/statistics/datadiscovery
Produkt Broschüre
http://www.sas.com/resources/factsheet/factsheet_vdd.pdf
Weiterführende individuelle Gespräche mit uns direkt im Anschluss
Copyright © 2010 SAS Institute Inc. All rights reserved.
Vielen Dank für Ihre Aufmerksamkeit
Copyright © 2010, SAS Institute Inc. All rights reserved. 23
61
Copyright © 2010, SAS Institute Inc. All rights reserved.
Weiteres Informationsmaterial –6 kurze Videos zum Thema Visual Data Discovery1. Interactively access and explore data to see hidden
patterns and opportunities
2. Quickly perform what-if analysis and simulations
3. Easily model your data and score output without coding
4. Provide dynamic analytic output to empower information consumers and decision makers
5. Capture and automate your statistical analysis for consistent data-driven insights
6. Enhance analytics options within JMP using SAS code and techniques