linux day 2009 - intelliware - ferrara
DESCRIPTION
business intelligence, pentaho, BI, linux day, 2009, FerraraTRANSCRIPT
1Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Strumenti Open Source per Data Mining e Business intelligence
Giacomo Gamberoni e Denis FerrarettiIntelliWARE, Ferrara
2Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
SommarioData Mining– Cos'è il Data Mining– Esempi e dataset– Tecniche– WEKA– Altri progetti
Business Intelligence– Scenario tipico– Dai dati alle decisioni– Architettura BI– Pentaho– Beekeper
3Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Cos'è il Data Mining
The non-trivial process of identifying– Valid– Novel– potentially useful, and– ultimately understandable patterns in data.
4Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Esempi di problemi
Distinguere mail/spam
Riconoscimento numeri scritti a mano
Valutazione usato auto
Distinguere categorie di geni (fori)
Analisi sondaggi elettorali
Analisi scontrini della spesa
Previsione abbandono clienti
Segmentazione visitatori
Valutazione afdabilità credito
5Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
UCI Machine Learning Repository
6Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
UCI Machine Learning Repository
7Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Esempi di dataset
Market Basket
Customer 1: beer, pretzels, potato chips, aspirin
Customer 2: diapers, baby lotion, grapefruit juice,
baby food, milk
Customer 3: soda, potato chips, milk
Customer 4: soup, beer, milk, ice cream
Customer 5: soda, cofee, milk, bread
Customer 6: beer, potato chips
8Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Tecniche di Data Mining
Pseudo-tecnica
Alberi decisionali
Regole associative
Clustering
9Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Pseudo problema
1 0Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Pseudo soluzione
IF salary<k then not repaid
kApproccio predittivo/descrittivo
1 1Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Alberi decisionali
1 2Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Valutazione della classifcazione
Si divide il dataset in due parti– Training set (per esempio 90% delle istanze)– Test set (per esempio 10% delle istanze)
Si usa il training set per apprendere l'albero e si testa il risultato usando le istanze del test set
Si compila la matrice di confusione
Esiste anche la 10-fold Cross Validation
1 3Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Clustering
Raggruppare gli elementi con caratteristiche simili
Attributi numerici
Non supervisionato (non c'è una classe defnita prima)
Algoritmi– K-means– Hierarchical
1 4Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Regole Associative
Si basa sul concetto di itemset (insieme di prodotti)– Supporto (frequenza in percentuale)
Regole tipo: x,y → z– Confdenza = supp(x,y,z)/supp(x,y)
Possibili regole trovate:– Latte → Pane (supporto 40%, confdenza 100%)– Latte, pane → Burro (supporto 40%, confdenza 50%)
Scontrino Latte Pane Burro Birra
1 1 1
2 1 1
3 1
4 1 1 1
5 1
Scontrino Prodotti
1 Latte, pane
2 Pane, burro
3 Birra
4 Latte, pane, burro
5 Pane
1 5Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
WEKA: il software
Waikato Environment for Knowledge Analysis
Collezione di algoritmi allo stato dell'arte per Data Mining, implementato in Java– Rilasciato sotto licenza GPL
Supporto per l'intero processo di Data Mining sperimentale– Preparazione dei dati di input– Valutazione Statistica dei modelli appresi– Visualizzazione degli input e dei risultati
Usato per la didattica, la ricerca e le applicazioni
Complemento di “Data Mining” di Witten & Frank
1 6Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Main Features
49 strumenti di preprocessing
76 algoritmi di classifcazione/regressione
8 algoritmi di clustering
3 algoritmi per le regole associative
15 attribute/subset evaluators
+ 10 algoritmi di ricerca per feature selection
3 interfacce grafche – “The Explorer” (exploratory data analysis)– “The Experimenter” (experimental environment)– “The KnowledgeFlow” (new process model inspired interface)
1 7Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
C'era una volta...
1 8Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Oggi:
1 9Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Classifcatori
2 0Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Alberi Decisionali
2 1Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Knowledge fow
2 2Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Experimenter
2 3Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Progetti che sfruttano WEKA
Rapid Miner (suite)
Gate (NLP)
GRB Tool Shed
Judge (Docs)
Pentaho
2 4Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Bibliografa Data Mining
Data mining– Data Mining: Practical Machine Learning Tools and Techniques (2ed), Ian H. Witten, Eibe Frank,
Morgan Kaufmann, 2005– Machine Learning, Tom Mitchell, McGraw Hill, 1997.– http://www.kdnuggets.com/– http://www.cs.waikato.ac.nz/ml/weka/
Algoritmi– Quinlan, J. R. 1986 “Induction of Decision Trees” Mach. Learn. 1, 1 (Mar. 1986), 81-106.– Agrawal R, Imielinski T, Swami AN "Mining Association Rules between Sets of Items in Large
Databases." SIGMOD. June 1993, 22(2):207-16– MacQueen, J. B. 1967 "Some Methods for classifcation and Analysis of Multivariate
Observations", Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, 1:281-297
2 5Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
uno scenario tipico...
...è quello di una grande azienda, con numerose fliali, i cui dirigenti desiderano quantifcare e valutare il contributo dato da ciascuna di esse al rendimento commerciale globale dell’impresa.
2 6Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
uno scenario tipico...
...è quello di una grande azienda, con numerose fliali, i cui dirigenti desiderano quantifcare e valutare il contributo dato da ciascuna di esse al rendimento commerciale globale dell’impresa.
BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE
la business intelligence è un insieme di strumenti
e procedure che consentono a un'azienda
di trasformare i propri dati di business
in informazioni utili al processo decisionale, da rendere disponibili alla persona giusta e
nel formato idoneo
2 7Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
dai dati alle informazioni
costituisce la materia prima che viene trasformata dai sistemi informativi, come i semilavorati vengono trasformati dai sistemi di produzione
la disponibilità di troppi dati rende difcile estrapolare le informazioni veramente importanti
DATI = INFORMAZIONIDATI = INFORMAZIONI
l'informazione è un bene a valore crescente, necessario per pianifcare e controllare le attività aziendali con efcacia
2 8Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
la piramide della BI
2 9Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
la piattaforma di BI
Si parla di piattaforma di BI poiché per consentire ai manager analisi potenti e fessibili è necessario defnire un’apposita infrastruttura hardware e software di supporto composta da:
● Hardware dedicato● Infrastrutture di rete● DBMS● Software di back-end● Software di front-end
3 0Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
architettura di BI
3 1Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
le domande
“Che incassi sono stati registrati l’anno passato per ciascuna regione e ciascuna categoria di prodotto?”
“Che correlazione esiste tra l’andamento dei titoli azionari dei produttori di PC e i proftti trimestrali lungo gli ultimi 5 anni?”
“Quali sono gli ordini che massimizzano gli incassi?”
“Quale di due nuove terapie risulterà in una diminuzione della durata media di un ricovero?”
“Che rapporto c’è tra i proftti realizzati con spedizioni di meno di 10 elementi e quelli realizzati con spedizioni di più di 10 elementi?”
3 2Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
esempio di aree di utilità
Commercio – analisi delle vendite e dei reclami, controllo di spedizioni e
inventari, cura del rapporto con i clienti
Manifattura – controllo dei costi di produzione, supporto fornitori e ordini
Servizi fnanziari – analisi del rischio e delle carte di credito, rivelazione di frodi
Trasporti – gestione parco mezzi
Telecomunicazioni– analisi del fusso delle chiamate e del proflo dei clienti
Sanità – analisi di ricoveri e dimissioni, contabilità per centri di costo
3 3Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
tecniche di analisi dei dati
Una volta che i dati sono stati ripuliti, integrati e trasformati, occorre capire come trarne il massimo vantaggio informativo
Esistono in sostanza tre approcci diferenti, supportati da altrettante categorie di strumenti, all’interrogazione di un DW da parte degli utenti fnali:– OLAP: richiede all’utente di ragionare in modo
multidimensionale e di conoscere l’interfaccia dello strumento grafco utilizzato
– reportistica/dashboarding: non richiede conoscenze informatiche
– data mining: richiede una conoscenza specifca e tecnica (consulente)
3 4Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
strumenti: OLAP (On-Line Analytical Processing)
Analisi dei dati in tempo reale mediante interfacce user friendly
Dati organizzati in base al modello multidimensionale: i fatti di interesse sono rappresentati in cubi.
3 5Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
OLAP: le gerarchie
3 6Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
OLAP: le operazioni sui cubi
3 7Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
OLAP: le operazioni sui cubi
Al manager di prodotto interessa la vendita di un prodotto in tutti i periodi e in tutti i mercati
Al manager regionale interessa la vendita dei prodotti in tutti i periodi nei propri mercati
3 8Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
OLAP: le operazioni sui cubi
Al manager fnanziario interessa la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente
Il manager strategico si concentra su una categoria di prodotti, una area regionale e un orizzonte temporale medio
3 9Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
strumenti: REPORTISTICA e DASHBOARDING
Possibilità di utilizzare un’unica sorgente dati integrata e consistente per realizzare la reportistica/dashboarding
Report sempre aggiornati
Possibilità di costruire una “visione d’insieme” in tempo reale
4 0Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
strumenti: DATA MINING
Ofrono possibilità di analisi “superiori” e complementari rispetto a quelle ottenibili tramite i sistemi OLAP
Richiedono la presenza di “esperti” per scegliere/impostare/tarare/interpretare gli algoritmi impiegati
4 1Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO BI Suite
4 2Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO
Pentaho è un software open source commerciale per la Business Intelligence
Pentaho sviluppato a partire dal 2004
Pentaho comprende: reporting, OLAP analysis, dashboards, data integration (ETL), data mining e una piattaforma di BI.
Software Open Source
Ha una community per il supporto degli utenti
Multipiattaforma (Windows, Linux, Macintosh, Solaris, Unix,...)
4 3Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
modello di sviluppo BeekeeperJames Dixon, Pentaho Chief Technology Ofcer
le api sono libere di andarsene: l'apicoltore deve creare un ambiente bello e confortevole
i clienti non hanno niente a che fare con le api, vogliono solo il loro miele
la crescita dell'allevamento dipende da quanto miele/cera viene venduto, questo dipende in parte dalle capacità del venditore e in parte dalla quantità di miele disponibile
la quantità di miele dipende dal numero di api e questo dipende da quanto miele/cera viene lasciato alle api
4 4Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
software proprietario e software open source
4 5Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
software commerciale open source
rispecchia il modello dell'apicoltore
include il modello proprietario e quello open
i clienti sono le aziende
4 6Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO architettura
La Suite PENTAHO– BI Platform– Pentaho Dashboard– Report Designer– Mondrian (OLAP)– Kettle (ETL)– Weka (Data Mining)
Tutto sviluppato su piattaforma JAVA.
4 7Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO
4 8Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO Dashboard
Il servizio Dashboard di PENTAHO fornisce, all'utente business, le informazioni cruciali per migliorare le performance aziendali
Consente di avere un'immediata visione di insieme dei diversi aspetti aziendali attraverso la visualizzazione accattivante di metriche personalizzate
4 9Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO Reporting
Consente l'accesso semplice, la formattazione e la divulgazione delle informazioni.
5 0Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO Mondrian
Server Open Source OLAP
L'interfaccia web è JPivot
Esplorazione interattiva (slice-and-dice, drill-down) delle informazioni senza la necessità di conoscere linguaggi di query
5 1Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO Kettle
Consente l'accesso, la pulizia e l'integrazione dei dati aziendali
Operazioni di estrazione, trasformazione e caricamento dei dati, attraverso un ambiente di progettazione grafco.
5 2Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO Weka
...
5 3Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
PENTAHO e oltre...
5 4Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
GRAZIE PER L'ATTENZIONE
www.i-ware.it