ricco rakotomalala université lumière lyon...
TRANSCRIPT
![Page 1: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/1.jpg)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Ricco RakotomalalaUniversité Lumière Lyon 2
![Page 2: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/2.jpg)
Ricco Rakotomalala
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
• http://chirouble.univ-lyon2.fr/~ricco/cours/Publications, ressources, liens, logiciels, …
![Page 3: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/3.jpg)
Plan
1. Qu’est ce que le Data Mining ?
2. Spécificités du Data Mining
3. Quelques exemples
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
3. Quelques exemples
4. Typologie des méthodes de Data Mining
5. Ressources – Sites web et bibliographie
![Page 4: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/4.jpg)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Une démarche plus qu’une théorie !
![Page 5: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/5.jpg)
Exemple introductif : demande de crédit bancaire
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
• divorcé• 5 enfants à charge• chômeur en fin de droit• compte à découvert
![Page 6: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/6.jpg)
• coûteuse en stockage• inexploitée
Expérience de l’entreprise : ses clients et leur comportement
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Comment et à quelles fins utiliser cette expérienceaccumulée
• inexploitée
![Page 7: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/7.jpg)
• Echantillonnage• Préparation des données• Visualisation des données
• Graphes d'Induction• Réseaux de neurones• Analyse discriminante• Régression logistique
• Tests statistiques• Re-échantillonnage
table modèles Connaissances
Le processus ECD (Extraction de connaissances à partir de données)KDD – Knowledge discovery in Databases
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Fouille desdonnées (Data mining)Bases de
données
Mise en forme des Connaissances
DéploiementExploitation
Définition : Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996)
![Page 8: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/8.jpg)
Source : CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication
Vous ne pouvez pas travailler seul. Travailler en synergie avec l’expert du domaine est primordial !
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
![Page 9: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/9.jpg)
Émergence de l’ECD : domaines d’applications
Domaine des assurances• analyse des risques (caractérisation des clients à hauts risques, etc.)• automatisation du traitement des demandes (diagnostic des dégâtset détermination automatique du montant des indemnités)
Services financiers• consentements de prêts automatisés, support à la décision de crédit
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
• consentements de prêts automatisés, support à la décision de crédit• détection des fraudes
Grande distribution• profils de consommateurs et modèles d’achats• constitution des rayonnages• marketing ciblé
![Page 10: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/10.jpg)
Définition :Processus non-trivial d ’identification de structures inconnues, valideset potentiellement exploitables dans les bases de données (Fayyad, 1996)
Est-ce vraiment nouveau ?
Data Mining : Une nouvelle façon de faire de la statistique ?http://cedric.cnam.fr/~saporta/DM.pdfL’analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.» (J.P.Benzécri1973)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
pur diamant de la véridique nature.» (J.P.Benzécri1973)
The basic steps for developing an effective process model ?http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm
1. Model selection2. Model fitting3. Model validation
![Page 11: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/11.jpg)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
(1) Sources de données(2) Techniques utilisées(3) Multiplicité des supports
![Page 12: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/12.jpg)
Sources de données• valoriser les fichiers de l’entreprise• construire des entrepôts• modifier le schéma organisationnel
Techniques utilisées• Intégrer des techniques d’origines diverses
Spécificités du Data Mining
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
• Intégrer des techniques d’origines diverses
Élargissement des supports• Text mining• Image mining• … Multimédia mining
![Page 13: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/13.jpg)
Les sources de données
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Stockage• orientation analyse• historisées• non-volatilesProduction
• orientation service(ventes, comptabilité,marketing…)• volatiles
![Page 14: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/14.jpg)
L’organisation du flux d’informations et les acteurs
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
![Page 15: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/15.jpg)
Systèmes de gestion (opérationnel)
Systèmes décisionnels(analyse)
Objectifdédié au métier et à la productionex: facturation, stock, personnel
dédié au management de l'entreprise(pilotage et prise de décision)
Volatilitédonnées volatilesex: le prix d'un proiduit évolue dans le
données historiséesex: garder la trace des évolutions des
Systèmes de gestion et systèmes décisionnels
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
Volatilité(perennité)
ex: le prix d'un proiduit évolue dans le temps
ex: garder la trace des évolutions des prix, introduction d'une information daté
Optimisation
pour les opérations associéesex: passage en caisse (lecture de code barre)
pour l'analyse et la récapitulationex: quels les produits achetés ensembles
Granularité des données
totale, on accède directement aux informations atomiques
agrégats, niveau de synthèse selon les besoins de l'analyse
![Page 16: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/16.jpg)
Data Mining vs. Informatique Décisionnelle (Business Intelligence)
L’informatique décisionnelle (… BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'une entreprise d’avoir une vue d’ensemble de l’activité traitée.(http://fr.wikipedia.org/wiki/Informatique_décisionnelle)
• Sélectionner les données (par rapport à un sujet et/ou une période)• Trier, regrouper ou répartir ces données selon certains
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
• Trier, regrouper ou répartir ces données selon certains critères• Élaborer des calculs récapitulatifs « simples » (totaux, moyennes conditionnelles, etc.)• Présenter les résultats de manière synthétique (graphique et/ou tableaux de bord) � REPORTING
http://www.commentcamarche.net/entreprise/business-intelligence.php3
Le Data Mining est proche de ce cadre, mais elle introduit une dimension supplémentaire qui est la modélisation « exploratoire » (détection des liens de cause à effet, validation de leur reproductibilité)
![Page 17: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/17.jpg)
Spécificités du Data Mining
Techniques d’exploration de données
• Des techniques d’origines diverses, issues de cultures différentes• …mais qui traitent des problèmes similaires• et qui partent toujours d’un tableau de données
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
• et qui partent toujours d’un tableau de données
![Page 18: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/18.jpg)
Techniques utilisées selon leur « origine »
StatistiquesThéorie de l’estimation, testsÉconométrie
Maximum de vraisemblance et moindres carrésRégression logistique, …
Analyse de données(Statistique exploratoire)Description factorielleDiscriminationClustering
Méthodes géométriques, probabilitésACP, ACM, Analyse discriminante, CAH, …
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Informatique(Intelligence artificielle)Apprentissage symboliqueReconnaissance de formes
Une étape de l’intelligence artificielleRéseaux de neurones, algorithmes génétiques…
Informatique(Base de données)Exploration des bases de données
VolumétrieRègles d’association, motifs fréquents, …
Très souvent, ces méthodes reviennent à optimiser les mêmes critères,mais avec des approches / formulations différentes
![Page 19: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/19.jpg)
Techniques issues de l’Intelligence Artificielle
Les réseaux de neurones artificiels
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
• capacité d ’apprentissage(universel)• structuration / classement
![Page 20: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/20.jpg)
Techniques en provenance des BD
If MARITAL_STMARITAL_STMARITAL_STMARITAL_ST is DivorcedDivorcedDivorcedDivorcedThenSPOUSE_TITSPOUSE_TITSPOUSE_TITSPOUSE_TIT is NoneNoneNoneNoneRule's probability: 0.9520.9520.9520.952The rule exists in 40404040 records.
If MARITAL_STMARITAL_STMARITAL_STMARITAL_ST is DivorcedDivorcedDivorcedDivorcedand LOAN_LENGTLOAN_LENGTLOAN_LENGTLOAN_LENGT = 4.004.004.004.00ThenGUARANTEEGUARANTEEGUARANTEEGUARANTEE is NoNoNoNo
Les règles d’association
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
ThenGUARANTEEGUARANTEEGUARANTEEGUARANTEE is NoNoNoNoRule's probability: 0.9660.9660.9660.966The rule exists in 28282828 records.
AAAA = B + 2.00B + 2.00B + 2.00B + 2.00where: AAAA = FAMILY_COUFAMILY_COUFAMILY_COUFAMILY_COU
BBBB = CHILDRENCHILDRENCHILDRENCHILDRENAccuracy level : 0.960.960.960.96The rule exists in 397397397397 records.
• traitement « omnibus »• connaissance interprétable
![Page 21: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/21.jpg)
Spécificités du Data Mining
Élargissement des supports• Text mining• Image mining
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
• Image mining• …autres…
L’appréhension des sources multiples
![Page 22: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/22.jpg)
Élargir les supports
PrédictionStructurationDescription
Rôle fondamental de la préparation des données
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
DescriptionAssociation
Les applicationsFiltrage automatique des e-mails (spams, terrorisme,...)Reconnaissance de la langue à une centrale téléphoniqueDétection des images pornographiques sur le webAnalyse des mammographiesEtc.
![Page 23: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/23.jpg)
Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data
Les big data, littéralement les grosses données, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.
Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens. Ces analyses sont appelées Big Analytics ou “Broyage de données”. Elles
DEF
INIT
ION
DEF
INIT
ION
DEF
INIT
ION
DEF
INIT
ION
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
analyses sont appelées Big Analytics ou “Broyage de données”. Elles portent sur des données quantitatives complexes avec des méthodes de calcul distribué.
En 2001, un rapport de recherche du META Group (devenu Gartner) définit les enjeux inhérents à la croissance des données comme étant tri-dimensionnels : les analyses complexes répondent en effet à la règle dite des « 3V », volume, vélocité et variété. Ce modèle est encore largement utilisé aujourd'hui pour décrire ce phénomène.
ENJE
UX
ENJE
UX
ENJE
UX
ENJE
UX
![Page 24: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/24.jpg)
Data Mining vs. Big Data (2/3) – Les 3 « V »
VOLU
ME
VOLU
ME
VOLU
ME
VOLU
ME Outils de recueil de données de plus en plus présents, dans les
installations scientifiques, mais aussi et surtout dans notre vie de tous les jours (ex. cookies, GPS, réseaux sociaux [ex. lien « like » - « profils »], cartes de fidélité, etc.). Il faut pouvoir les (données) traiter !
VAR
IETE
VAR
IETE
VAR
IETE
VAR
IETE
Sources, formes et des formats très différents, structurées ou non-structurées : on parle également de données complexes (ex. texte en provenance du web, images, liste d’achats, données de géolocalisation,
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
VAR
IETE
VAR
IETE
VAR
IETE
VAR
IETE
provenance du web, images, liste d’achats, données de géolocalisation, etc.). Il faut les traiter simultanément !
VELO
CIT
EVE
LOC
ITE
VELO
CIT
EVE
LOC
ITE Mises à jour fréquentes, données arrivant en flux, obsolescence rapide
de certaines données… nécessité d’analyses en quasi temps réel (ex. détection / prévention des défaillances, gestion de file d’attente)Il faut les traiter rapidement !
![Page 25: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/25.jpg)
Data Mining vs. Big Data (3/3)
Big
Big
Big
Big
data
vs.
BI ?
data
vs.
BI ?
data
vs.
BI ?
data
vs.
BI ?
(Wikipédia) ...la maturation du sujet fait apparaitre un autre critère plus fondamental de différence d’avec le Business Intelligence et concernant les données et leur utilisation :� Business Intelligence : utilisation de statistique descriptive [reporting, tableaux de bord,…], sur des données à forte densité en information afin de mesurer des phénomènes, détecter des tendances… ;� Big Data : utilisation de statistique inférentielle, sur des données à faible densité en information dont le grand volume permet d’inférer des lois (régressions….) donnant dès lors (avec les limites de l’inférence) au big data des capacités prédictives [modélisation, analyse prédictive,…].
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
Mais alors…Mais alors…Mais alors…Mais alors… BIG DATA = DATA MINING ++++++++
Avec de nouveaux Avec de nouveaux Avec de nouveaux Avec de nouveaux défis défis défis défis technologiques technologiques technologiques technologiques / / / / méthodologiques liés aux méthodologiques liés aux méthodologiques liés aux méthodologiques liés aux 3 «3 «3 «3 « VVVV »»»»
• Cloud computing (ex. APACHE HADOOP / MAHOUT)• Fouille de données complexes• Data stream mining• Etc.
![Page 26: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/26.jpg)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
(1) Ciblage de clientèle : le scoring(2) Étiquetage automatique de « nouvelles »
![Page 27: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/27.jpg)
Ciblage de clientèle par publipostage (1/2)
Banque française
Objectif : Augmenter l’adhésion à un service en ligne (taux d’abonnement actuel 4%)
Base marketing : plusieurs centaines de milliers de clients,~200 variables (95% sont quantitatives)
Méthode : isoler des groupes d’individus se ressemblant dans lequel
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
Méthode : isoler des groupes d’individus se ressemblant dans lequelle taux d’abonnement est élevé
� les non-abonnés dans ces groupes seront (certainement ?) sensibles à une offre ciblée(hypothèse : s’ils ne sont pas abonnés, c’est qu’ils n’ont pas reçu l’information)
� technique : arbre de décision avec échantillonnage équilibré sur chaque noeud
![Page 28: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/28.jpg)
Évaluation : dépasser le taux (coût) d’erreur, mesurer la qualité du ciblage� meilleur ciblage : toutes les personnes contactées ont souscrit un contrat
0.4
0.6
0.8
1
Cum
ulat
ive
% o
f "ra
re"
Optimal
BLS-10000
BLS-500
BLS-300
BgS-10000
Ciblage de clientèle par publipostage (2/2)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
0
0.2
0 0.2 0.4 0.6 0.8 1
Cumulative % of the population
Cum
ulat
ive
% o
f "ra
re"
BgS-2000
Random
Individu
Probabilité de souscrire
Pourc. Ind.cumul
Pourc. CiblésCumul Pourc. Ciblés
4 0.95 10% 19% 0.199 0.9 20% 37% 0.18
10 0.8 30% 53% 0.166 0.65 40% 66% 0.133 0.6 50% 78% 0.127 0.5 60% 88% 0.12 0.35 70% 95% 0.075 0.25 80% 100% 0.058 0 90% 100% 01 0 100% 100% 0
5.00
![Page 29: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/29.jpg)
Text Mining – Catégorisation de nouvelles (1/3)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
![Page 30: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/30.jpg)
Text Mining – Catégorisation de nouvelles (2/3)
Codage de texte en tableau de données
Les chercheurs qui cherchent, on en trouveMais les chercheurs qui trouvent, on en cherche
Mots clés• lemmatisation• stopwords
Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche1 1 1 1 1 1 1 1 0 0 02 1 1 1 0 1 1 0 1 1 1
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
• stopwords
3-grams• corresp. avec les mots• problème du sens
Phrase Les es s c ch che her rch eur1 1 1 1 2 4 2 2 12 1 1 1 1 4 2 2 1 …
![Page 31: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/31.jpg)
Text Mining – Catégorisation de nouvelles (3/3)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Exemple : appartenance au sujet « crude »(pétrole brut)
![Page 32: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/32.jpg)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Quelle méthode utiliser par rapport :• aux objectifs de l’étude ?• aux données disponibles ?
![Page 33: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/33.jpg)
Tableau de données
Success Wages Job RefundingY 0 Unemployed SlowN 2000 Skilled Worker SlowN 1400 Worker SlowN 1573 Retired Slow
Variables, caractères, attributs,Descripteurs, champs, etc.
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
N 1573 Retired SlowY 2776 Skilled Worker SlowN 2439 Retired FastN 862 Office employee SlowY 1400 Salesman SlowN 1700 Skilled Worker SlowY 785 Employee FastY 1274 Worker SlowN 960 Employee FastN 1656 Worker FastN 0 Unemployed Slow
Individus, observations, objets, enregistrements, e tc.
![Page 34: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/34.jpg)
� données nominales (ex. success, job…)� nombre de cas dénombrables� codés pour distinguer les modalités� aucune relation d ’ordre entre les codes� opérateurs arithmétiques/mathématiques inapplicables
� données ordinales (ex. Refunding…)� nombre de cas dénombrables� codés pour distinguer les modalités� il existe une relation d ’ordre entre les modalités
Types de variables
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
� il existe une relation d ’ordre entre les modalités� les écarts ne sont pas quantifiables� codés sous forme de rangs, on peut appliquer des calculs
� données numériques ou continues (ex. Wages…)� nombre de cas théoriquement infini� il existe une relation d ’ordre entre les valeurs� les écarts sont quantifiables� distinction entre échelle proportionnelle et non-proportionnelle(ex. 20°C/10°C = 2 et 68°F/50°F = 1.6 : non proportionnelle ; kg et livres : proportionnelle )� calculs autorisés, algébriques
![Page 35: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/35.jpg)
Distinguer les types de variables
On peut distinguer les différents types de données à partir dela définition de l ’opérateur différence :
Nominale :
≠=
=ba
baAB xxsi
xxsid
,1
,0
>+ xxsi,1
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
Ordinale :
<−=
>+=
ba
ba
ba
AB
xxsi
xxsi
xxsi
d
,1
,0
,1
Continue : baAB xxd −=
![Page 36: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/36.jpg)
� Codage disjonctif complet
Données continuesDonnées qualitatives (nominales, ordinales)
Refunding Ref_Slow Ref_Normal Ref_Fast
Qualitatives vers continues
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
FastSlowFastNormalSlow
Ref_Slow Ref_Normal Ref_Fast0 0 11 0 00 0 10 1 01 0 0
❢ on perd l ’information d ’ordre sur les données ordinales
![Page 37: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/37.jpg)
Continues vers ordinales
Données ordinalesDonnées continues
� Discrétisation� par expert� automatique non-contextuelle� automatique contextuelle
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37
age
1000
age
vieuxadultejeune
❢ on perd l ’information sur les écarts❢ on peut traiter des relations non-linéaires
![Page 38: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/38.jpg)
Données continuesDonnées continues
� Standardisation� centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne� réduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne
Transformation distributionnelle
Continues vers continues
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38
� Transformation distributionnelle
Var Orig.
0
6
12
18
24
30
36
42
48
54
60
66
72
78
<= 0 (0;2] (2;4] (4;6] (6;8] (8;10] (10;12] (12;14] > 14
Var Transf.
0
2
4
6
8
10
12
14
16
18
20
22
24
<= -3(-3;-2.5]
(-2.5;-2](-2;-1.5]
(-1.5;-1](-1;-.5]
(-.5;0](0;.5]
(.5;1](1;1.5]
(1.5;2](2;2.5]
(2.5;3]> 3
)ln( 12 xx =
![Page 39: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/39.jpg)
Typologie des méthodes selon les objectifs
Description :trouver un résumé desdonnées qui soit plus intelligible• statistique descriptive• analyse factorielle
Ex : moyenne d’âge des personnesprésentant un cancer du sein
Structuration :Faire ressurgir des groupes « naturels »qui représentent des entités particulières• classification (clustering, apprentissage non-supervisé)
Ex : découvrir une typologie de comportementdes clients d’un magasin
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 39
Explication :Prédire les valeurs d’un attribut (endogène)à partir d’autres attributs (exogènes)• régression• apprentissage supervisé
Ex : prédire la qualité d’un client (rembourseou non son crédit) en fonction de ses caractéristiques(revenus, statut marital, nombre d’enfants, etc.)
Association :Trouver les ensembles de descripteursqui sont le plus corrélés• règles d’assocation
Ex : rayonnage de magasins, les personnes qui achètent du poivre achètent également du sel
les méthodes sont le plus souvent complémentaires !
![Page 40: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/40.jpg)
Sous-typologie selon le type de données : la prédiction / explication
Explication
Endogène continueExogènes continues
Endogène continueExogènes discrètes
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40
Exogènes continues
Régression
Endogène discrèteExogènes quelconques
Apprentissage supervisé
Analyse de variance
![Page 41: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/41.jpg)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41
(1) Logiciels(2) Ouvrages et ressources en ligne
![Page 42: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/42.jpg)
Logiciels de DATA MINING – Fonctionnalités
Accès et préparation des donnéesAccéder à un fichier / une BDRassembler des sources différentes
Méthodes de Fouille de donnéesLancer les calculs avec différents algorithmesBibliothèque de méthodes
Enchaîner les traitementsFaire coopérer les méthodes sans programmer
Évaluer les connaissances
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 42
Logiciels commerciauxPrototypes de recherche
Évaluer les connaissancesValidation croisée, etc.
Exploiter les sortiesRapports, visualisation interactive, etc.
Appliquer/exploiter les modèlesModèles en XML, code C, DLL compiléesPrédiction directe sur de nouveaux fichiers
![Page 43: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/43.jpg)
Logiciels de DATA MINING – Les logiciels disponibles� Commerciaux
SPAD
SAS Enterprise miner
SPSS Clementine
STATISTICA Data Miner
IBM Intelligent Miner
RAPIDMINER (*)
• Simplicité du pilotage (filière - diagramme)• Techniques variées• Déploiement• Outils de « reporting »
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43
KNIME (*)
� Universitaires
R (*)
TANAGRA
SIPINA v2.5 & Recherche
WEKA (*)
ORANGE
• Spécifique à certaines techniques• Techniques référencées - publiées• Outils de validation
![Page 44: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/44.jpg)
ConclusionLa démarche DATA MINING
• formalisation des objectifs• acquisition des données• préparation des données• apprentissage – application des méthodes• interprétation – explication• évaluation et validation
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44
• évaluation et validation• déploiement
Pas de miracle si :Les objectifs sont mal définisLes données disponibles ne conviennent pasLes données sont mal « préparées »On n’utilise pas les techniques appropriées
![Page 45: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/45.jpg)
Bibliographie : pratique du Data Mining
• « Le Data mining », R. Lefebure et G. Venturi, ed. Eyrolles, 2001.Peu technique, point de vue général, très bon recul, complet
• « Data Mining et statistique décisionnelle », S. Tufféry, ed. technique, 2006.Plutôt guide pratique : repères pour les projets, opportunités, méthodes
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45
Plutôt guide pratique : repères pour les projets, opportunités, méthodes
« Analyse discriminante – Application au risque et au scoring financier », M. Bardos, ed. Dunod, 2001.Technique pratique, avec de bons repères théoriques, tourné vers les applications
![Page 46: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/46.jpg)
Bibliographique : compréhension des méthodes
• « Data Mining : Practical machine learning tools and techniques with Javaimplementations », I. Witten and E. Frank, Morgan Kaufman Pub., 2000.
Très général et complet, logiciel libre accès, technique
• « The elements of statistical learning - Data Mining, Inference and Prediction »,
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 46
• « The elements of statistical learning - Data Mining, Inference and Prediction », T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois
• «Machine Learning », T. Mitchell, Mc Graw-Hill Editions, 1997.Très très technique, surtout méthodes supervisées, encyclopédique
![Page 47: Ricco Rakotomalala Université Lumière Lyon 2eric.univ-lyon2.fr/~ricco/cours/slides/Introduction_au_Data_Mining.pdf · (perennité) temps prix, introduction d'une information daté](https://reader036.vdocuments.site/reader036/viewer/2022062602/5eb617a76b529b00ce6b4eaf/html5/thumbnails/47.jpg)
Ressources en ligne
Sites web et portails :• http://chirouble.univ-lyon2.fr/~ricco/data-miningUn portail pour la documentation : liens, supports de cours en ligne, logiciels, données• Data Mining dixit Wikipédia : http://fr.wikipedia.org/wiki/Exploration_de_données
Site des tutoriels :• http://tutoriels-data-mining.blogspot.com/
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 47
• http://tutoriels-data-mining.blogspot.com/
• http://www.kdnuggets.com« Le » portail du DATA MINING, avec toute l’actualité du domaine
• Big data dixit SAS : http://www.sas.com/big-data/