bi datamining presentation

43
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 27/01/2009 1 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Upload: jlkazadi

Post on 09-Feb-2016

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BI Datamining Presentation

Stéphane Tufféry

DATA MINING& STATISTIQUE DÉCISIONNELLE

27/01/2009 1© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 2: BI Datamining Presentation

Présentation de l’auteur

• En charge de la statistique et du data mining dans ungrand groupe bancaire

• Enseigne le data mining en Master 2 à l’Université Paris-Dauphine, à l’Université Rennes 1 et à l’ISUP (UniversitéParis 6)

• Docteur en Mathématiques

27/01/2009 2© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Docteur en Mathématiques• Auteur de :

• Data Mining et Scoring (épuisé), Éditions Dunod, 2002• Data Mining et Statistique Décisionnelle, Éditions Technip,

2005, 2de édition 2007, préface de Gilbert SaportaOuvrage consacré à l’application en entreprise destechniques et méthodologies de data mining et statistique

Page 3: BI Datamining Presentation

Présentation du cours

• Cette présentation est issue de cours donnés dans desDESS et Master 2 d’Économétrie et d’Ingénierie Statistiqueentre 1999 et 2009.

• Ces enseignements ont ensuite trouvé un développementdans des ouvrages publiés chez Dunod puis chez Technip.

• Ces cours sont donc consacrés aux techniques de datamining, de statistique décisionnelle et de scoring, et à leur

27/01/2009 3© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

mining, de statistique décisionnelle et de scoring, et à leurmise en oeuvre en entreprise. Ils contiennent uneintroduction, une partie technique (préparation desdonnées, analyse factorielle, régression linéaire,régression logistique, GLM, analyse discriminante, arbresde décision, réseaux de neurones, algorithmes génétiques,SVM, k-means et centres mobiles, CAH…) et une partieméthodologique (conduite de projet, facteurs de succès,RSI, aspects informatiques, CNIL…).

Page 4: BI Datamining Presentation

Plan du cours

• Qu’est-ce que le data mining ?• A quoi sert le data mining ?• Les deux grandes familles de techniques• Le déroulement d’un projet de data mining• Coûts et gains du data mining• Facteurs de succès - Erreurs - Consulting• Informatique décisionnelle et de gestion

27/01/2009 4© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Informatique décisionnelle et de gestion• La préparation des données• Techniques descriptives de data mining• Techniques prédictives de data mining• Logiciels de statistique et de data mining• CNIL et limites légales du data mining• Le text mining• Le web mining

Page 5: BI Datamining Presentation

Qu’est-ce que le data mining ?

27/01/2009 5© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Qu’est-ce que le data mining ?

Page 6: BI Datamining Presentation

Place du data mining

27/01/2009 6© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 7: BI Datamining Presentation

La fouille de données

• Le data mining est l’ensemble des :• algorithmes et méthodes• … destinés à l’exploration et l’analyse• … de (souvent) grandes bases de données informatiques• … en vue de détecter dans ces données des règles, des

associations, des tendances inconnues (non fixées a

27/01/2009 7© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

associations, des tendances inconnues (non fixées apriori), des structures particulières restituant de façonconcise l’essentiel de l’information utile

• … pour l’aide à la décision

Page 8: BI Datamining Presentation

Data mining ≠ statistiques descriptives

• Les techniques de data mining sont bien sûr pluscomplexes que de simples statistiques descriptives :• outils d’intelligence artificielle (réseaux de neurones)• algorithmes sophistiqués (algorithmes génétiques, analyse

relationnelle)• théorie de l’information (arbres de décision)

27/01/2009 8© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• théorie de l’information (arbres de décision)• beaucoup d’analyse des données « traditionnelle »

(analyse factorielle, classification, analyse discriminante, etc.)

Page 9: BI Datamining Presentation

Data mining et statistique 1/2

• Hier :• études de laboratoire• expérimentations cliniques• actuariat• analyses de risque - scoring

27/01/2009 9© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• analyses de risque - scoring

• Volumes de données limités• Analyse du réel pour mieux le comprendre :

• les 1ères observations permettent de formuler deshypothèses théoriques que l’on confirme ou infirme àl’aide de tests statistiques

Page 10: BI Datamining Presentation

Data mining et statistique 2/2

• Aujourd’hui :• de l’∞ petit (génomique) à l’∞ grand (astrophysique)• du plus quotidien (reconnaissance de l’écriture manuscrite

sur les enveloppes) au moins quotidien (aide au pilotageaéronautique)

• du plus ouvert (e-commerce) au plus sécuritaire(détection de la fraude dans la téléphonie mobile ou les

27/01/2009 10© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

(détection de la fraude dans la téléphonie mobile ou lescartes bancaires)

• du plus industriel (contrôle qualité…) au plus théorique(sciences humaines, biologie…)

• du plus alimentaire (agronomie et agroalimentaire) auplus divertissant (prévisions d’audience TV)

• Volumes de données importants• Systèmes d’aide à la décision plus ou moins

automatiques

Page 11: BI Datamining Presentation

Des statistiques ...

• Statistique :• quelques centaines d’individus• quelques variables recueillies avec un protocole spécial

(échantillonnage, plan d’expérience...)• fortes hypothèses sur les lois statistiques suivies• les modèles sont issus de la théorie et confrontés aux données• méthodes probabilistes et statistiques

27/01/2009 11© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• méthodes probabilistes et statistiques• utilisation en laboratoire

• Analyse des données :• quelques dizaines de milliers d’individus• quelques dizaines de variables• construction des tableaux « Individus x Variables »• importance du calcul et de la représentation visuelle

Page 12: BI Datamining Presentation

... au Data mining

• Data mining :• plusieurs millions d’individus• plusieurs centaines de variables• nombreuses variables non numériques, parfois textuelles• données recueillies avant l’étude, et souvent à d’autres fins• données imparfaites, avec des erreurs de saisie, de codification, des

valeurs manquantes, aberrantes• population constamment évolutive (difficulté d’échantillonner)

27/01/2009 12© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• population constamment évolutive (difficulté d’échantillonner)• nécessité de calculs rapides, parfois en temps réel• on ne recherche pas toujours l’optimum mathématique, mais le

modèle le plus facile à appréhender par des utilisateurs non-statisticiens

• faibles hypothèses sur les lois statistiques suivies• les modèles sont issus des données et on en tire des éléments

théoriques• méthodes statistiques, d’intelligence artificielle et de théorie de

l’apprentissage (« machine learning »)• utilisation en entreprise

Page 13: BI Datamining Presentation

Préhistoire

• 1875 : régression linéaire de Francis Galton• 1896 : formule du coefficient de corrélation de Karl Pearson• 1900 : distribution du χ² de Karl Pearson• 1936 : analyse discriminante de Fisher et Mahalanobis• 1941 : analyse factorielle des correspondances de Guttman• 1943 : réseaux de neurones de Mc Culloch et Pitts

27/01/2009 13© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• 1943 : réseaux de neurones de Mc Culloch et Pitts• 1944 : régression logistique de Joseph Berkson• 1958 : perceptron de Rosenblatt• 1962 : analyse des correspondances de J.-P. Benzécri• 1964 : arbre de décision AID de J.P.Sonquist et J.-A.Morgan• 1965 : méthode des centres mobiles de E. W. Forgy• 1967 : méthode des k-means de Mac Queen• 1972 : modèle linéaire généralisé de Nelder et Wedderburn

Page 14: BI Datamining Presentation

Histoire

• 1975 : algorithmes génétiques de Holland• 1975 : méthode de classement DISQUAL de Gilbert Saporta• 1980 : arbre de décision CHAID de KASS• 1983 : régression PLS de Herman et Svante Wold• 1984 : arbre CART de Breiman, Friedman, Olshen, Stone• 1986 : perceptron multicouches de Rumelhart et McClelland

27/01/2009 14© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• 1986 : perceptron multicouches de Rumelhart et McClelland• 1989 : réseaux de T. Kohonen (cartes auto-adaptatives)• vers 1990 : apparition du concept de data mining• 1993 : arbre C4.5 de J. Ross Quinlan• 1996 : bagging (Breiman) et boosting (Freund-Shapire)• 1998 : support vector machines de Vladimir Vapnik• 2000 : régression logistique PLS de Michel Tenenhaus• 2001 : forêts aléatoires de L. Breiman

Page 15: BI Datamining Presentation

Le data mining aujourd’hui

• Ces techniques ne sont pas toutes récentes• Ce qui est nouveau, ce sont aussi :

• la recherche en IA et en théorie de l’apprentissage• les capacités de stockage et de calcul offertes par le

matériel et les techniques informatiques modernes• la constitution de giga-bases de données pour les besoins

27/01/2009 15© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• la constitution de giga-bases de données pour les besoinsde gestion des entreprises

• les logiciels universels, puissants et conviviaux• l’intégration du data mining dans les processus de

production

èqui permettent de traiter de grands volumes de donnéeset font sortir le data mining des laboratoires de recherchepour entrer dans les entreprises

Page 16: BI Datamining Presentation

Le data mining aujourd’hui

• Le data mining se répand particulièrement dans les secteurs qui, par leur activité, détiennent de nombreuses informations économiques et comportementales

27/01/2009 16© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

comportementales individualisées : VPC, grande distribution, téléphonie, banque...

• Selon le MIT (Massachussets Institute of Technology) : le data mining est l’une des 10 technologies émergentes qui « changeront le monde » au XXIesiècle.

Page 17: BI Datamining Presentation

Data mining et CRM

27/01/2009 17© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Data mining et CRM

Page 18: BI Datamining Presentation

Rappel : Gestion de la relation client

• La richesse des entreprises : leurs clients• Objectifs des entreprises :

• augmenter la rentabilité et la fidélité de leurs clients• en maîtrisant les risques• en utilisant les bons canaux au bon moment pour vendre

27/01/2009 18© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• en utilisant les bons canaux au bon moment pour vendrele bon produit

• Un des moyens d’y parvenir :• la Gestion de la Relation Client (GRC)• synonyme : Customer Relationship Management (CRM)• 2 éléments : CRM analytique, CRM opérationnel

• Une matière 1ère précieuse : les données sur les clients

Page 19: BI Datamining Presentation

CRM analytique et opérationnel

gestion des canaux → collecte des informations

clients

27/01/2009 19© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

gestion des campagnes ← analyse des informations

clients

CRM OPÉRATIONNEL CRM ANALYTIQUE

Page 20: BI Datamining Presentation

Le CRM opérationnel

• Objectif• mise en œuvre optimale des stratégies identifiées grâce

au CRM analytique

• Moyens• gestion des différents canaux

• forces commerciales, centres d’appels téléphoniques,

27/01/2009 20© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• forces commerciales, centres d’appels téléphoniques,serveurs vocaux, Minitel, centres d’appel web, bornesinteractives, téléphonie mobile, TV interactive…

• gestion des campagnes marketing

• Composants• outils interfacés avec les applications de back-office, les

progiciels de gestion intégrée (ERP), les outils de work-flow, de gestion des agendas et des alertes commerciales

Page 21: BI Datamining Presentation

Le CRM analytique

• Objectif• fournir une vision complète et unifiée du client dans

l’entreprise et mieux comprendre son profil et ses besoins

• Moyens• extraction, stockage, analyse et restitution des

informations pertinentes

27/01/2009 21© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

informations pertinentes

• Composants• data warehouse• data mart• analyse multidimensionnelle (OLAP)• data mining• outils de reporting

Page 22: BI Datamining Presentation

Ce que l’on veut savoir

• On ne veut plus seulement savoir :• « Combien de clients ont acheté tel produit pendant telle

période ? »

• Mais :

27/01/2009 22© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Mais :• « Quel est leur profil ? »• « Quels autres produits les intéresseront ? »• « Quand seront-ils intéressés ? »

Page 23: BI Datamining Presentation

Data mining ≠ statistiques descriptives

• Les profils de clientèle à découvrir sont en général desprofils complexes : pas seulement des oppositions« jeunes/seniors », « citadins/ruraux »… que l’onpourrait deviner en tâtonnant par des statistiquesdescriptives, mais des combinaisons plus complexes quine pourraient pas être découvertes par hasard.

27/01/2009 23© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

ne pourraient pas être découvertes par hasard.

>Le data mining fait passer• d’analyses confirmatoires• à des analyses exploratoires.

Page 24: BI Datamining Presentation

Utilité du data mining

• Mieux connaître le clientèpour mieux le servir

èpour augmenter sa satisfactionèpour augmenter sa fidélité

(+ coûteux d’acquérir un client que le conserver)

27/01/2009 24© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• La connaissance du client est encore plus utile dans le secteur tertiaire :• les produits se ressemblent entre établissements• le prix n’est pas toujours déterminant• ce sont surtout le service et la relation

avec le client qui font la différence

Page 25: BI Datamining Presentation

Applications du data mining au CRM

• Études d’appétence dans les sociétés commerciales• pour concentrer les mailings et le phoning sur les clients

les plus susceptibles de répondre favorablement

• Prédiction de l’attrition dans la téléphonie mobile• attrition = départ d’un client pour un concurrent

27/01/2009 25© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• attrition = départ d’un client pour un concurrent

• Analyse du ticket de caisse dans les grandes surfaces• pour déterminer les produits souvent achetés

simultanément, et agencer les rayons et organiser lespromotions en conséquence

Page 26: BI Datamining Presentation

Marketing one-to-one

Marketing traditionnel Marketing 1:1

Client anonyme Client individualisé

Produit standard Produit et service personnalisés

Production en série Production sur mesure

Publicité à large diffusion Message individuel

27/01/2009 26© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Communication unilatérale Communication interactive

Réalisation d’une vente, fort taux de souscription Fidélisation du client, faible taux d’attrition

Part de marché Part de client

Large cible Niche rentable

Segmentation métier Segmentation statistique

Canaux de distribution traditionnels, déconnectés Nouveaux canaux (plates-formes téléphoniques,

Internet, mobiles), interconnectés

Marketing orienté « produit » Marketing orienté « client »

Page 27: BI Datamining Presentation

A quoi sert le data mining ?

27/01/2009 27© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

A quoi sert le data mining ?

Page 28: BI Datamining Presentation

Sondage sur www.kdnuggets.com

Sondage effectué en juin 2002

27/01/2009 28© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 29: BI Datamining Presentation

Sondage sur www.kdnuggets.com

Sondage effectué en juillet

2005

Industries/fields where you successfully applied data mining in the past 3 years [149 replies, 421 votes total]

Banking (51) 12%

Biotech/Genomics (11) 3%

Credit Scoring (35) 8%

CRM (52) 12%

Direct Marketing/ Fundraising (34) 8%

e-Commerce (11) 3%

Entertainment/ Music (4) 1%

Fraud Detection (31) 7%

Gambling (2) 0%

27/01/2009 29© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Government applications (12) 3%

Insurance (24) 6%

Investment / Stocks (5) 1%

Junk email / Anti-spam (5) 1%

Health care/ HR (15) 4%

Manufacturing (19) 5%

Medical/ Pharma (12) 3%

Retail (25) 6%

Science (17) 4%

Security / Anti-terrorism (5) 1%

Telecom (23) 5%

Travel/Hospitality (8) 2%

Web (9) 2%

Other (11) 3%

Page 30: BI Datamining Presentation

Sondage sur www.kdnuggets.com

Sondage effectué en mars

2008

In what industries/sectors were your data mining clients in 2007-2008? [100 voters]

Banking (36) 36.0%

Financial (21) 21.0%

Telecom and wireless (20) 20.0%

Retail (18) 18.0%

Insurance (16) 16.0%

e-Commerce (15) 15.0%

Utilities (gas (13) 13.0%

Government (10) 10.0%

Pharma (9) 9.0%

Manufacturing (9) 9.0%

27/01/2009 30© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Manufacturing (9) 9.0%

Health care/ HR (9) 9.0%

Biotech/Genomics (9) 9.0%

Travel/Hospitality (8) 8.0%

No clients (8) 8.0%

Investment / Stocks (8) 8.0%

Software (6) 6.0%

Other (6) 6.0%

Non-profit org (6) 6.0%

Security (5) 5.0%

Entertainment/ Music (5) 5.0%

Military (4) 4.0%

Mortgage/Lending (3) 3.0%

Law (2) 2.0%

Page 31: BI Datamining Presentation

Sondage sur www.kdnuggets.com

Sondage effectué

en décembre

2008

Industries / Fields where you applied Data Mining in 2008: [107 voters]

CRM/ consumer analytics (41) 38.3%

Banking (34) 31.8%

Fraud Detection (21) 19.6%

Finance (18) 16.8%

Direct Marketing/ Fundraising (15) 14.0%

Other (14) 13.1%

Investment / Stocks (14) 13.1%

Credit Scoring (14) 13.1%

Telecom / Cable (13) 12.1%

Retail (13) 12.1%

Advertising (13) 12.1%

Biotech/Genomics (12) 11.2%

27/01/2009 31© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Science (11) 10.3%

Insurance (11) 10.3%

Health care/ HR (10) 9.3%

Manufacturing (9) 8.4%

e-Commerce (8) 7.5%

Web usage mining (8) 7.5%

Social Policy/Survey analysis (8) 7.5%

Medical/ Pharma (8) 7.5%

Security / Anti-terrorism (6) 5.6%

Search / Web content mining (6) 5.6%

Government/Military (4) 3.7%

Travel / Hospitality (3) 2.8%

Junk email / Anti-spam (3) 2.8%

Entertainment/ Music (3) 2.8%

Social Networks (2) 1.9%

None (2) 1.9%

Page 32: BI Datamining Presentation

Le data mining dans la banque

• Naissance du score de risque en 1941 (David Durand)• Multiples techniques appliquées à la banque de détail et

la banque des entreprises• Surtout la banque de particuliers :

• montants unitaires modérés• grand nombre de dossiers•

27/01/2009 32© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• grand nombre de dossiers• dossiers relativement standards

• Essor dû à :• développement des nouvelles technologies• nouvelles attentes de qualité de service des clients• concurrence des nouveaux entrants (assureurs, grande

distribution) et des sociétés de crédit• pression mondiale pour une plus grande rentabilité• surtout : nouveau ratio de solvabilité Bâle 2

Page 33: BI Datamining Presentation

Exemples bancaires

• Utilisation du score de risque pour proposer le montantde crédit le plus adapté à chaque client

• Aide à la décision de paiement• Meilleur taux de réponse des campagnes marketing• Découverte de segments de clientèle• Adaptation de la communication marketing à chaque

27/01/2009 33© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Adaptation de la communication marketing à chaquesegment de clientèle

• Choix du meilleur canal de distribution• Identification des clients susceptibles de partir à la

concurrence• Calcul de la rentabilité et de la life time value

Page 34: BI Datamining Presentation

Le data mining dans l’assurance IARD

• Des produits obligatoires (automobile, habitation) :• soit prendre un client à un concurrent• soit faire monter en gamme un client que l’on détient déjà

• D’où les sujets dominants :• attrition• ventes croisées (cross-selling)

27/01/2009 34© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• ventes croisées (cross-selling)• montées en gamme (up-selling)

• Besoin de décisionnel dû à :• concurrence des nouveaux entrants (bancassurance)• bases clients des assureurs traditionnels mal organisées :

• compartimentées par agent général• ou structurées par contrat et non par client

Page 35: BI Datamining Presentation

Le data mining dans la téléphonie

• Deux événements :• ouverture du monopole de France Télécom• arrivée à saturation du marché de la téléphonie mobile

• D’où les sujets dominants dans la téléphonie :• score d’attrition (churn = changement d’opérateur)• text mining (pour analyser les lettres de réclamation)

27/01/2009 35© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• text mining (pour analyser les lettres de réclamation)• optimisation des campagnes marketing• score d’impayés

• Problème du churn :• coût d’acquisition moyen en téléphonie mobile : 150 euros• plus d’un million d’utilisateurs changent chaque d’année

d’opérateur

Page 36: BI Datamining Presentation

Le data mining dans le commerce

• VPC• utilise depuis longtemps des scores d’appétence• pour optimiser ses ciblages et en réduire les coûts• La Redoute envoie à sa clientèle 250 millions de documents

par an• e-commerce

27/01/2009 36© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

•• personnalisation des pages d’un site web en fonction du

profil de chaque internaute• optimisation de la navigation sur un site web

• Distribution• détermination des profils de consommateurs, du « ticket de

caisse », de l’effet des soldes ou de la publicité• détermination des meilleures implantations (géomarketing)

Page 37: BI Datamining Presentation

Exemples médicaux

• Déterminer des segments de patients susceptibles d’être soumis à des protocoles thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant identiquement

• Mettre en évidence des facteurs de risque ou de rémission dans certaines maladies. Choisir le traitement le + approprié

• Pronostic des infarctus et des cancers (décès, survie)

27/01/2009 37© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Pronostic des infarctus et des cancers (décès, survie)

• Prédire le temps de rétablissement après une opération, enfonction des données concernant le patient (âge, poids, taille,fumeur, métier, antécédents médicaux, etc.) et le praticien (nbd’opérations pratiquées, nb d’années d’expérience, etc.)

• Décryptage du génome• Tests de médicaments, de cosmétiques

• Prédire les effets sur la peau humaine de nouveaux cosmétiques, en limitant le nombre de tests sur les animaux

Page 38: BI Datamining Presentation

Exemples divers

• Contrôle qualité• recherche des facteurs expliquant les défauts de la

production• Prévisions de trafic routier (Bison futé), recherche des

causes des accidents• Prédiction des parts d’audience pour une nouvelle émission

de télévision (BBC)

27/01/2009 38© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

de télévision (BBC)• en fonction des caractéristiques de l’émission (genre,

horaire, durée, présentateur…), des programmes précédant et suivant cette émission sur la même chaîne, des programmes diffusés simultanément sur les chaînes concurrentes, des conditions météorologiques, de l’époque de l’année et des événements se déroulant simultanément

• Le classement en « étoile » ou « galaxie » d’un nouveau corps céleste découvert au télescope (système SKICAT)

Page 39: BI Datamining Presentation

Les deux grandes familles de

27/01/2009 39© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Les deux grandes familles de techniques

Page 40: BI Datamining Presentation

Les 2 types de techniques de DM

• Les techniques descriptives :• visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse)

27/01/2009 40© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• réduisent, résument, synthétisent les données• il n’y a pas de variable « cible » à prédire.

• Les techniques prédictives :• visent à extrapoler de nouvelles informations à partir

des informations présentes (c’est le cas du scoring)• expliquent les données• il y a une variable « cible » à prédire.

Page 41: BI Datamining Presentation

Les 2 types de techniques de DM

• Les techniques descriptives :• analyse factorielle• classification automatique (clustering)• recherche d’associations (analyse du ticket de caisse)

• Les techniques prédictives :• classement/discrimination (variable « cible » qualitative)

27/01/2009 41© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• classement/discrimination (variable « cible » qualitative)• analyse discriminante / régression logistique• arbres de décision• réseaux de neurones

• prédiction (variable « cible » quantitative)• régression linéaire (simple et multiple)• ANOVA, MANOVA, ANCOVA, MANCOVA (GLM)• arbres de décision• réseaux de neurones

Page 42: BI Datamining Presentation

type famille sous-famille algorithme

analyse en composantes principales ACP (var. continues)

analyse factorielle (projection sur un espace de dimension inférieure)

analyse factorielle des correspondances AFC (var. qualitativ.) analyse des correspondances multiples ACM (var. qualitatives)

modèles géométriques

méthodes descriptives

Méthodes descriptives

En grisé : méthodes « classiques »

27/01/2009 42© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

ACM (var. qualitatives) méthodes de partitionnement (centres mobiles, k-means, nuées dynamiques)

analyse typologique (regroupement en classes homogènes) méthodes hiérarchiques analyse typologique + réduction dimens.

classification neuronale (cartes de Kohonen)

modèles combinatoires

classification relationnelle (var. qualitatives)

modèles à base de règles logiques

détection de liens détection d’associations

Page 43: BI Datamining Presentation

Méthodes prédictivestype famille sous-famille algorithme

modèles à base de règles logiques

arbres de décision

arbres de décision (variable à expliquer continue ou qualitative)

réseaux de neurones

réseaux à apprentissage supervisé : perceptron multicouches, réseau à fonction radiale de base régression linéaire, ANOVA, MANOVA, ANCOVA, MANCOVA, modèle linéaire général GLM, régression PLS (variable à

modèles à base de fonctions mathématiques

modèles paramétriques ou semi-

méthodes prédictives

27/01/2009 43© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

général GLM, régression PLS (variable à expliquer continue) analyse discriminante linéaire, régression logistique, régression logistique PLS (variable à expliquer qualitative) modèle log-linéaire, régression de Poisson (variable à expliquer discrète = comptage)

ou semi- paramétriques

modèle linéaire généralisé, modèle additif généralisé (variable à expliquer continue, discrète ou qualitative)

prédiction sans modèle

k-plus proches voisins (k-NN)

En grisé : méthodes « classiques »