marketing direct 12. data-mining & scoring 1 uv207
TRANSCRIPT
Marketing Direct
12. Data-Mining & Scoring
1
UV207
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Le Data Mining
Objectif du ciblage en MD : hiérarchiser les individus afin de sélectionner ceux qui ont le meilleur potentiel
Réduction des coûts Amélioration ROI Vente plus facile (appétence identifiée) => élaboration d’offres pertinentes Réponses immédiates à des demandes (crédit, assurance,…) à partir de
scores
Méthode : attribuer à chaque adresse cible une note reliée à une probabilité => Sélectionner un sous ensemble du fichier permettant de maximiser un objectif
=> Datamining : ensemble des algorithmes et méthodes permettant exploration et analyse de grandes BDD informatiques, sans a priori,
En vue de détecter dans ces données des règles, des tendances inconnues ou cachées, des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision »
Pour constituer des groupes d’individus ; rechercher une relation de dépendance entre VI et VD. S. Stufféry, enseignant datamineur,http://data.mining.free.fr
2
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Loi des 20/80
20% des clients, 80% du CA et 200% du bénéfice !
Bien sûr, le CA augmente toujours
Mais les coûts augmentent plus vite !
Le profit dégagé sur les clients les plus rentables est perdu sur les derniers
Résultat par classe et cumulé
3
Echantillon
0
5 000
10 000
15 000
20 000
25 000
1 2 3 4 5 6 7 8
CA coûts
-5 000
-4 000
-3 000
-2 000
-1 000
0
1 000
2 000
1 2 3 4 5 6 7 8
Res clas Res Cum
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Trois grandes familles de méthodes
Visualisation/ description : compréhension synthétique de l’ensemble des données
Classification et structuration : techniques de classification automatique (typologies, réseaux de
neurones…)
Explication et prédiction de type scoring : relier un phénomène à expliquer à un phénomène explicatif pour
extraire des modèles de classement ou de prédiction (arbre de décision, régressions, analyse discriminante…)
Trouver une fonction f(X1, …, Xp) permettant de prédire Y
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Visualisation / description
Objectif : compréhension synthétique des données
Moyens : Statistiques élémentaires (moyenne, médiane, min/max, écart-type, etc) Nuages de point des observations Histogrammes (données en groupes de classes) Tris croisés / tableau de contingence
5
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Classification / structuration
Objectif : former des groupes
Moyens : Segmentation typologique des clients Réseau neurones : chaque neurone se spécialise pour représenter un groupe
de clients selon les points communs qui les rassemblent. La carte permet de diviser en zones. Le réseau de neurones permet d’attribuer à chacun des objets une probabilité d’appartenance à une classe. (ex: ADN)
6
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Prédiction de type Scoring
Objectifs : trier les individus en fonction d’une probabilité de comportement => anticiper afin de cibler ses actions MD
Moyen : attribuer une note (score) à chaque client afin de prédire sa probabilité d’avoir un certain comportement Ce qu’on cherche à faire : prédire la probabilité d’un comportement (départ ou
non, achat ou non, envoi d’un bon de commande ou non, réponse favorable à une sollicitation commerciale ou non, défaut de paiement ou non, etc.)
Moyen : fonction mathématique (régression logistique, arbre de décision, etc.) qui prédit cette probabilité en fonction de certaines caractéristiques ou variables indépendantes
7
S = F (X1, X2, … ,Xi) Avec
S = score ou note attribuée au client
F = fonction du score
Xi = caractéristiques des clients
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Prédiction
Fonctions permettant de trier les individus
Z–score
Arbre de décision
Régressions
8
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Test du Chi2 : existence d’une association entre 2 variables nominales
Calcul : somme des écarts pondérés entre les effectifs théoriques et les effectifs réels de chaque case
Chi2 case = (observé-théorique)2 / théorique
Chi2 tableau = Somme des Chi2 case On rejette l’hypothèse H0 (non relation entre les variables) si Chi2 est
supérieur à la valeur critique associée au risque d’erreur accepté (habituel 5%) avec ddl= (nb colonnes-1)*(nb lignes-1)
Plus l’écart entre l’effectif théorique et l’effectif réel est important plus la relation est forte (ne résulte pas du hasard)
Effectifs théoriques d’une case : effectif total multiplié par la fréquence de la ligne et la fréquence de la colonne
Lecture dans la table du Chi2 critique À 5% (ddl, Chi2) = (1, 3.84) (2, 5.99)…(4, 9.49) Ou calcul du risque associé au chi2 calculé (si petit risque, rejet de H0)
Une relation existe si Chi2 calculé > Chi2 critique
9
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Illustration Chi2
10
2 1 418 Chi² case 35,94 3,59 39,542 2 2508 Réel 418 2508 2926
Total 10000 Théorique 266,0 2660,0 2926Chi² case 86,90 8,69 95,58
X \ Y 1 2 Total % Total 909 9091 100001 491 6583 7074 70,7% 909,0 9091,02 418 2508 2926 29,3% Chi² 135,12
Total 909 9091 10000 nc = 2 Risque d'erreur 0,00%% 9,1% 90,9% nl = 2
Chi² critique à 5% 3,84nb colonnes (nc) 2nb lignes (nl) 2 avec un risque de 0,00% de vous tromperddl : Degrés de liberté (nc-1)*(nl-1) 1 vous pouvez conclure que la connaissance de X approrte une information
sur la fréquence des réponses sur les modalités de Y (et inversement)
Facteur multiplicatif 1 Valeur maximale possible du chi2 10 000,00
Exemple « modalité : Homme/femme »
Sur 10.000 adresses (N), on observe 909 réponses (b).
•modalité « femme » de la variable X1 = effectif de 7074 (n), soit 70%
•modalité « femme » = 491 réponses (x)
•Chi2 case = (observé-théorique)2 / théorique
•Chi2 tableau = Somme des Chi2 case
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Le Chi2 a deux limites importantes
Limite 1 : Il dépend de la structure du tableau ne pas comparer des tableaux de tailles différentes avec un Chi2 Coefficient de Tschuprow T = Chi2/(n*racine[ddl]) Coefficient V de Cramer V = racine (T)
Limite 2 : Il dépend des effectifs + l’échantillon est important, + les relations sont significatives Coefficient de contingence C = racine [Chi2/(n+Chi2)] Phi de Pearson = Phi = Chi2/ n (tableau 2x2 seulement)
Selon les effectifs, le chi2 est significatif ou non. Plus les effectifs sont élevés, plus il est significatif. Les autres coefficients ne changent pas de valeur
11
Facteur multiplicatif Chi2
Risque d'erreur Effectifs Phi (Pearson)
Coefficient de contingence ( C)
Coefficient de Tschuprow (T)
Coefficient de Cramer (V)
0,01 1,35 24,507% 100 0,116 0,115 0,014 0,1160,1 13,51 0,024% 1000 0,116 0,115 0,014 0,116
1 135,12 0,000% 10000 0,116 0,115 0,014 0,1162 270,24 0,000% 20000 0,116 0,115 0,014 0,116
Maximum 1,00 0,71 1 1
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
CHAID CHi-squared Automatic Interaction Detector
Problématique : constituer des groupes pour lesquels les valeurs de Y sont Aussi semblables que possible à l'intérieur des groupes (minimiser
variance intra groupe) et Aussi dissemblables entre les groupes (maximiser variance inter
groupes)
Principe : recherche itérative du meilleur découpage parmi les découpages possibles (en utilisant le chi2)
Intérêt de la méthode : Adaptée à tous types de variables Simple et rapide Pertinence managériale :
sélection des variables pertinentes (test de Chi2) mais discrétisation manuelle possible facilement transformation en règles de décision simple
Mais : les variables explicatives peuvent être corrélées; pas de méthode formelle pour l’arrêt de l’arborescence
12
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Exemple d’un arbre
13
Total Chi²Effectifs 10 000 358 récence% acheteurs7,8% 304 ville
123 âge> 6 mois <=6 mois2708 59 7292 11116,1% 16 4,7% 102
Ville + Ville - Ville + Ville -1468 9 1240 24 1876 15 5416 16021,1% 10,2% 9,2% 3,2%
age <35 age >35 age <35 age >35 age <35 age >35 age <35 age >35645 823 722 518 559 1317 2486 2930
24,6% 18,3% 13,8% 5,3% 13,1% 7,5% 6,4% 0,4%
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Z-score (binomial)
Principe : on classe les variables selon la sur-représentation des acheteurs dans ce
groupe. Plus la valeur de Z est élevée en valeur absolue, plus la modalité est
associé au comportement
Pour chaque modalité de la variable étudiée Z score = [x – b*p] / Racine[ b*p*(1-p)]
x = nombre de réponses pour cette modalité b = nombre total de réponses pour cette modalité p = fréquence observée sur toute la population (n/N)
Exemple « modalité : Homme/Femme » sur 10.000 adresses (N), on observe 909 réponses (b). la modalité « femme » a un effectif de 7074 (n), soit 70% Pour la modalité « femme » on observe 491 réponses (x) alors qu’on
aurait dû observer 643 réponses (p*b=70%*909). Dénominateur : racine [7074*0,0909*(1-0,0909)]= 18,1 La valeur de Z = 40,0 / 18,1 = – 2,21
14
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Illustration Z-Score
15
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Autres méthodes classiques
Régression linéaire Maximiser le pourcentage de la variance de Y expliqué par les variables
du modèle => qualité de l’ajustement : R² Vérification Distribution normale : test t
Régression logistique Dans le cas où la variable prédite est dichotomique, la spécification d’un
modèle linéaire est incorrect On cherche à spécifier la probabilité d’apparition d’un événement
Prévisions de Y comprises entre 0 et 1 et interprétables comme des probabilités d’occurrence d’un événement sachant les Xi
=>La régression logistique permet d’étudier la relation entre une variable réponse binaire [0,1] : succès/ échec et plusieurs variables explicatives
relation NON linéaire
16
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Illustration Logistique
Ln(p/(1-p)) où p=%acheteurs dans le segment
17
X1 ^Y
Genre (X1) AcheteursNon
acheteurs EffectifsEffectifs
% % Acheteurs p/(1-p) ln[p/(1-p)] -0,296 -0,346 52Femme (0) 58 61 119 67,2% 48,74% 0,951 -0,05 -1 -0,05 0,49 -35,81Homme (1) 20 38 58 32,8% 34,48% 0,526 -0,64 1 -0,64 0,34 -16,23
78 99 177 44,07% 0,55353902
Genre (X1) réel prévu réel prévu Chi2Femme (0) 58 58 48,74% 48,74% 0,00Homme (1) 20 20 34,48% 34,48% 0,00
78 78 44,07% 44,07% 0,00Chi2 critique à 5% 9,49
le modèle peut être accepté
Exp(b) = 0,7440
Acheteurs % acheteurs
Régression Logistique (exemple simplifié)
0%10%20%30%40%50%60%70%80%90%
100%
0% 10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Pré
vu
Réel
% réel et prévu
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Qualité de l’affectation des individus
A partir d’un score seuil « S », un modèle de scoring classe selon le groupe prévu Si score(i) >S alors i appartient au groupe « positif »
Mais plus on cherche à bien classer les « positifs »…. plus on y ajoute de « faux positifs » (prévu positif, mais négatif)
La qualité de l’affectation est déterminée par 2 indicateurs Sensibilité () Spécificité (b)
On cherche S tel qu’il Maximise () (vrais positifs) Minimise (1- b) (faux positifs)
18
Positif Négatif
Prévu Positif
(1- b)
Prévu Négatif
(1-) b
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Qualité de l’affectation des individus
Matrice de confusion : Estimé x Réel
Exemple: On considère un système de classification dont le but est de classer du courrier électronique en deux classes : courriels normaux et courriels spam. On va vouloir savoir combien de courriels normaux seront faussement estimés comme du spam (fausses alarmes) et combien de spams ne seront pas estimés comme tels (non détections). On va supposer qu'on a testé notre classificateur avec 100 courriels normaux et 100 courriels de spam.
Ainsi, la matrice se lit comme suit : sur les 98 courriels que le système a estimé comme normaux, 3 sont en
fait du spam ; sur les 102 courriels que le système a estimé comme spam, 5 sont en
fait des courriels normaux.
19
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Evaluer la qualité du ciblageCourbe ROC (receiver operating characteristic)
Utilisation de la courbe de ROC Sensibilité : taux de vrais positifs (1-Spécificité) : taux de faux
positifs
Taux de classification correcte (vrais positifs) en fonction du nombre de classifications incorrectes (faux positifs).
la courbe doit être au-dessus de la première diagonale aléatoire (x = y).
L’aire sous la courbe permet de comparer les modèles
AUC : « c statistic » dans la table « prévu-réel » ou dans le graphique ROC
20
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Evaluer la qualité du ciblageCourbe de Lift (ou de Pareto)
La courbe met en regard : le % des acheteurs, pour les individus
rangés en classe d’effectifs égaux par ordre décroissant de probabilité d’achat,
au pourcentage obtenu à partir d’un classement aléatoire (ligne diagonale)
Lecture de la courbe: En prenant 30% du fichier on a 50%
des acheteurs L’effet de levier ou « lift » est le
rapport = 50% / 30% = 1.66 (amélioration vs aléatoire)
L’aire sous la courbe (AUL) Area Under the Line illustre l’efficacité du scoring
21
hasard
AUL
% du fichier
% d
es a
ch
ete
urs
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Démarche du SCORING
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
5 étapes clé
Extraction d’un échantillon Travail (ou test) : à partir duquel les méthodes sont définies Validation : sur lequel les méthodes sont validées
2. Envoi de la campagne => stockage des comportements
3. Modélisation des comportements => fonction de score = f (x1, x2, …)
4. Analyse de la performance du scoring
Vérification de la performance (minimiser les erreurs) via une des 3 principales méthodes (matrice de confusion, courbe de Lift, courbe de ROC)
Vérification de la facilité d’utilisation (méthode compréhensible et rapide à mettre en œuvre)
5. “Scoring” de l’ensemble de la base Classement des individus selon un score
23
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Adapté de R. RAKOTOMALALA
Courbe ROC
BDD de 102.000 clients
2.000 clients sollicités au hasard100 ont répondu favorablement
(RR=5%)Noms Enfants Salaires RetourNatalia 2 1408 +Elise 1 1294 +Jose 0 1810 -Jean 5 1800 +Stphanie 1 1770 +Constance 2 1550 -Tiphaine 2 1561 +
Noms Enfants Salaires ScoreNicolas 1 1561 0,985Sandra 0 892 0,985Eleni 1 2214 0,985Cyndi 1 2021 0,985Barthelemy 2 1425 0,98Mathieu 1 2324 0,98Marcela 0 1863 0,98Nicolas 1 1561 0,98Adriana 2 1318 0,98Marie 1 1800 0,97Louis 0 981 0,96Delphine 5 2900 0,96Guillaume 1 5400 0,96Juliette 1 1408 0,96Maria 1 1914 0,96Thimote 0 862 0,96Paul Ren 0 1660 0,95Indre 1 862 0,95Elizabeth 0 1402 0,95
0
0,2
0,4
0,6
0,8
1
Fonction de score
S(R)=(X)
Echantillon de validation
Echantillon d’apprentissage
Si la prévision est satisfaisante :1/ appliquer la fonction score sur le reste de la BDD2/ trier la BDD selon le score3/ cibler en priorité les clients à fort score4/ prévoir la performance du ciblage grâce à la courbe ROC
Noms Enfants SalairesNatalia 2 1408Elise 1 1294Jose 0 1810Jean 5 1800Stphanie 1 1770Constance 2 1550Tiphaine 2 1561Nicolas 1 1561Paul Ren 0 1660Juliette 1 1408Elizabeth 0 1402Indre 1 862Maria 1 1914Mathieu 1 2324Thimote 0 862Sandra 0 892Eleni 1 2214Cyndi 1 2021Barthelemy 2 1425Marcela 0 1863Adriana 2 1318Marie 1 1800Louis 0 981Delphine 5 2900Guillaume 1 5400
Matrice de confusion
+ -+ % %- % %
prévision
réel
Noms Enfants Salaires Retour Score PrvisionStphanie 1 1770 + 0,99 +Constance 2 1550 - 0,45 -Tiphaine 2 1561 + 0,87 +
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Pour évaluer la qualité du score : la matrice de confusion
+ -+ 12 3 15- 2 8 10
14 11 25
Taux de bien classés 80% (12+8)/25Ventes 80% (12+3)/15
prévision
réel
Noms Enfants Salaires Retour Score PrvisionNatalia 2 1408 positif 0,98 +Elise 1 1294 négatif 0,13 -Jose 0 1810 positif 0,97 +Jean 5 1800 positif 0,96 +Stphanie 1 1770 négatif 0,09 -Constance 2 1550 positif 0,95 +Tiphaine 2 1561 négatif 0,06 -Nicolas 1 1561 positif 0,94 +Paul Ren 0 1660 positif 0,92 +Juliette 1 1408 positif 0,15 -Elizabeth 0 1402 négatif 0,91 +Indre 1 862 positif 0,9 +Maria 1 1914 positif 0,87 +Mathieu 1 2324 négatif 0,2 -Thimote 0 862 positif 0,19 -Sandra 0 892 positif 0,05 -Eleni 1 2214 négatif 0,03 -Cyndi 1 2021 négatif 0,01 -Barthelemy 2 1425 positif 0,86 +Marcela 0 1863 négatif 0,08 -Adriana 2 1318 négatif 0,84 +Marie 1 1800 négatif 0,1 -Louis 0 981 positif 0,82 +Delphine 5 2900 positif 0,81 +Guillaume 1 5400 positif 0,79 +
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Pour évaluer la qualité du ciblage : la courbe ROC (Receiver Operating Characteristics)
Sur la bissectrice : je touche 20% des acheteurs du produit en ciblant 20% de ma base.
Sur ROC : je touche 36% des acheteurs du produit en ciblant 20% de mes clients.
0
20
40
60
80
100
120
4 12 20 28 36 44 52 60 68 76 84 92 100
% cible cumulée
% + retrouvés
Noms Enfants Salaires Retour ScorePrŽvision% cible
cumulŽe% +
retrouvŽsNatalia 2 1408 positif 0,98 + 4 6,67Jose 0 1810 positif 0,97 + 8 13,33Jean 5 1800 positif 0,96 + 12 20,00Constance 2 1550 positif 0,95 + 16 26,67Nicolas 1 1561 positif 0,94 + 20 33,33
Paul RenŽ 0 1660 positif 0,92 + 24 40,00Elizabeth 0 1402 négatif 0,91 + 28 40,00Indre 1 862 positif 0,9 + 32 46,67Maria 1 1914 positif 0,87 + 36 53,33Barthelemy 2 1425 positif 0,86 + 40 60,00Adriana 2 1318 négatif 0,84 + 44 60,00Louis 0 981 positif 0,82 + 48 66,67Delphine 5 2900 positif 0,81 + 52 73,33Guillaume 1 5400 positif 0,79 + 56 80,00Mathieu 1 2324 négatif 0,2 - 60 80,00
ThimotŽe 0 862 positif 0,19 - 64 86,67Juliette 1 1408 positif 0,15 - 68 93,33Elise 1 1294 négatif 0,13 - 72 93,33Marie 1 1800 négatif 0,1 - 76 93,33
StŽphanie 1 1770 négatif 0,09 - 80 93,33Marcela 0 1863 négatif 0,08 - 84 93,33Tiphaine 2 1561 négatif 0,06 - 88 93,33Sandra 0 892 positif 0,05 - 92 100,00Eleni 1 2214 négatif 0,03 - 96 100,00Cyndi 1 2021 négatif 0,01 - 100 100,00
25 adresses15 retours positifs
SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet
Objectif : toucher 4.000 clients intéressés dans une BDD clients de 100.000 où taux de retour au hasard est habituellement de 5%
Au hasard : envoyer à 80% de la BDD = 80.000 mailings
Scoring : taux de retour de 9% => possibilité d’envoyer à 44.400 pour obtenir le même
résultat => économie de 35.600 mailings X coûts fixes par mailing