marketing direct 12. data-mining & scoring 1 uv207

Marketing Direct

12. Data-Mining & Scoring

1

UV207

SommaireSommaireUV207 – Promotion des ventes & Marketing Direct – Pierre Desmet

Le Data Mining

Objectif du ciblage en MD : hiérarchiser les individus afin de sélectionner ceux qui ont le meilleur potentiel

Réduction des coûts Amélioration ROI Vente plus facile (appétence identifiée) => élaboration d’offres pertinentes Réponses immédiates à des demandes (crédit, assurance,…) à partir de

scores

Méthode : attribuer à chaque adresse cible une note reliée à une probabilité => Sélectionner un sous ensemble du fichier permettant de maximiser un objectif

=> Datamining : ensemble des algorithmes et méthodes permettant exploration et analyse de grandes BDD informatiques, sans a priori,

En vue de détecter dans ces données des règles, des tendances inconnues ou cachées, des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision »

Pour constituer des groupes d’individus ; rechercher une relation de dépendance entre VI et VD. S. Stufféry, enseignant datamineur,http://data.mining.free.fr

2


Loi des 20/80

20% des clients, 80% du CA et 200% du bénéfice !

Bien sûr, le CA augmente toujours

Mais les coûts augmentent plus vite !

Le profit dégagé sur les clients les plus rentables est perdu sur les derniers

Résultat par classe et cumulé

3

Echantillon

0

5 000

10 000

15 000

20 000

25 000

1 2 3 4 5 6 7 8

CA coûts

-5 000

-4 000

-3 000

-2 000

-1 000

0

1 000

2 000

1 2 3 4 5 6 7 8

Res clas Res Cum


Trois grandes familles de méthodes

Visualisation/ description : compréhension synthétique de l’ensemble des données

Classification et structuration : techniques de classification automatique (typologies, réseaux de

neurones…)

Explication et prédiction de type scoring : relier un phénomène à expliquer à un phénomène explicatif pour

extraire des modèles de classement ou de prédiction (arbre de décision, régressions, analyse discriminante…)

Trouver une fonction f(X1, …, Xp) permettant de prédire Y


Visualisation / description

Objectif : compréhension synthétique des données

Moyens : Statistiques élémentaires (moyenne, médiane, min/max, écart-type, etc) Nuages de point des observations Histogrammes (données en groupes de classes) Tris croisés / tableau de contingence

5


Classification / structuration

Objectif : former des groupes

Moyens : Segmentation typologique des clients Réseau neurones : chaque neurone se spécialise pour représenter un groupe

de clients selon les points communs qui les rassemblent. La carte permet de diviser en zones. Le réseau de neurones permet d’attribuer à chacun des objets une probabilité d’appartenance à une classe. (ex: ADN)

6


Prédiction de type Scoring

Objectifs : trier les individus en fonction d’une probabilité de comportement => anticiper afin de cibler ses actions MD

Moyen : attribuer une note (score) à chaque client afin de prédire sa probabilité d’avoir un certain comportement Ce qu’on cherche à faire : prédire la probabilité d’un comportement (départ ou

non, achat ou non, envoi d’un bon de commande ou non, réponse favorable à une sollicitation commerciale ou non, défaut de paiement ou non, etc.)

Moyen : fonction mathématique (régression logistique, arbre de décision, etc.) qui prédit cette probabilité en fonction de certaines caractéristiques ou variables indépendantes

7

S = F (X1, X2, … ,Xi) Avec

S = score ou note attribuée au client

F = fonction du score

Xi = caractéristiques des clients


Prédiction

Fonctions permettant de trier les individus

Z–score

Arbre de décision

Régressions

8


Test du Chi2 : existence d’une association entre 2 variables nominales

Calcul : somme des écarts pondérés entre les effectifs théoriques et les effectifs réels de chaque case

Chi2 case = (observé-théorique)2 / théorique

Chi2 tableau = Somme des Chi2 case On rejette l’hypothèse H0 (non relation entre les variables) si Chi2 est

supérieur à la valeur critique associée au risque d’erreur accepté (habituel 5%) avec ddl= (nb colonnes-1)*(nb lignes-1)

Plus l’écart entre l’effectif théorique et l’effectif réel est important plus la relation est forte (ne résulte pas du hasard)

Effectifs théoriques d’une case : effectif total multiplié par la fréquence de la ligne et la fréquence de la colonne

Lecture dans la table du Chi2 critique À 5% (ddl, Chi2) = (1, 3.84) (2, 5.99)…(4, 9.49) Ou calcul du risque associé au chi2 calculé (si petit risque, rejet de H0)

Une relation existe si Chi2 calculé > Chi2 critique

9


Illustration Chi2

10

2 1 418 Chi² case 35,94 3,59 39,542 2 2508 Réel 418 2508 2926

Total 10000 Théorique 266,0 2660,0 2926Chi² case 86,90 8,69 95,58

X \ Y 1 2 Total % Total 909 9091 100001 491 6583 7074 70,7% 909,0 9091,02 418 2508 2926 29,3% Chi² 135,12

Total 909 9091 10000 nc = 2 Risque d'erreur 0,00%% 9,1% 90,9% nl = 2

Chi² critique à 5% 3,84nb colonnes (nc) 2nb lignes (nl) 2 avec un risque de 0,00% de vous tromperddl : Degrés de liberté (nc-1)*(nl-1) 1 vous pouvez conclure que la connaissance de X approrte une information

sur la fréquence des réponses sur les modalités de Y (et inversement)

Facteur multiplicatif 1 Valeur maximale possible du chi2 10 000,00

Exemple « modalité : Homme/femme »

Sur 10.000 adresses (N), on observe 909 réponses (b).

•modalité « femme » de la variable X1 = effectif de 7074 (n), soit 70%

•modalité « femme » = 491 réponses (x)

•Chi2 case = (observé-théorique)2 / théorique

•Chi2 tableau = Somme des Chi2 case


Le Chi2 a deux limites importantes

Limite 1 : Il dépend de la structure du tableau ne pas comparer des tableaux de tailles différentes avec un Chi2 Coefficient de Tschuprow T = Chi2/(n*racine[ddl]) Coefficient V de Cramer V = racine (T)

Limite 2 : Il dépend des effectifs + l’échantillon est important, + les relations sont significatives Coefficient de contingence C = racine [Chi2/(n+Chi2)] Phi de Pearson = Phi = Chi2/ n (tableau 2x2 seulement)

Selon les effectifs, le chi2 est significatif ou non. Plus les effectifs sont élevés, plus il est significatif. Les autres coefficients ne changent pas de valeur

11

Facteur multiplicatif Chi2

Risque d'erreur Effectifs Phi (Pearson)

Coefficient de contingence ( C)

Coefficient de Tschuprow (T)

Coefficient de Cramer (V)

0,01 1,35 24,507% 100 0,116 0,115 0,014 0,1160,1 13,51 0,024% 1000 0,116 0,115 0,014 0,116

1 135,12 0,000% 10000 0,116 0,115 0,014 0,1162 270,24 0,000% 20000 0,116 0,115 0,014 0,116

Maximum 1,00 0,71 1 1


CHAID CHi-squared Automatic Interaction Detector

Problématique : constituer des groupes pour lesquels les valeurs de Y sont Aussi semblables que possible à l'intérieur des groupes (minimiser

variance intra groupe) et Aussi dissemblables entre les groupes (maximiser variance inter

groupes)

Principe : recherche itérative du meilleur découpage parmi les découpages possibles (en utilisant le chi2)

Intérêt de la méthode : Adaptée à tous types de variables Simple et rapide Pertinence managériale :

sélection des variables pertinentes (test de Chi2) mais discrétisation manuelle possible facilement transformation en règles de décision simple

Mais : les variables explicatives peuvent être corrélées; pas de méthode formelle pour l’arrêt de l’arborescence

12


Exemple d’un arbre

13

Total Chi²Effectifs 10 000 358 récence% acheteurs7,8% 304 ville

123 âge> 6 mois <=6 mois2708 59 7292 11116,1% 16 4,7% 102

Ville + Ville - Ville + Ville -1468 9 1240 24 1876 15 5416 16021,1% 10,2% 9,2% 3,2%

age <35 age >35 age <35 age >35 age <35 age >35 age <35 age >35645 823 722 518 559 1317 2486 2930

24,6% 18,3% 13,8% 5,3% 13,1% 7,5% 6,4% 0,4%


Z-score (binomial)

Principe : on classe les variables selon la sur-représentation des acheteurs dans ce

groupe. Plus la valeur de Z est élevée en valeur absolue, plus la modalité est

associé au comportement

Pour chaque modalité de la variable étudiée Z score = [x – b*p] / Racine[ b*p*(1-p)]

x = nombre de réponses pour cette modalité b = nombre total de réponses pour cette modalité p = fréquence observée sur toute la population (n/N)

Exemple « modalité : Homme/Femme » sur 10.000 adresses (N), on observe 909 réponses (b). la modalité « femme » a un effectif de 7074 (n), soit 70% Pour la modalité « femme » on observe 491 réponses (x) alors qu’on

aurait dû observer 643 réponses (p*b=70%*909). Dénominateur : racine [7074*0,0909*(1-0,0909)]= 18,1 La valeur de Z = 40,0 / 18,1 = – 2,21

14


Illustration Z-Score

15


Autres méthodes classiques

Régression linéaire Maximiser le pourcentage de la variance de Y expliqué par les variables

du modèle => qualité de l’ajustement : R² Vérification Distribution normale : test t

Régression logistique Dans le cas où la variable prédite est dichotomique, la spécification d’un

modèle linéaire est incorrect On cherche à spécifier la probabilité d’apparition d’un événement

Prévisions de Y comprises entre 0 et 1 et interprétables comme des probabilités d’occurrence d’un événement sachant les Xi

=>La régression logistique permet d’étudier la relation entre une variable réponse binaire [0,1] : succès/ échec et plusieurs variables explicatives

relation NON linéaire

16


Illustration Logistique

Ln(p/(1-p)) où p=%acheteurs dans le segment

17

X1 ^Y

Genre (X1) AcheteursNon

acheteurs EffectifsEffectifs

% % Acheteurs p/(1-p) ln[p/(1-p)] -0,296 -0,346 52Femme (0) 58 61 119 67,2% 48,74% 0,951 -0,05 -1 -0,05 0,49 -35,81Homme (1) 20 38 58 32,8% 34,48% 0,526 -0,64 1 -0,64 0,34 -16,23

78 99 177 44,07% 0,55353902

Genre (X1) réel prévu réel prévu Chi2Femme (0) 58 58 48,74% 48,74% 0,00Homme (1) 20 20 34,48% 34,48% 0,00

78 78 44,07% 44,07% 0,00Chi2 critique à 5% 9,49

le modèle peut être accepté

Exp(b) = 0,7440

Acheteurs % acheteurs

Régression Logistique (exemple simplifié)

0%10%20%30%40%50%60%70%80%90%

100%

0% 10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Pré

vu

Réel

% réel et prévu


Qualité de l’affectation des individus

A partir d’un score seuil « S », un modèle de scoring classe selon le groupe prévu Si score(i) >S alors i appartient au groupe « positif »

Mais plus on cherche à bien classer les « positifs »…. plus on y ajoute de « faux positifs » (prévu positif, mais négatif)

La qualité de l’affectation est déterminée par 2 indicateurs Sensibilité () Spécificité (b)

On cherche S tel qu’il Maximise () (vrais positifs) Minimise (1- b) (faux positifs)

18

Positif Négatif

Prévu Positif

(1- b)

Prévu Négatif

(1-) b


Qualité de l’affectation des individus

Matrice de confusion : Estimé x Réel

Exemple: On considère un système de classification dont le but est de classer du courrier électronique en deux classes : courriels normaux et courriels spam. On va vouloir savoir combien de courriels normaux seront faussement estimés comme du spam (fausses alarmes) et combien de spams ne seront pas estimés comme tels (non détections). On va supposer qu'on a testé notre classificateur avec 100 courriels normaux et 100 courriels de spam.

Ainsi, la matrice se lit comme suit : sur les 98 courriels que le système a estimé comme normaux, 3 sont en

fait du spam ; sur les 102 courriels que le système a estimé comme spam, 5 sont en

fait des courriels normaux.

19


Evaluer la qualité du ciblageCourbe ROC (receiver operating characteristic)

Utilisation de la courbe de ROC Sensibilité : taux de vrais positifs (1-Spécificité) : taux de faux

positifs

Taux de classification correcte (vrais positifs) en fonction du nombre de classifications incorrectes (faux positifs).

la courbe doit être au-dessus de la première diagonale aléatoire (x = y).

L’aire sous la courbe permet de comparer les modèles

AUC : « c statistic » dans la table « prévu-réel » ou dans le graphique ROC

20


Evaluer la qualité du ciblageCourbe de Lift (ou de Pareto)

La courbe met en regard : le % des acheteurs, pour les individus

rangés en classe d’effectifs égaux par ordre décroissant de probabilité d’achat,

au pourcentage obtenu à partir d’un classement aléatoire (ligne diagonale)

Lecture de la courbe: En prenant 30% du fichier on a 50%

des acheteurs L’effet de levier ou « lift » est le

rapport = 50% / 30% = 1.66 (amélioration vs aléatoire)

L’aire sous la courbe (AUL) Area Under the Line illustre l’efficacité du scoring

21

hasard

AUL

% du fichier

% d

es a

ch

ete

urs


Démarche du SCORING


5 étapes clé

Extraction d’un échantillon Travail (ou test) : à partir duquel les méthodes sont définies Validation : sur lequel les méthodes sont validées

2. Envoi de la campagne => stockage des comportements

3. Modélisation des comportements => fonction de score = f (x1, x2, …)

4. Analyse de la performance du scoring

Vérification de la performance (minimiser les erreurs) via une des 3 principales méthodes (matrice de confusion, courbe de Lift, courbe de ROC)

Vérification de la facilité d’utilisation (méthode compréhensible et rapide à mettre en œuvre)

5. “Scoring” de l’ensemble de la base Classement des individus selon un score

23


Adapté de R. RAKOTOMALALA

Courbe ROC

BDD de 102.000 clients

2.000 clients sollicités au hasard100 ont répondu favorablement

(RR=5%)Noms Enfants Salaires RetourNatalia 2 1408 +Elise 1 1294 +Jose 0 1810 -Jean 5 1800 +Stphanie 1 1770 +Constance 2 1550 -Tiphaine 2 1561 +

Noms Enfants Salaires ScoreNicolas 1 1561 0,985Sandra 0 892 0,985Eleni 1 2214 0,985Cyndi 1 2021 0,985Barthelemy 2 1425 0,98Mathieu 1 2324 0,98Marcela 0 1863 0,98Nicolas 1 1561 0,98Adriana 2 1318 0,98Marie 1 1800 0,97Louis 0 981 0,96Delphine 5 2900 0,96Guillaume 1 5400 0,96Juliette 1 1408 0,96Maria 1 1914 0,96Thimote 0 862 0,96Paul Ren 0 1660 0,95Indre 1 862 0,95Elizabeth 0 1402 0,95

0

0,2

0,4

0,6

0,8

1

Fonction de score

S(R)=(X)

Echantillon de validation

Echantillon d’apprentissage

Si la prévision est satisfaisante :1/ appliquer la fonction score sur le reste de la BDD2/ trier la BDD selon le score3/ cibler en priorité les clients à fort score4/ prévoir la performance du ciblage grâce à la courbe ROC

Noms Enfants SalairesNatalia 2 1408Elise 1 1294Jose 0 1810Jean 5 1800Stphanie 1 1770Constance 2 1550Tiphaine 2 1561Nicolas 1 1561Paul Ren 0 1660Juliette 1 1408Elizabeth 0 1402Indre 1 862Maria 1 1914Mathieu 1 2324Thimote 0 862Sandra 0 892Eleni 1 2214Cyndi 1 2021Barthelemy 2 1425Marcela 0 1863Adriana 2 1318Marie 1 1800Louis 0 981Delphine 5 2900Guillaume 1 5400

Matrice de confusion

+ -+ % %- % %

prévision

réel

Noms Enfants Salaires Retour Score PrvisionStphanie 1 1770 + 0,99 +Constance 2 1550 - 0,45 -Tiphaine 2 1561 + 0,87 +


Pour évaluer la qualité du score : la matrice de confusion

+ -+ 12 3 15- 2 8 10

14 11 25

Taux de bien classés 80% (12+8)/25Ventes 80% (12+3)/15

prévision

réel

Noms Enfants Salaires Retour Score PrvisionNatalia 2 1408 positif 0,98 +Elise 1 1294 négatif 0,13 -Jose 0 1810 positif 0,97 +Jean 5 1800 positif 0,96 +Stphanie 1 1770 négatif 0,09 -Constance 2 1550 positif 0,95 +Tiphaine 2 1561 négatif 0,06 -Nicolas 1 1561 positif 0,94 +Paul Ren 0 1660 positif 0,92 +Juliette 1 1408 positif 0,15 -Elizabeth 0 1402 négatif 0,91 +Indre 1 862 positif 0,9 +Maria 1 1914 positif 0,87 +Mathieu 1 2324 négatif 0,2 -Thimote 0 862 positif 0,19 -Sandra 0 892 positif 0,05 -Eleni 1 2214 négatif 0,03 -Cyndi 1 2021 négatif 0,01 -Barthelemy 2 1425 positif 0,86 +Marcela 0 1863 négatif 0,08 -Adriana 2 1318 négatif 0,84 +Marie 1 1800 négatif 0,1 -Louis 0 981 positif 0,82 +Delphine 5 2900 positif 0,81 +Guillaume 1 5400 positif 0,79 +


Pour évaluer la qualité du ciblage : la courbe ROC (Receiver Operating Characteristics)

Sur la bissectrice : je touche 20% des acheteurs du produit en ciblant 20% de ma base.

Sur ROC : je touche 36% des acheteurs du produit en ciblant 20% de mes clients.

0

20

40

60

80

100

120

4 12 20 28 36 44 52 60 68 76 84 92 100

% cible cumulée

% + retrouvés

Noms Enfants Salaires Retour ScorePrŽvision% cible

cumulŽe% +

retrouvŽsNatalia 2 1408 positif 0,98 + 4 6,67Jose 0 1810 positif 0,97 + 8 13,33Jean 5 1800 positif 0,96 + 12 20,00Constance 2 1550 positif 0,95 + 16 26,67Nicolas 1 1561 positif 0,94 + 20 33,33

Paul RenŽ 0 1660 positif 0,92 + 24 40,00Elizabeth 0 1402 négatif 0,91 + 28 40,00Indre 1 862 positif 0,9 + 32 46,67Maria 1 1914 positif 0,87 + 36 53,33Barthelemy 2 1425 positif 0,86 + 40 60,00Adriana 2 1318 négatif 0,84 + 44 60,00Louis 0 981 positif 0,82 + 48 66,67Delphine 5 2900 positif 0,81 + 52 73,33Guillaume 1 5400 positif 0,79 + 56 80,00Mathieu 1 2324 négatif 0,2 - 60 80,00

ThimotŽe 0 862 positif 0,19 - 64 86,67Juliette 1 1408 positif 0,15 - 68 93,33Elise 1 1294 négatif 0,13 - 72 93,33Marie 1 1800 négatif 0,1 - 76 93,33

StŽphanie 1 1770 négatif 0,09 - 80 93,33Marcela 0 1863 négatif 0,08 - 84 93,33Tiphaine 2 1561 négatif 0,06 - 88 93,33Sandra 0 892 positif 0,05 - 92 100,00Eleni 1 2214 négatif 0,03 - 96 100,00Cyndi 1 2021 négatif 0,01 - 100 100,00

25 adresses15 retours positifs


Objectif : toucher 4.000 clients intéressés dans une BDD clients de 100.000 où taux de retour au hasard est habituellement de 5%

Au hasard : envoyer à 80% de la BDD = 80.000 mailings

Scoring : taux de retour de 9% => possibilité d’envoyer à 44.400 pour obtenir le même

résultat => économie de 35.600 mailings X coûts fixes par mailing

marketing direct 12. data-mining & scoring 1 uv207

Documents

uv207 page

donnes classification

donnes moyens

clients rseau neurones

probabilit davoir

probabilit dappartenance

fonction dune probabilit

groupes moyens