résumé de base de données: application à des données marketing bancaires r. saint-paul, g....

20
Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Upload: igerne-keller

Post on 03-Apr-2015

103 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Résumé de base de données: Application à des données marketing bancaires

R. Saint-Paul, G. Raschia and N. MouaddibIRIN, Nantes (France)

Page 2: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Table des matières

• Présentation rapide du modèle SaintEtiQ pour le résumé de données

• Application à une base de données réelle: marketing bancaire

• Méthode d’exploitation des résumés pour la prise de décisions

2

Page 3: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Vue générale du modèle

3

Page 4: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Connaissances du domaine

• Permet à l’utilisateur de définir un langage pour la description de ses données

• A chaque attribut est affecté une partition linguistique floue

4Exemple: Partition linguistique pour l’attribut revenu

Page 5: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Apprentissage Incrémental

Clustering conceptuel incrémental

1. Optimisation locale : Mesure de la qualité de la partition (typicité et contraste) utilisée pour choisir le meilleur opérateur d’apprentissage

2. Mise à jour de la description du contenu intensionnel du résumé

5

Page 6: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

z0

Opérateurs d’apprentissage

6

z3z2z1

Tuple Candidat

z0

z3z2z1

z0

affectation

z3z2z1

z0

z4

création

Page 7: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Opérateurs d’apprentissage

7

z3z2z1

z0

fusion

z2z1

z0

z12z11

z3z4

z0

z2z1

z2z12z11

z0éclatement

Page 8: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Contenu intensionnel

• La description du contenu intensionnel des résumés est, pour chaque attribut, un ensemble flou de descripteurs linguistiques avec leurs supports relatifsExemple : revenu = <raisonnable/0.9, modeste/0.7>

• Un processus de généralisation est possible en se basant sur les connaissances de domaineExemple : <misérable/0.9, modeste/0.7> <faible/0.8>

8

Page 9: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Application réelle

• Données marketing du groupe CIC• 33700 enregistrements• 70 attributs (10 utilisés pour le résumé)• 3 à 8 labels définis sur chaque attribut

comme connaissance de domaine

9

Présentation du jeux de données:

Page 10: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Comportement dynamique

Page 11: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Hiérarchie finale

11

• Temps total d’exécution: 21 minutes

• Tuples candidats traités : 55 724 depuis les 33700 tuples originaux

• Nombre de feuilles : 14 766Pour un total de 1,036,800 modalités possibles

Dépendant des connaissances de domaine

Page 12: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Hiérarchie finale

12

Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés

Page 13: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Hiérarchie finale

13

Largeurs moyenne et maximum par niveau de la hiérarchie finale

Dépendant des paramètres (stratégie)

Page 14: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Méthode d’aide à la décision

14

Vue d’ensemble de la méthode:

SQL

Résultats de la requête Niveau le plus informatif

Hiérarchie de résumés

Liste de résumés

Page 15: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Information d’un niveau

15

• Probabilité d’un tuple résultat d’être trouvé dans un résumé z:

• Entropie de la distribution de probabilité :

Page 16: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Méthode d’aide à la décision

16

• Information (1-Hl) par niveau de la hiérarchie:

• Requête d’exemple Q:select CutomerID from DATA where Nombre_de_Libre_Choix_souscrits > 0

• Q retourne 242 identifiant

Page 17: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Méthode d’aide à la décision

17

• liste des résumés de niveau 6 :

• 512 résumés au niveau 6

• 60 résumés résultat de la requête

• 402 tuples candidats

• 2 résumés suffisent à couvrir plus de 50% des tuples candidats de la requête

Page 18: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Méthode d’aide à la décision

18

• Contenu intensionnel du résumé R.2.4.2.0.1.0

Page 19: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Méthode d’aide à la décision

19

Interface utilisateur du système SaintEtiQ

Page 20: Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Conclusion

• Modèle SaintEtiQ pour la génération de résumés• Une expérimentation sur des données marketing

réelles• Une méthode pour l’exploitation des résumés dans

une démarche d’aide à la décision

• Mise à jour en ligne des résumés• Optimisation de certaines requêtes flexibles par

l’utilisation des résumés

20

Nous avons présenté :

Développements :