résumé de base de données: application à des données marketing bancaires r. saint-paul, g....
TRANSCRIPT
Résumé de base de données: Application à des données marketing bancaires
R. Saint-Paul, G. Raschia and N. MouaddibIRIN, Nantes (France)
Table des matières
• Présentation rapide du modèle SaintEtiQ pour le résumé de données
• Application à une base de données réelle: marketing bancaire
• Méthode d’exploitation des résumés pour la prise de décisions
2
Vue générale du modèle
3
Connaissances du domaine
• Permet à l’utilisateur de définir un langage pour la description de ses données
• A chaque attribut est affecté une partition linguistique floue
4Exemple: Partition linguistique pour l’attribut revenu
Apprentissage Incrémental
Clustering conceptuel incrémental
1. Optimisation locale : Mesure de la qualité de la partition (typicité et contraste) utilisée pour choisir le meilleur opérateur d’apprentissage
2. Mise à jour de la description du contenu intensionnel du résumé
5
z0
Opérateurs d’apprentissage
6
z3z2z1
Tuple Candidat
z0
z3z2z1
z0
affectation
z3z2z1
z0
z4
création
Opérateurs d’apprentissage
7
z3z2z1
z0
fusion
z2z1
z0
z12z11
z3z4
z0
z2z1
z2z12z11
z0éclatement
Contenu intensionnel
• La description du contenu intensionnel des résumés est, pour chaque attribut, un ensemble flou de descripteurs linguistiques avec leurs supports relatifsExemple : revenu = <raisonnable/0.9, modeste/0.7>
• Un processus de généralisation est possible en se basant sur les connaissances de domaineExemple : <misérable/0.9, modeste/0.7> <faible/0.8>
8
Application réelle
• Données marketing du groupe CIC• 33700 enregistrements• 70 attributs (10 utilisés pour le résumé)• 3 à 8 labels définis sur chaque attribut
comme connaissance de domaine
9
Présentation du jeux de données:
Comportement dynamique
Hiérarchie finale
11
• Temps total d’exécution: 21 minutes
• Tuples candidats traités : 55 724 depuis les 33700 tuples originaux
• Nombre de feuilles : 14 766Pour un total de 1,036,800 modalités possibles
Dépendant des connaissances de domaine
Hiérarchie finale
12
Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés
Hiérarchie finale
13
Largeurs moyenne et maximum par niveau de la hiérarchie finale
Dépendant des paramètres (stratégie)
Méthode d’aide à la décision
14
Vue d’ensemble de la méthode:
SQL
Résultats de la requête Niveau le plus informatif
Hiérarchie de résumés
Liste de résumés
Information d’un niveau
15
• Probabilité d’un tuple résultat d’être trouvé dans un résumé z:
• Entropie de la distribution de probabilité :
Méthode d’aide à la décision
16
• Information (1-Hl) par niveau de la hiérarchie:
• Requête d’exemple Q:select CutomerID from DATA where Nombre_de_Libre_Choix_souscrits > 0
• Q retourne 242 identifiant
Méthode d’aide à la décision
17
• liste des résumés de niveau 6 :
• 512 résumés au niveau 6
• 60 résumés résultat de la requête
• 402 tuples candidats
• 2 résumés suffisent à couvrir plus de 50% des tuples candidats de la requête
Méthode d’aide à la décision
18
• Contenu intensionnel du résumé R.2.4.2.0.1.0
Méthode d’aide à la décision
19
Interface utilisateur du système SaintEtiQ
Conclusion
• Modèle SaintEtiQ pour la génération de résumés• Une expérimentation sur des données marketing
réelles• Une méthode pour l’exploitation des résumés dans
une démarche d’aide à la décision
• Mise à jour en ligne des résumés• Optimisation de certaines requêtes flexibles par
l’utilisation des résumés
20
Nous avons présenté :
Développements :