prétraitement et classification des données complexes dans le domaine du e-commerce
DESCRIPTION
Prétraitement et classification des données complexes dans le domaine du e-commerce. Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte Trousse Projet AxIS INRIA Sophia Antipolis et Rocquencourt. Motivations. - PowerPoint PPT PresentationTRANSCRIPT
Prétraitement et classification des données
complexes dans le domaine du e-commerce
Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte Trousse
Projet AxIS INRIA Sophia Antipolis et Rocquencourt
FDC 2006 2
Motivations
Présenter sur l'ensemble des données de clickstream proposé lors du challenge 2005 d'ECML/PKDD:
- les bénéfices de notre méthode de prétraitement multi-sites, approche originalement proposé par Tanasa (thèse de doctorat 2005)
et
- les analyses d’une méthode de classification non supervisée (Lechevallier & Verde 2004) appliqué sur la notion de période de temps.
FDC 2006 3
Plan
1. Prétraitement multi-sites
- construction des visites multi-sites des utilisateurs « Groupe de SessionIDs »
- première analyse statistique multi-sites
2. Approche par la classification croisée - calcul du tableau de confusion entre les classes
de période de temps et les classes de produits - analyses du magasin le plus visité : shop 4
3. Conclusions
FDC 2006 4
Description des données
Ensemble des données clickstream : 576 fichiers log = 3,617,171 requêtes sur un période de 24 jours ;
sept magasins différents concernant les sites du e-commerce de la République Tchèque ;
pages Web interconnectées ;
Chaque requête contient le PHP SessionIDPHP SessionID généré automatiquementpour chaque nouvelle visite d’un utilisateur sur chaque serveur (IDs uniques).
=> sans visites intersites par les utilisateurs
5 tableaux décrivant l’information sur les produits, les magasins (shops), les types de produits, les catégories et les thèmes ;
FDC 2006 5
Tableau 2. Format de description des requêtesShopID Date IP address SessionID Page Referrer
11 1074585663 213.151.91.186 939dad92c4…84208dca /
11 1074585670 213.151.91.186 87ee02ddcff…7655bb9e /ct/?c=148 http://www.shop2.cz
Prétraitement des données
Données brutes:
Tableau 1. Nombre de requêtes par magasin ShopID Site name (shop) #Requests
10 www.shop1.cz 509,68811 www.shop2.cz 400,04512 www.shop3.cz 645,72414 www.shop4.cz 1,290,87015 www.shop5.cz 308,36716 www.shop6.cz 298,03017 www.shop7.cz 164,447
FDC 2006 6
Prétraitement des données
Tanasa & Trousse (IEEE Intelligent Systems 2004)Thèse Tanasa (2005)
FDC 2006 7
Tableau 3. Format du fichier log transformé (après la fusion) Datetime IP SessionID URL Referrer
2004-01-20 09:01:03 213.151.91.186 939dad92c4…84208dca http://www.shop2.cz/ -
2004-01-20 09:01:10 213.151.91.186 87ee02ddcff…7655bb9e http://www.shop2.cz/ct/?c=148 http://www.shop2.cz/
Prétraitement des données
• Structuration des données Un SessionIDSessionID représente une seule visite dans chaque magasin La notion de visites intersites par les utilisateurs: nous regroupons les SessionIDs qui appartenant au même utilisateur (même IP) dans un « Groupe of SessionIDs ». en comparant le champ Referer avec les URLs accédés précédemment.
522,410 SessionIDs ont été réunis dans 397,629 Groupesce qui constitue 23.88% de réduction
• Fusion et nettoyage des données
FDC 2006 8
Modèle relationnel de la base de données
FDC 2006 9
0
1000
2000
3000
4000
5000
6000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Hour
Vis
its
Monday
Tuesday
Wednesday
Thursday
Friday
Saturday
Sunday
0
50
100
150
200
250
300
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Hour
Gro
ups
Fig. 1. Visites par jour et par heure:
Analyse statistique sur des périodes temporelles classiques
• Beaucoup de visites les mardis et les mercredis• Beaucoup de visites pendant l’heure du déjeuner • Très peu de nouvelles visites le samedi et le dimanche
(a) globalement (b) multi-sites
FDC 2006 10
Données: Sélection des pages ls du magasin 4 (le plus visité)
0
200 000
400 000
600 000
800 000
1 000 000
1 200 000
1 400 000
10 11 12 14 15 16 17
Shop
Acc
ess
/ct /ls /dt /znacka /akce others
Approche dévelopée par Yves Lechevallier & Rosanna Verde (2004)
Classification d’un tableau de comptage en fonction des tranches horaires
FDC 2006 11
Modèle relationnel BD: facile d’extraire un tableau de comptage
Ligne: l’individu (un jour de semaine, une heure) 7 jours X 24 heures = 168 individus
Colonne: une variable multi-catégories représente le nombre de requetes sur chaque
produit demandé par les utilisateurs durant une période spécifique de temps
Classification d’un tableau de comptage en fonction des tranches horaires
FDC 2006 12
Classification d’un tableau de comptage en fonction des tranches horaires
Tableau 4. Quantité de produits enregistrés sur shop 4 en fonction du jour de la semaine et de l’heure
Jour de la semaine x Heure Produit (nombre de requêtes)
Lundi_0Built-in electric hobs (10),Built-in dish washers 60cm (64),Corner single sinks (50), ...
Lundi_1
Free standing combi refrigerators (44),Corner single sinks (50), Built-in hoods (60), ...
… …
Samedi_22Built-in microwave ovens (27),Built-in dish washers 45cm (38),Built-in dish washers 60cm (85), ...
Samedi_23Built-in freezers (56),Kitchen taps with shower (45), Garbage disposers (32), ...
FDC 2006 13
57,7%
Tableau 5. Tableau de confusion entre “période de temps” et “produit”
Produit_1 Produit _2 Produit _3 Produit _4 Produit _5 Total% produit
plus significant
Période_ 1 2847 5084 3284 2265 2471 15951
Période_ 2 11305 31492 12951 1895 9610 67253
Période_3 33107 55652 36699 5345 20370 151173
Période_4 22682 46322 30200 5165 27659 132028
Période_5 9576 20477 19721 2339 7551 59664
Période_6 1783 3515 2549 392 11240 19479
Période_7 15019 14297 8608 1397 6014 45335
Total 96319 176839 114012 18798 84915 490883
57,7%
5084
31492
55652
11240
46322
20477
15019
11240
31,8%
46,8%
36,8%
35%
34,3%
33,1%
Classification d’un tableau de comptage en fonction des tranches horaires
FDC 2006 14
Résultats de la classification d’un tableau de comptage en fonction des tranches horaires
Tableau 6. Regroupement des produits Product_5 Cardinal: 1
/product/Free standing combi refrigerators
Tableau 7. Regroupement des tranches horaires Period_6 Cardinal: 8
Friday_2, Friday_6, Friday_17, Friday_18, Friday_19, Friday_20, Saturday_5, Tuesday_4
FDC 2006 15
Exemple d’un résultat surprenant:
La classe produit numéro 5 a été défini uniquement par le type de produit « Free standing combi refrigerators »
qui a été consulté notamment les Vendredis entre 17:00 et 20:00 (classe période 6)
57,7% de ce type produit a été demandé durant cette période.
Ces informations peuvent être très utiles pour les stratégies de vente comme: promotions rapides, vente croisée, pubs, etc.
Classification d’un tableau de comptage en fonction des tranches horaires
FDC 2006 16
Conclusions 1. Prétraitement multi-sites - structuration des visites d’un utilisateur dans plusieurs sites: « Groupe de SessionIDs » - analyse statistique multi-sites
2. Classification en fonction des tranches horaires
- application de cette méthode sur les données provenant des fichiers « logs » dans le domaine du
e-commerce - résultats prometteurs
FDC 2006 17
Données
Type de pages:
ID Type de page Description #Requêtes %
1 /ct Catégorie de produit 228,991 6.33
2 /ls Fiche produit 1,363,187 37.68
3 /dt Détail du produit 1,233,570 34.1
4 /znacka Liste des marques ou détails d’une marque 88,189 2.43
5 /akce Offres actuelles 26,260 0.72
6 /df Comparaison des paramètres produit 57,939 1.60
7 /findf Recherche textuelle de produits et accessoires 55,139 1.52
8 /findp Recherche basée sur les paramètres 93,455 2.58
9 /setp Etablir les paramètres d’affichage 11,752 0.32
10 /poradna Conseil en ligne 107,711 2.97
11 /kosik Panier d’achat, details du contract, enregistrer une commande
35,487 0.98
12 / Page principale 219,218 6.06
13 /obchody-elektro Liste des magasins de produits électroniques 10,926 0.30
14 /kontakt Information de contact 6,104 0.16
15 /faq Foire aux questions 861 0.02
16 /onakupu Informations sur l’achat 6,659 0.18
17 /splatky Possibilités d’achat au crédit 2,846 0.07
18 /mailc Disponibilité de produits 6,680 0.18
19 /mailp Envoyez cette page 6,905 0.19
20 /mailf Envoyez un feedback 1,855 0.05
21 /mailr Formulaire de plainte 494 0.01
Total 3,564,228 98,45