prétraitement et classification des données complexes dans le domaine du e-commerce

17
Prétraitement et classification des données complexes dans le domaine du e-commerce Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte Trousse Projet AxIS INRIA Sophia Antipolis et Rocquencourt

Upload: gloriann-stevens

Post on 03-Jan-2016

16 views

Category:

Documents


2 download

DESCRIPTION

Prétraitement et classification des données complexes dans le domaine du e-commerce. Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte Trousse Projet AxIS INRIA Sophia Antipolis et Rocquencourt. Motivations. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Prétraitement et classification des données complexes dans le domaine  du e-commerce

Prétraitement et classification des données

complexes dans le domaine du e-commerce

Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte Trousse

Projet AxIS INRIA Sophia Antipolis et Rocquencourt

Page 2: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 2

Motivations

Présenter sur l'ensemble des données de clickstream proposé lors du challenge 2005 d'ECML/PKDD:

- les bénéfices de notre méthode de prétraitement multi-sites, approche originalement proposé par Tanasa (thèse de doctorat 2005)

et

- les analyses d’une méthode de classification non supervisée (Lechevallier & Verde 2004) appliqué sur la notion de période de temps.

Page 3: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 3

Plan

1. Prétraitement multi-sites

- construction des visites multi-sites des utilisateurs « Groupe de SessionIDs »

- première analyse statistique multi-sites

2. Approche par la classification croisée - calcul du tableau de confusion entre les classes

de période de temps et les classes de produits - analyses du magasin le plus visité : shop 4

3. Conclusions

Page 4: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 4

Description des données

Ensemble des données clickstream : 576 fichiers log = 3,617,171 requêtes sur un période de 24 jours ;

sept magasins différents concernant les sites du e-commerce de la République Tchèque ;

pages Web interconnectées ;

Chaque requête contient le PHP SessionIDPHP SessionID généré automatiquementpour chaque nouvelle visite d’un utilisateur sur chaque serveur (IDs uniques).

=> sans visites intersites par les utilisateurs

5 tableaux décrivant l’information sur les produits, les magasins (shops), les types de produits, les catégories et les thèmes ;

Page 5: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 5

Tableau 2. Format de description des requêtesShopID Date IP address SessionID Page Referrer

11 1074585663 213.151.91.186 939dad92c4…84208dca /

11 1074585670 213.151.91.186 87ee02ddcff…7655bb9e /ct/?c=148 http://www.shop2.cz

Prétraitement des données

Données brutes:

Tableau 1. Nombre de requêtes par magasin ShopID Site name (shop) #Requests

10 www.shop1.cz 509,68811 www.shop2.cz 400,04512 www.shop3.cz 645,72414 www.shop4.cz 1,290,87015 www.shop5.cz 308,36716 www.shop6.cz 298,03017 www.shop7.cz 164,447

Page 6: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 6

Prétraitement des données

Tanasa & Trousse (IEEE Intelligent Systems 2004)Thèse Tanasa (2005)

Page 7: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 7

Tableau 3. Format du fichier log transformé (après la fusion) Datetime IP SessionID URL Referrer

2004-01-20 09:01:03 213.151.91.186 939dad92c4…84208dca http://www.shop2.cz/ -

2004-01-20 09:01:10 213.151.91.186 87ee02ddcff…7655bb9e http://www.shop2.cz/ct/?c=148 http://www.shop2.cz/

Prétraitement des données

• Structuration des données Un SessionIDSessionID représente une seule visite dans chaque magasin La notion de visites intersites par les utilisateurs: nous regroupons les SessionIDs qui appartenant au même utilisateur (même IP) dans un « Groupe of SessionIDs ». en comparant le champ Referer avec les URLs accédés précédemment.

522,410 SessionIDs ont été réunis dans 397,629 Groupesce qui constitue 23.88% de réduction

• Fusion et nettoyage des données

Page 8: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 8

Modèle relationnel de la base de données

Page 9: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 9

0

1000

2000

3000

4000

5000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Hour

Vis

its

Monday

Tuesday

Wednesday

Thursday

Friday

Saturday

Sunday

0

50

100

150

200

250

300

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Hour

Gro

ups

Fig. 1. Visites par jour et par heure:

Analyse statistique sur des périodes temporelles classiques

• Beaucoup de visites les mardis et les mercredis• Beaucoup de visites pendant l’heure du déjeuner • Très peu de nouvelles visites le samedi et le dimanche

(a) globalement (b) multi-sites

Page 10: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 10

Données: Sélection des pages ls du magasin 4 (le plus visité)

0

200 000

400 000

600 000

800 000

1 000 000

1 200 000

1 400 000

10 11 12 14 15 16 17

Shop

Acc

ess

/ct /ls /dt /znacka /akce others

Approche dévelopée par Yves Lechevallier & Rosanna Verde (2004)

Classification d’un tableau de comptage en fonction des tranches horaires

Page 11: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 11

Modèle relationnel BD: facile d’extraire un tableau de comptage

Ligne: l’individu (un jour de semaine, une heure) 7 jours X 24 heures = 168 individus

Colonne: une variable multi-catégories représente le nombre de requetes sur chaque

produit demandé par les utilisateurs durant une période spécifique de temps

Classification d’un tableau de comptage en fonction des tranches horaires

Page 12: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 12

Classification d’un tableau de comptage en fonction des tranches horaires

Tableau 4. Quantité de produits enregistrés sur shop 4 en fonction du jour de la semaine et de l’heure

Jour de la semaine x Heure Produit (nombre de requêtes)

Lundi_0Built-in electric hobs (10),Built-in dish washers 60cm (64),Corner single sinks (50), ...

Lundi_1

Free standing combi refrigerators (44),Corner single sinks (50), Built-in hoods (60), ...

… …

Samedi_22Built-in microwave ovens (27),Built-in dish washers 45cm (38),Built-in dish washers 60cm (85), ...

Samedi_23Built-in freezers (56),Kitchen taps with shower (45), Garbage disposers (32), ...

Page 13: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 13

57,7%

Tableau 5. Tableau de confusion entre “période de temps” et “produit”

Produit_1 Produit _2 Produit _3 Produit _4 Produit _5 Total% produit

plus significant

Période_ 1 2847 5084 3284 2265 2471 15951

Période_ 2 11305 31492 12951 1895 9610 67253

Période_3 33107 55652 36699 5345 20370 151173

Période_4 22682 46322 30200 5165 27659 132028

Période_5 9576 20477 19721 2339 7551 59664

Période_6 1783 3515 2549 392 11240 19479

Période_7 15019 14297 8608 1397 6014 45335

Total 96319 176839 114012 18798 84915 490883

57,7%

5084

31492

55652

11240

46322

20477

15019

11240

31,8%

46,8%

36,8%

35%

34,3%

33,1%

Classification d’un tableau de comptage en fonction des tranches horaires

Page 14: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 14

Résultats de la classification d’un tableau de comptage en fonction des tranches horaires

Tableau 6. Regroupement des produits Product_5 Cardinal: 1

/product/Free standing combi refrigerators

Tableau 7. Regroupement des tranches horaires Period_6 Cardinal: 8

Friday_2, Friday_6, Friday_17, Friday_18, Friday_19, Friday_20, Saturday_5, Tuesday_4

Page 15: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 15

Exemple d’un résultat surprenant:

La classe produit numéro 5 a été défini uniquement par le type de produit « Free standing combi refrigerators »

qui a été consulté notamment les Vendredis entre 17:00 et 20:00 (classe période 6)

57,7% de ce type produit a été demandé durant cette période.

Ces informations peuvent être très utiles pour les stratégies de vente comme: promotions rapides, vente croisée, pubs, etc.

Classification d’un tableau de comptage en fonction des tranches horaires

Page 16: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 16

Conclusions 1. Prétraitement multi-sites - structuration des visites d’un utilisateur dans plusieurs sites: « Groupe de SessionIDs » - analyse statistique multi-sites

2. Classification en fonction des tranches horaires

- application de cette méthode sur les données provenant des fichiers « logs » dans le domaine du

e-commerce - résultats prometteurs

Page 17: Prétraitement et classification des données complexes dans le domaine  du e-commerce

FDC 2006 17

Données

Type de pages:

ID Type de page Description #Requêtes %

1 /ct Catégorie de produit 228,991 6.33

2 /ls Fiche produit 1,363,187 37.68

3 /dt Détail du produit 1,233,570 34.1

4 /znacka Liste des marques ou détails d’une marque 88,189 2.43

5 /akce Offres actuelles 26,260 0.72

6 /df Comparaison des paramètres produit 57,939 1.60

7 /findf Recherche textuelle de produits et accessoires 55,139 1.52

8 /findp Recherche basée sur les paramètres 93,455 2.58

9 /setp Etablir les paramètres d’affichage 11,752 0.32

10 /poradna Conseil en ligne 107,711 2.97

11 /kosik Panier d’achat, details du contract, enregistrer une commande

35,487 0.98

12 / Page principale 219,218 6.06

13 /obchody-elektro Liste des magasins de produits électroniques 10,926 0.30

14 /kontakt Information de contact 6,104 0.16

15 /faq Foire aux questions 861 0.02

16 /onakupu Informations sur l’achat 6,659 0.18

17 /splatky Possibilités d’achat au crédit 2,846 0.07

18 /mailc Disponibilité de produits 6,680 0.18

19 /mailp Envoyez cette page 6,905 0.19

20 /mailf Envoyez un feedback 1,855 0.05

21 /mailr Formulaire de plainte 494 0.01

Total 3,564,228 98,45