analyse des fichiers logs web ~ projet lp stid ~
DESCRIPTION
Analyse des fichiers logs Web ~ Projet LP STID ~. Encadrant : Doru Tanasa. Equipe AxIS, INRIA Sophia Antipolis [email protected]. Plan. Introduction Quelques mots sur le Web Mining et Web Usage Mining Exemple d’un fichier log Web Le prétraitement des données - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/1.jpg)
Analyse des fichiers logs Web
~ Projet LP STID ~
Encadrant : Doru Tanasa
Equipe AxIS, INRIA Sophia Antipolis
![Page 2: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/2.jpg)
Plan• Introduction
Quelques mots sur le Web Mining et Web Usage Mining
Exemple d’un fichier log Web
• Le prétraitement des données Nettoyage des données Transformation des données
• Classification automatique Classification des navigations en fonction des
requêtes Classification des navigations en fonction du site
• Description du projet
![Page 3: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/3.jpg)
Web Mining
•Data Mining techniques applied to Web data
•3 areas of Web Mining:- Web Content Mining
- Web Structure Mining- Web Usage Mining
![Page 4: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/4.jpg)
• Definition:Data Mining techniques applied to Web usage data
• Objectives: « Understand » the
behavior of the Web site visitors
Improve the Web site structure and its content
Personalize Web pages for visitors
Develop an « intelligent » Web cache application
Web Usage MiningDefinition, Objectives, Techniques
• Techniques used in WUM: Clustering Association rules (A and B
=> C) Sequence mining (A B
C) Markov chains Classification Decision trees
![Page 5: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/5.jpg)
Web Usage MiningA KDD process
A three-step Knowledge Discovery in Databases (KDD) process from Web Usage data
Can use other types of data such as: Web site structure and user profiles
![Page 6: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/6.jpg)
194.78.232.8 - - [10/Jan/2005:15:33:43 +0200] "GET /actu/actu_colloque_actuel_fr.shtml HTTP/1.1" 200 1893 "http://www-sop.inria.fr/" "Mozilla/5.0 (Linux i686 fr) Gecko/20041108 Firefox/1.0"
lucy.ins.cwi.nl - - [10/Jan/2005:15:34:07 +0200] "GET /axis/presentation.shtml HTTP/1.0" 200 1012 "http://www.google.com/search?q=web+usage+mining+presentation&hl=en&lr=&start=20&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)"
lucy.ins.cwi.nl - - [10/Jan/2005:15:34:07 +0200] "GET /axis/people.shtml HTTP/1.0" 200 483 "http://www-sop.inria.fr/axis/presentation.shtml" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)"
lucy.ins.cwi.nl - - [10/Jan/2005:15:34:09 +0200] "GET /axis/photos/sophia.jpg HTTP/1.0" 200 281281 "http://www-sop.inria.fr/axis/people.shtml" "Mozilla/4.74 [en] (WinNT; U)"
194.78.232.8 - - [10/Jan/2005:15:34:09 +0200] "GET /coprin/PB60/ HTTP/1.1" 200 4433 "http://www-sop.inria.fr/actu/actu_colloque_actuel_fr.shtml" "Mozilla/5.0 (Linux i686 fr) Gecko/20041108 Firefox/1.0"
lucy.ins.cwi.nl - - [10/Jan/2005:15:34:10 +0200] "GET /personnel/Brigitte.Trousse/bri-eng.html HTTP/1.0" 200 10334 "http://www-sop.inria.fr/axis/people.shtml" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)"
194.78.232.8 - - [10/Jan/2005:15:34:23 +0200] "GET /coprin/PB60/cocktail.html HTTP/1.1" 200 2979 "http://www-sop.inria.fr/coprin/PB" "Mozilla/5.0 (Linux i686 fr) Gecko/20041108 Firefox/1.0"
Fragment of a Web log file with 7 HTTP requests
The user from 194.78.232.8 with the user agent Mozilla/5.0 (Linux i686 fr) Gecko/20041108 Firefox/1.0
Building two user sessions by considering the same (IP, User Agent)
/actu/actu_colloque_actuel_fr.shtml /coprin/PB60/ /coprin/PB60/cocktail.html
The user from lucy.ins.cwi.nl with the user agent Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)
/axis/presentation.shtml /axis/people.shtml /personnel/Brigitte.Trousse/bri-eng.html
/axis/presentation.shtml
Web Logs – Poor Quality Data/actu/actu_colloque_actuel_fr.shtml
/coprin/PB60/
/coprin/PB60/cocktail.html
/personnel/Brigitte.Trousse/bri-eng.html
/axis/people.shtml
194.78.232.8 - - [10/Jan/2005:15:33:43 +0200] "GET /actu/actu_colloque_
actuel_fr.shtml HTTP/1.1" 200 1893 "http://www-sop.inria.fr/" "Mozilla/5.0
(Linux i686 fr) Gecko/20041108 Firefox/1.0"
![Page 7: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/7.jpg)
Format standard d’un fichier log[ip] [rfc931] [login] [date] [url] [statut] [size] [referrer] [agent]
ip adresse IP de l’ordinateur de l’utilisateur; cette adresse correspondant souvent à un serveur proxy
(dans les entreprise et les universités)
rfc931/login ID machine et utilisateur, disponibles si l’utilisateur se soit lui-même identifié
date date et heure précises de réception de la requête. URL adresse de la page visitée sur le site (www.<…>)
statut code retour qui indique si l’action s’est bien déroulée
size indique la taille du fichier retourné
referrer signale l’adresse de laquelle l’utilisateur a effectué sa requête, la page de provenance
agent le navigateur et le type de système d’exploitation de l’utilisateur
![Page 8: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/8.jpg)
Web Logs – Large Quantity
• Phenomenal growth of the World Wide Web in the last 15 years Internet users: 800+ million, [Netcraft05] Web sites: 60+ million, [Netcraft05] Web Pages: 8+ billion, [Google] x 500 in Hidden Web (databases, login) [Mardis01]
• Huge amount of Web Usage Data Yahoo.com, 2002, 100GB/h [Shahabi02] Amazon.com, 2004, 10TB/day [Weigend04]
• Growing interest for “E-Activities” (E-Commerce, E-Business, E-Learning, E-Government …) => Generate usage data [Berendt04]
![Page 9: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/9.jpg)
Plan• Introduction
Quelques mots sur le Web Mining et Web Usage Mining
Exemple d’un fichier log Web
• Le prétraitement des données Nettoyage des données Transformation des données
• Classification automatique Classification des navigations en fonction des
requêtes Classification des navigations en fonction du site
• Description du projet
![Page 10: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/10.jpg)
Le prétraitement des données
Nettoyage des données• Supprimer des requêtes pour les ressources Web non-analysées• Suppression des requêtes/navigations provenant des robots Web
Transformation des données• Fusionner les fichiers log ensemble• Rendre anonymes les IP des utilisateurs• Identifier les utilisateurs• Identifier les navigations• Identifier les épisodes
![Page 11: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/11.jpg)
Terminology
• Web request – one line of the log file123.1.2.3 - johndoe [10/Jan/2005:15:34:07 +0200] "GET /axis/presentation.shtml HTTP/1.0" 200 1012 "http://www-sop.inria.fr/axis/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)“
• Syntactic Topic: axis, Semantic Topic: research team• Page View – occurs when a Web Browser displays a Web page
• User – user login from the log file or IP address (when login N/A)
• User Session – all the requests having the same (User, Host, Agent) combination
• Visit – all the requests included in a user session and made during one connection, i.e. two consecutive requests have less than Δt (30) minutes between them
/axis/presentation.shtml
![Page 12: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/12.jpg)
Nettoyage des données (1/2)Suppression des requêtes pour les ressources Web non-
analysées
• Les ressources Web (RW) non-analysées, par exemple: Les fichiers images: “*.gif”, “*.jpg”, etc. Autres fichiers qui «composent» une page
(fichiers de style, applets Java, etc.)
• Toutefois, il existe des images qu'on peut “cliquer”
• Utiliser la carte du site pour décider si on doit considérer ou non la RW
![Page 13: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/13.jpg)
Nettoyage des données (2/2) Suppression des requêtes/navigations provenant
des robots Web
• Les requêtes des robots Web représentent du «bruit»
• On réduit la dimension du fichier log de 50%
• Trois méthodes pour détecter les robots Web (WR): Identifier les couples (IP, Agent) depuis lesquels il y a eu une
requête pour “robots.txt”
Utiliser une liste des agents connus comme WR pour identifier les couples (IP, Agent) dont l ’agent fait partie de la liste
Utiliser un seuil pour la vitesse de navigation (BS - « Browsing Speed »), qui est égale :
BS = Durée de la navigation
(sec.)
Nombre des pages visitées
![Page 14: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/14.jpg)
Transformation des données (1/5)
Fusionner les fichiers logs
• Les fichiers logs (ordonnées par la date de la requête) sont mises ensemble
• Chaque requête est modifiée pour: synchroniser les temps des requêtes (si besoin) inclure le “ID” du serveur Web dans la requête (“ID” = nom
du serveur Web)
![Page 15: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/15.jpg)
Transformation des données (2/5)
Fusionner les fichiers logsExemple pour l’INRIA
Site Webd’INRIA
www.inria.fr
LogsWeb
www-sop.inria.fr
LogsWeb
10.10.10.1 - - [16/Jan10.10.10.1 - - [16/Jan/2010.10.10.1 - - [16/Jan/20010.10.10.1 - - [16/Jan/210.10.11.2 - - [16/Jan/210.10.11.2 - - [16/Jan/2
Fichier contenant toutes les requêtes
Serveur Web de l ’INRIA
Sophia Antipolis
Serveur Web de l’INRIA national
![Page 16: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/16.jpg)
•Avant :65.116.145.131 - - [09/Jan/2002:00:01:52 +0100] "GET
/mimosa/personnel/Davide.Sangiorgi/correctionsOBJ.txt HTTP/1.1" 200 510 "-" "Mozilla/4.0 compatible ZyBorg/1.0 ([email protected])"
wks177.ist.ucf.edu - - [09/Jan/2002:00:01:52 +0100] "GET /rodeo/personnel/hoschka/thesis.html HTTP/1.1 » …
gentiane.inria.fr - - [09/Jan/2002:11:08:25 +0100] "GET /cafe/team-e.html HTTP/1.0" ...
•Après :10.0.0.1 - - [09/Jan/2002:00:01:52 +0100] "GET
/mimosa/personnel/Davide.Sangiorgi/correctionsOBJ.txt HTTP/1.1" 200 510 "-" "Mozilla/4.0 compatible ZyBorg/1.0 ([email protected])"
123.example.com.edu - - [09/Jan/2002:00:01:52 +0100] "GET /rodeo/personnel/hoschka/thesis.html HTTP/1.1" ...
456.example.com.11.projet.sophia.inria.fr - - [09/Jan/2002:11:08:25 +0100] "GET /cafe/team-e.html HTTP/1.0" ...
Transformation des données (3/5)
Rendre anonymes les fichiers logs
![Page 17: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/17.jpg)
Transformation des données (4/5)
Identification de l’utilisateur
• Nous avons utilisé le couple (IP, Agent)
Une tâche compliquée par : Les serveurs proxy Les adresses dynamiques Les cas d’utilisateurs utilisant le
même ordinateur Les cas des utilisateurs qui
utilisent plus d’un navigateur
Web ou plus d’un ordinateur
Solutions possibles: Les « cookies » Les pages Web dynamiques
(avec un IDSession) Les utilisateurs enregistrés Un navigateur modifié L’utilisation de la carte du site +
le référeur dans le prétraitement
![Page 18: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/18.jpg)
Transformation des données (5/5)
Identification des navigations et épisodesIdentification des
navigations :
•Couper la session utilisateur si la distance entre 2 clics > 30 minutes (standard)
•Couper la session utilisateur si sa longueur dépasse 100 clics (un robot Web?)
•Un processus direct
Identification des épisodes :
•Diviser la navigation en épisodes sémantiques
•On peut utiliser une carte du site Web amélioré qui contient une description sémantique des pages Web
•Un autre chantier en cours pour nous …
![Page 19: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/19.jpg)
Plan• Introduction
Quelques mots sur le Web Mining et Web Usage Mining
Exemple d’un fichier log Web
• Le prétraitement des données Nettoyage des données Transformation des données
• Classification automatique Classification des navigations en fonction des
requêtes Classification des navigations en fonction du site
• Description du projet
![Page 20: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/20.jpg)
Description du site par l’URL
• URL : http://www.inria.fr/orion/Telescope/ra/index.html
• Site :
www.inria.fr c’est le siège de l’INRIA• Rubrique1 :
orion• Rubrique2 :
Telescope
![Page 21: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/21.jpg)
Les comportements de navigation
Typologie des comportement réalisée par Canter, River et Storrs (1985)
• Wandering : correspond au comportement d’un utilisateur parcourant le site de manière aléatoire.
• Browsing : correspond au comportement d’un utilisateur recherchant une information l’intéressant.
• Scanning : correspond au comportement d’un utilisateur parcourant une large zone de manière approfondie.
• Exploring : correspond au comportement d’un utilisateur explorant un thème donné.
• Searching: correspond au comportement d’un utilisateur recherchant un information précise.
![Page 22: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/22.jpg)
Analyse des fichiers log des sites INRIA siège et sophia
Base de Données dimension de la Base: 673.389 requ673.389 requêêtestes entre le 1 entre le 1
janvier et le 15 janvier 2003.janvier et le 15 janvier 2003.• Sélection de 9324 Navigations ayant une durée
supérieure de 60 sec.• Élimination des erreurs dans le fichier :
Code status entre 200 et 400Code status entre 200 et 400Sélection par la Rubrique 1 > 100 résultat: 125 thèmes
consultés dans le fichier LOG (sur 673.389 requêtes)
Sélection par la Rubrique 2 > 100 résultat: 432 thèmes consultés dans le fichier LOG (sur 673.389 requêtes)
![Page 23: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/23.jpg)
Sélection des Navigations Navigations longueslongues
Dans les 9763 Navigations
Sélection des navigations respectant les critères suivants :
durée/nombre de requêtesdurée/nombre de requêtes > 4 sec ET nombre de pages nombre de pages consultéesconsultées > 10
Résultat :
Table de 282705 Requêtes et de 9700 Navigations
![Page 24: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/24.jpg)
Structuration des informations
![Page 25: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/25.jpg)
![Page 26: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/26.jpg)
Paramètres décrivant les navigations
• Säuberlich & Huber (2001) utilisent pour cette analyse: Cookie-ID / Session-ID Referrer Navigateur (+ version) Plateforme Heure Jour (de la semaine) Week-end No clicks Durée Durée moyenne par click Variables de navigation (binaires)
![Page 27: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/27.jpg)
Paramètres décrivant les navigations
issus du fichier log
IDNavigation identificateur d’une navigation NBRequest_OK nombre de requêtes correctes PRequest_SEL pourcentage de requêtes correctes NBrequest nombre de requêtes essayées DureeTotale d’une navigation Repetition nombre de requêtes répétées User_Agent identificateur d’un navigateur User_System identificateur du système d’exploitation
MDurée_OK moyenne de la durée d’une navigation MSize_OK moyenne de la taille des pages lues Date date de la navigation Zone période de la navigation dans la journée Pays identificateur du Pays
![Page 28: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/28.jpg)
Paramètres décrivant les navigations
issus des informations URL des sites
NB_www nombre de requêtes sur www NB_www-sop nombre de requêtes sur www-sop
Pwww pourcentage de requêtes sur www - calculée sur lNBRequest
Pwww-sop pourcentage de requêtes sur www - calculée sur lNBRequest
Site www-inria.fr ou www-sop.inria.fr
Rubrique1 110 rubriques de www
Rubrique2 108 rubriques de www-sop
Rubrique-sem1 44 rubriques « semantiques » de www
Rubrique-sem2 69 rubriques « semantiques » de www-sop
![Page 29: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/29.jpg)
Analyse en Composante principale
• Variables activesVariables actives
PRequest_SEL pourcentage de requêtes correctes
NBrequest nombre de requêtes essayées
Repetition taux de répétition
DureeTotale durée totale d’une navigation
MDurée_OKmoyenne de la durée d’une navigation
MSize_OK moyenne de la taille des pages lues
![Page 30: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/30.jpg)
MATRICE DES CORRELATIONS | PReq NBre Dure Repe MDur MSiz-----+------------------------------------------PReq | 1.00NBre | -0.13 1.00Dure | 0.00 0.30 1.00Repe | -0.05 0.15 0.12 1.00MDur | -0.02 -0.04 0.47 0.04 1.00MSiz | 0.02 -0.01 0.00 0.05 0.03 1.00-----+------------------------------------------
HISTOGRAMME DES 6 PREMIERES VALEURS PROPRES+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 1.5962 | 26.60 | 26.60 | ******************************************************************************** || 2 | 1.1659 | 19.43 | 46.04 | *********************************************************** || 3 | 1.0307 | 17.18 | 63.21 | **************************************************** || 4 | 0.9343 | 15.57 | 78.78 | *********************************************** || 5 | 0.8563 | 14.27 | 93.06 | ******************************************* || 6 | 0.4166 | 6.94 | 100.00 | ********************* |+--------+------------+----------+----------+----------------------------------------------------------------------------------+
Résultats de l’ACP
![Page 31: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/31.jpg)
Cercle des corrélationsFacteurs 1 et 2Facteurs 1 et 2 ---- %I=46%%I=46%
Variables actives
Variables illustratives
![Page 32: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/32.jpg)
Classification des navigations sur les facteurs 1 et 2
1/7
5/7
4/7
2/7
![Page 33: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/33.jpg)
Variables nominales illustratives
![Page 34: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/34.jpg)
Interprétation de la classe (1/7)• CLASSE 1 / 7
• +--------+-------+-------------------+-------------------+---------------------+• | V.TEST | PROBA | MOYENNES | ECARTS TYPES | • | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE • +--------+-------+-------------------+-------------------+---------------------+• | CLASSE 1 / 7 ( EFFECTIF = 5956 ) |• | 19.98 | 0.000 | 96.70 94.91 | 5.33 11.15 | 5.PRequest_SEL • | 10.66 | 0.000 | 55.02 51.44 | 41.19 41.80 | 3.Pwww • | | | | | • | -11.98 | 0.000 | 23.05 28.29 | 21.73 54.37 | 8.NBrequest • | -12.53 | 0.000 | 9.37 11.57 | 13.85 21.81 | 2.www-sop • | -12.61 | 0.000 | 22.26 26.05 | 20.74 37.41 | 6.NBRequest_OK • | -18.03 | 0.000 | 917.95 1518.74 | 977.68 4140.73 | 9.DureeTotale • | -35.05 | 0.000 | 37.25 53.73 | 26.05 58.43 | 13.MDurée_OK • | -66.98 | 0.000 | 0.09 0.22 | 0.10 0.25 | 10.Repetition • +--------+-------+-------------------+-------------------+---------------------+• --------------------------------------------------------------------------------• V.TEST PROBA ---- POURCENTAGES ---- MODALITES
• CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES• --------------------------------------------------------------------------------• 61.45 CLASSE 1 / 7
• 5.55 0.000 67.04 21.07 19.31 Unix/Linux User_System
• 3.61 0.000 64.11 32.57 31.22 Netscape Navigator User_Agent
• --------------------------------------------------------------------------------
![Page 35: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/35.jpg)
Interprétation de la classe (2/7)
• CLASSE 2 / 7
• +--------+-------+-------------------+-------------------+---------------------+• | V.TEST | PROBA | MOYENNES | ECARTS TYPES | • | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE • +--------+-------+-------------------+-------------------+---------------------+• | CLASSE 2 / 7 ( EFFECTIF = 1168 ) • | 69.47 | 0.000 | 165.11 53.73 | 77.36 58.43 | 13.MDurée_OK • | 22.39 | 0.000 | 4062.88 1518.74 | 4536.76 4140.73 | 9.DureeTotale • +--------+-------+-------------------+-------------------+---------------------+• --------------------------------------------------------------------------------• V.TEST PROBA ---- POURCENTAGES ---- MODALITES
• CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES• --------------------------------------------------------------------------------• 12.05 CLASSE 2 / 7
• 6.67 0.000 16.55 28.34 20.64 Pays
• 6.15 0.000 15.14 39.21 31.22 Netscape Navigator User_Agent • 2.64 0.004 13.85 22.86 19.89 Matin Zone • --------------------------------------------------------------------------------
![Page 36: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/36.jpg)
Interprétation de la classe (4/7)
• CLASSE 4 / 7• +--------+-------+-------------------+-------------------+---------------------+• | V.TEST | PROBA | MOYENNES | ECARTS TYPES | • | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE • +--------+-------+-------------------+-------------------+---------------------+• | CLASSE 4 / 7 EFFECTIF = 2032 )• | 74.35 | 0.000 | 0.59 0.22 | 0.19 0.25 | 10.Repetition • | 17.39 | 0.000 | 19.06 11.57 | 32.28 21.81 | 2.www-sop • | 14.77 | 0.000 | 98.16 94.91 | 4.25 11.15 | 5.PRequest_SEL • | 11.45 | 0.000 | 52.87 43.42 | 45.03 41.85 | 4.Pww-sop • | 7.44 | 0.000 | 36.27 28.29 | 41.59 54.37 | 8.NBrequest • | | | | | • | -13.62 | 0.000 | 38.03 53.73 | 30.89 58.43 | 13.MDurée_OK • +--------+-------+-------------------+-------------------+---------------------+ • --------------------------------------------------------------------------------• V.TEST PROBA ---- POURCENTAGES ---- MODALITES • CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES• --------------------------------------------------------------------------------• 20.97 CLASSE 4 / 7 • 6.49 0.000 23.07 67.91 61.72 MS Internet Explorer User_Agent • 5.59 0.000 22.32 78.84 74.06 Windows User_System • 2.44 0.007 21.96 53.64 51.22 fr Pays • --------------------------------------------------------------------------------
![Page 37: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/37.jpg)
Interprétation de la classe (5/7)
• CLASSE 5 / 7• +--------+-------+-------------------+-------------------+---------------------+• | V.TEST | PROBA | MOYENNES | ECARTS TYPES | • | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE • +--------+-------+-------------------+-------------------+---------------------+• | CLASSE 5 / 7 ( EFFECTIF = 474 )• | • | 9.15 | 0.000 | 0.32 0.22 | 0.22 0.25 | 10.Repetition • | | | | | • | -11.84 | 0.000 | 29.27 51.44 | 25.54 41.80 | 3.Pwww • | -78.38 | 0.000 | 55.76 94.91 | 17.22 11.15 | 5.PRequest_SEL • +--------+-------+-------------------+-------------------+---------------------+• • --------------------------------------------------------------------------------• V.TEST PROBA ---- POURCENTAGES ---- MODALITES
• CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES• --------------------------------------------------------------------------------• 4.89 CLASSE 5 / 7 • 15.48 0.000 27.01 23.42 4.24 Unknown Platform User_System • 14.26 0.000 21.09 25.32 5.87 Other Agent User_Agent • 3.57 0.000 6.75 22.78 16.52 Nuit Zone • 2.69 0.004 7.15 10.76 7.36 net Pays
![Page 38: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/38.jpg)
Interprétation de la classe (6/7)
• CLASSE 6 / 7• +--------+-------+-------------------+-------------------+---------------------+• | V.TEST | PROBA | MOYENNES | ECARTS TYPES | • | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE • +--------+-------+-------------------+-------------------+---------------------+• | CLASSE 6 / 7 ( EFFECTIF = 17 ) • | 65.23 | 0.000 | 887.76 28.29 | 635.79 54.37 | 8.NBrequest • | 50.06 | 0.000 | 405.76 14.46 | 346.52 32.25 | 1.www • | 10.87 | 0.000 | 12429.35 1518.74 | 12680.02 4140.73 | 9.DureeTotale • | 3.58 | 0.000 | 0.44 0.22 | 0.36 0.25 | 10.Repetition • | -10.13 | 0.000 | 67.53 94.91 | 34.38 11.15 | 5.PRequest_SEL • +--------+-------+-------------------+-------------------+---------------------+• • --------------------------------------------------------------------------------• V.TEST PROBA ---- POURCENTAGES ---- MODALITES
• CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES• --------------------------------------------------------------------------------• 0.18 CLASSE 6 / 7 • 5.67 0.000 2.19 52.94 4.24 Unknown Platform User_System • 5.16 0.000 1.58 52.94 5.87 Other Agent User_Agent • 2.72 0.003 0.50 47.06 16.52 Nuit Zone • 2.62 0.004 1.55 17.65 2.00 01 Jan Date • 2.50 0.006 0.70 29.41 7.36 net Pays • --------------------------------------------------------------------------------
![Page 39: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/39.jpg)
Structure du Site
153 463 requêtes du site wwwwww correspondant à 44 Rubriques
129 076 requêtes du site www-sopwww-sop correspondant aux 69 Rubriques
Nous considérons seulement les navigations des sites du siège et de sophia
< soit 3969 navigations sur les 3969 navigations sur les 97009700>
![Page 40: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/40.jpg)
Rubriques sur les deux sites
![Page 41: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/41.jpg)
Analyse Factorielle des correspondances Multiples
![Page 42: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/42.jpg)
Classifications en 11 classes
1
7
10
4
![Page 43: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/43.jpg)
Interprétation de la classe 1/11
• CLASSE 1 / 11• +---------------+-------------------------+------------------------------• | V.TEST PROBA | POURCENTAGES | FREQUENCES CARACTERISTIQUES • | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE
• | | |
• | | 33.15 |• | 202.73 0.0000 | 70.21 66.74 31.51 | 33 . Sop projets
• | 65.75 0.0000 | 67.00 11.78 5.83 | 1 . www projets
• | 12.23 0.0000 | 75.12 0.32 0.14 | 36 . Sop sophia
Navigations visitant les projets de recherche
![Page 44: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/44.jpg)
Interprétation de la classe 4/11
• CLASSE 4 / 11• +---------------+-------------------------
+------------------------------• | V.TEST PROBA | POURCENTAGES | FREQUENCES
CARACTERISTIQUES • | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE• | | | • | | 16.77 | • | | | • | 127.23 0.0000 | 92.51 20.67 3.75 | 42 . Sop semir • | 107.14 0.0000 | 81.53 17.89 3.68 | 58 . Sop interne-sophia • | 61.46 0.0000 | 92.68 5.03 0.91 | 63 . Sop modeles • | 49.70 0.0000 | 94.97 3.17 0.56 | 31 . www modeles •
Navigations visitant l’intranet
![Page 45: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/45.jpg)
Interprétation de la classe 7/11• CLASSE 7 / 11• +---------------+-------------------------
+------------------------------• | V.TEST PROBA | POURCENTAGES | FREQUENCES
CARACTERISTIQUES • | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE• | | 11.40 |• | 73.97 0.0000 | 75.04 10.92 1.66 | 12 . www actualites-
siege• | 71.40 0.0000 | 76.31 10.01 1.50 | 9 . www valorisation • | 63.35 0.0000 | 72.51 8.39 1.32 | 11 . www publications• | 59.92 0.0000 | 35.95 17.42 5.52 | 4 . www recherche• | 51.75 0.0000 | 77.26 5.26 0.78 | 5 . www presse
• | 49.99 0.0000 | 50.46 7.97 1.80 | 10 . www intro-inria
• | 41.58 0.0000 | 59.03 4.63 0.89 | 14 . www multimedia
Navigations visitant les activités du siège de l’INRIA
![Page 46: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/46.jpg)
Interprétation de la classe 10/11
• CLASSE 10 / 11• +---------------+-------------------------+-----------------------• | V.TEST PROBA | POURCENTAGES | FREQUENCES• | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE
• | | |• | | 19.01 |
| 240.13 0.0000 | 85.27 66.49 14.82 | 18 . www ra | 12.85 0.0000 | 28.82 3.00 1.98 | 15 . www rrrt
• | 10.68 0.0000 | 44.13 0.56 0.24 | 2 . www rapports
• | 7.17 0.0000 | 35.31 0.45 0.24 | 34 . Sop rapports •
Navigations visitant les rapports d’activités des projets
![Page 47: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/47.jpg)
Plan• Introduction
Quelques mots sur le Web Mining et Web Usage Mining
Exemple d’un fichier log Web
• Le prétraitement des données Nettoyage des données Transformation des données
• Classification automatique Classification des navigations en fonction des
requêtes Classification des navigations en fonction du site
• Description du projet
![Page 48: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/48.jpg)
Description du projet
![Page 49: Analyse des fichiers logs Web ~ Projet LP STID ~](https://reader030.vdocuments.site/reader030/viewer/2022012922/56814116550346895dacdce4/html5/thumbnails/49.jpg)
Les données log du mois d’octobre 2005pour le site Web d’INRIA Sophia Antipolis
•Données initiales (avant prétraitement) : 1 328 MO 5 840 576 lignes (requêtes)
•Données finales (après prétraitement) 183 MO 845 208 requêtes 173 848 sessions = couples (IP, User Agent) =
utilisateur 258 061 navigations (visites uniques avec des
intervalles < 30 minutes entre 2 requêtes) 62 721 URLs différents dont 22 352 .html externes