master idemm - fonctionnement des moteurs de recherche
DESCRIPTION
Second cours du module référencement du Master IDEMM Lille. Les différents outils de recherche, le fonctionnement des moteurs, anatomie des pages de résultats, éléments d'interface, personnalisation des résultats, présentation du concept de recherche universelleTRANSCRIPT
![Page 2: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/2.jpg)
TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES
Auteur : Sébastien Billard ([email protected])
Moteurs- Gestion automatisée- Entrée par indexation- Tout le web a vocation à être indexé- Tout le contenu des pages est indexé- Navigation par requêtes
Annuaires- Gestion humaine- Entrée par soumission- Des choix éditoriaux sont faits- Seules les références aux sites sont indexées- Navigation arborescente (recherche possible)
![Page 3: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/3.jpg)
FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE)
Auteur : Sébastien Billard ([email protected])
Index
Moteurde recherche
IndexeurWeb
![Page 4: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/4.jpg)
FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)
Auteur : Sébastien Billard ([email protected])
Web
CrawlersServeur d'URLs Serveur tampon
DépôtIndexeur
Dicte les URLs à crawler Indexent, envoient le contenu des pages
Compresse, numérote et envoie
Décompresse, parse
Résolveur d'URLsAncres
Silos
Stocke les liens et ancres associées
Convertit les URLs en URLs absolues, et lie les documents entre eux
Liens Index des documents
Pagerank
Trieur
Moteur de recherche
LexiqueTrie le contenu des silos et produit un index inversé
Répond aux requêtes des utilisateurs
Contient une copie de chaque page HTML indexée (cache)
Stocke une cartographie du web
Répertories l'ensemble des documents indexés(index direct)
SilosSilosMaintient une correspondance mots / documents (index inversé)
(Schema basé sur l'article « The Anatomy of a Large-Scale Hypertextual Web Search Engine », par Sergey Brin et Lawrence Page)
![Page 5: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/5.jpg)
COMMENT PENSE UN MOTEUR ?
Auteur : Sébastien Billard ([email protected])
Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre dans une bibliothèque :
Contenu Titre4ème de couvertureTable des matièreContenu général
Balise <title>Balise <meta> descriptionTitraille (balises <h1> à <h6>)Ensemble des textes
Structure Lisibilité Accessibilité technique et structuration
Popularité Recommandations Quantité, qualité et teneur des liens entrants
![Page 6: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/6.jpg)
ANATOMIE GENERALE D'UNE PAGE DE RESULTATS
Auteur : Sébastien Billard ([email protected])
Résultats « Onebox »
Résultats naturels
Liens sponsorisés
![Page 7: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/7.jpg)
ELEMENTS D'INTERFACE GOOGLE
Auteur : Sébastien Billard ([email protected])
- Déterminés algorithmiquement- Jusque 8 éléments
Sitelinks
Classic sitelinks
Jumplinks
Résultats indentés
Hiérarchie de site- Déterminés algorithmiquement- Jusque 4 éléments
- Contextuels- Basés sur les ancres
- Contextuels
- Basées sur les fils d'ariane des sites
![Page 8: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/8.jpg)
RECHERCHE UNIVERSELLE
Auteur : Sébastien Billard ([email protected])
Objectif : « faire tomber les silos de l'information qui existent sur le web » (Marissa Mayer, 16/05/07)
Actualités
Pages web
Billets de blogs
Images
Vidéos
![Page 9: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/9.jpg)
PERSONNALISATION DES RESULTATS DE RECHERCHE
Auteur : Sébastien Billard ([email protected])
Localisation de l'utilisateur(IP, langue du navigateur)
Comportement del'utilisateur(loggé ou non)
Personnalisationspar l'utilisateur(Searchwiki)
Interface utilisée(.com, .fr...)
Plusieurs critères concourent la personnalisation des résultats :
![Page 11: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/11.jpg)
LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE
Auteur : Sébastien Billard ([email protected])
Guillemets "
Pour rechercher une chaine de mots
Tiret -
Pour exclure des mots ou sites
Site:
Pour rechercher sur un domaine, un sous-domaine, un répertoire
Filetype:
Pour rechercher un type de fichier donné
Inurl: et allinurl:
Pour rechercher les pages dont l'URL contient une expression
Intitle: et allintitle:
Pour rechercher les pages dont le <title> contient une expression
Link:
Pour recherche des pages pointant vers une URL donnée
![Page 12: Master IDEMM - Fonctionnement des moteurs de recherche](https://reader034.vdocuments.site/reader034/viewer/2022051412/5485e0b0b4af9f730d8b4f87/html5/thumbnails/12.jpg)
LES OPERATEURS UTILES AU REFERENCEUR : BING
Auteur : Sébastien Billard ([email protected])
Linkfromdomain:
Pour rechercher les liens sortants d'un domaine
Ip:
Pour rechercher les sites hébergés sur une IP
Inanchor:
Pour rechercher les sites liés avec une ancre donnée