Download - Fonctionnement des moteurs de recherches
![Page 1: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/1.jpg)
Les moteurs de recherche
• Aperçu général
• Les différentes technologie
• Et plus en détail : les spiders
![Page 2: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/2.jpg)
Comment fonctionne un moteur de recherche ?
•La collecte d’information•L’indexation des données collectées•Classement des résultats en fonction de leurs pertinences
•Affichage des résultats les uns en-dessous des autres
![Page 3: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/3.jpg)
Fonctionnement
![Page 4: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/4.jpg)
Technologie utilisée
Donnée valable pour 2009
![Page 5: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/5.jpg)
La collecte d’information avec les
spiders
Les spiders qu’est ce que c’est ?
• Les spiders (bots) sont des programmes de navigation visitant en permanence les pages web et leurs liens en vue d’indexer leurs contenus.
• Il détecte les liens des pages est les visites 24h/24h.
![Page 6: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/6.jpg)
Les différents bots
• Les bots les plus connu : Googlebot de Google, Yahoo! Slurp de Yahoo!, MSNBot de Microsoft Bing, Exabot d’Exalead.
![Page 7: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/7.jpg)
Les spiders ou crawler
Qu’est ce qui font ?
• Contrôles des différentes versions enregistrer dans les bases de données du spider.
• Avant la visite était mensuel, maintenant les bots visites des sites plusieurs fois par jour.
![Page 8: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/8.jpg)
Les spiders
Politique de sélection
• Une étude de 2009 a montré que seulement 40% à 70% du web est indexé.
• 1999 : Un moteur de recherche indexe pas plus de 16% du web.
![Page 9: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/9.jpg)
Le web profond ou le deep web
• Le web profond : les robots sont incapables de trouver les pages qui n’ont aucun lien qui pointe vers eux.
• Google a développé les Sitemaps et mod_oai pour permettre la découverte des ces ressources.
![Page 10: Fonctionnement des moteurs de recherches](https://reader036.vdocuments.site/reader036/viewer/2022062313/55c7261fbb61eb665a8b45e5/html5/thumbnails/10.jpg)
Source
• Olivier Andrieu - Reussir son referencement web
• http://en.wikipedia.org/wiki/Web_crawler/
• http://roxors.pbworks.com/w/page/87922261/Lucas%20Roche