traiter des données peu structurées : pages web, fichiers pdf
DESCRIPTION
- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori) ? - Comment les outils que l’on utilise couramment en IST traitent ces données ? - Comment manipuler des flux Rss ? - Qu’est-ce que le Web de données et comment y accéder ?TRANSCRIPT
![Page 1: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/1.jpg)
Ecole Technique « Tranformation des données documentaires »
Poitiers, 14-16 mars 2011
Atelier 4
Traiter des données peu structurées : pages Web, fichiers pdf
Pôle Technologies
pages Web, fichiers pdf
![Page 2: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/2.jpg)
Introduction
Les questions :
- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori)?
- Comment les outils que l’on utilise couramment en IST traitent ces données?
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
IST traitent ces données?
- Comment manipuler des flux Rss?
- Qu’est-ce que le Web de données et comment y accéder?
![Page 3: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/3.jpg)
Structure des données du Web
![Page 4: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/4.jpg)
Le langage HTMLHtml : langage à balises standardisé (W3C) permettant le formatage du texte des pages Web et leur affichage au sein d’un navigateur (protocole http). Origines : 1989-1992 - Html 1.0 : 1993 – html 2.0 : 1995 – html 3.2 : 1997 – html 4.0 : 1997 – html 4.01 : 19992000-2007 : le XHTML. Passerelle entre Html et Xml. Précise la syntaxe Html. Améliore l’interpopérabilité.2011� 2014-- : Html 5 (ou simplement Html)Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même.
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Langages serveur Langages client
PHP, ASP, ColdFusion, JSP, XSP,...
Le plus courant : PHP
Javascript,VB Script, Flash, VRML, SMIL, SVG, XLTS,... Le plus courant : Javascript
Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même. Définissent l’ensemble des éléments de mise en forme � séparation contenant-contenu.Langages associés aux pages Web
![Page 5: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/5.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 6: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/6.jpg)
Html : les métadonnées• Le titre : encadré par les balises <title>…</title>. Obligatoire• Les « balises méta » :
– Les méta NAME=« »…CONTENT=« » : (ex : <META NAME="Description" CONTENT="Rôle et description des balises Meta"> ). Elles précisent par exemple le résumé, les mots-clés, la langue, le propriétaire de la page…
– Les méta HTTP-EQUIV=« »…CONTENT=« » : (ex : <META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ). Elles précisent des règles techniques destinées aux moteurs.
– Les balises sutout utilisées pour le référencement et l’affichage par les moteurs sont : title et description.
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
moteurs sont : title et description.
– Les méta Dublin Core : Elles sont décrites dans l’article Expressing Dublin Core in HTML/XHTML meta and link elements. (http://dublincore.org/documents/dcq-html/)
Toutes ces balises figurent dans la partie « en-tête » (<head>) de la page Html.Elles ne sont pas affichées sur la page
![Page 7: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/7.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 8: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/8.jpg)
Récupérer des donnés bibliographiques
![Page 9: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/9.jpg)
Avec Zotero
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 10: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/10.jpg)
Avec Mendeley
• Un espace en ligne (connexion !)
• Un Mendeley Desktop sur son ordinateur
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• http://www.mendeley.com/blog/research-tutorials/mendeleys-one-click-web-importer/
![Page 11: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/11.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 12: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/12.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 13: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/13.jpg)
En ligne
Sur le PC (Desktop)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 14: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/14.jpg)
COINSContext Objects in Span
Les logiciels tels que Zotero ou Mendeley (mais aussi WordPress, CiteULike…) s’appuient sur la méthode COinS pour récupérer les données bibliographiques
Coins est une méthode pour incorporer des citations bibliographiques non visibles dans une page web en HTML, utilisant la norme OpenURL.
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
http://www.figoblog.org/document1131.php,voir aussi http://vlib.mpg.de/sfx-coins.html
visibles dans une page web en HTML, utilisant la norme OpenURL.
Ensuite les métadonnées sont récupérables par des outilsMendeley / Zotero / Endnote ou peuvent être étendues par des possibilités de l’OpenURL
Voir les extensions de Coins
![Page 15: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/15.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 16: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/16.jpg)
COINS GENERATOR
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
http://generator.ocoins.info/
![Page 17: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/17.jpg)
Les métadonnées des fichiers pdf
![Page 18: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/18.jpg)
Les métadonnées des fichiers PDF
• 1993-2001 Document Info
– 6 champs textuels (Titre, Auteur, Sujet, Mots-clés, Producteur du PDF, Application)
– 2 champs date (création, modification)
• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata Platform– Format type XML
– Se trouve aussi dans les photos
• Nature publie des articles contenant des métadonnées XMP voir exemple
Source : P Pecatte : http://blog.tuquoque.com/post/2010/01/05/metadata-PDF
![Page 19: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/19.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 20: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/20.jpg)
Fichier>propriétés
Dans Acrobat
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 21: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/21.jpg)
DublinCorePrism*
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
* Publishing Requirements for Industry Standard Metadata (PRISM) http://www.prismstandard.org/about/
![Page 22: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/22.jpg)
RéférenceEndnoteimportée
Avec Endnote
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 23: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/23.jpg)
Add folder (choisir le dossier contenant les PDF)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 24: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/24.jpg)
Créer un flux Rss à partir d’une page Web
![Page 25: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/25.jpg)
Un outil simple : Page2rss
En ligne ou comme extension de Google Chrome
http://page2rss.com/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
S’appuie sur le cache Google. Attention aux dates de mises à jour
![Page 26: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/26.jpg)
URL du flux : http://page2rss.com/rss/81b5348182061d6ac0d4a56673e06142
Flux récupéré dans un agrégateur (ex : Google Reader
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 27: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/27.jpg)
Voir aussi…
http://www.ponyfish.com/
Recherche les flux existants ou propose la création
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
http://www.feedreader.com/
Ne crée pas de flux, mais détecte les flux existants même s’il ne sont pas affichés en tant que tels
![Page 28: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/28.jpg)
Extraire et réorganiser du contenu Web
![Page 29: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/29.jpg)
Quelques termes
• Web scraping : « extraire du contenu d'un site Web, via un script ou un programme, dans le but de le transformer ou de changer son format pour permettre son utilisation dans un autre contexte. » (http://fr.wikipedia.org/wiki/Web_scraping)
• Le mashup :
– Une application composite
– combine du contenu ou du service provenant de plusieurs applications plus
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
– combine du contenu ou du service provenant de plusieurs applications plus ou moins hétérogènes.
– Exemples : • superposition de données visuelles et sonores différentes
• Agréger du contenu provenant d'autres sites, afin de créer un site web nouveau.
Si certains éditeurs autorisent et encouragent le développement de nouvelles applications utilisant leurs données (Amazon, Google…), c’est sur la base d’accords économiques. La republication « sauvage » peut contrevenir au droit d’auteur. De plus en plus de producteurs de contenus s’en protègent en plaçant à la racine de leur site un fichier « robots.txt » spécifiant les robots autorisés à parcourir leur site.
![Page 30: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/30.jpg)
Mashup (côté serveur)
• Web service
– programme informatique
– communication et l'échange de données entre applications et systèmes hétérogènes
– dans des environnements distribués. en temps réel
• API (Application Programming Interface ou API) est une interface fournie par un programme informatique. Elle
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
une interface fournie par un programme informatique. Elle permet l'interaction des programmes les uns avec les autres.
Mashup (côté client)
• XMLHttpRequest
• AJAX du côté client, les RSS
![Page 31: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/31.jpg)
Un exemple de Mashup
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Illustration de Mashup des statistiques de naissances, reconnaissances, mariages et décès à Paris (2004 à 2009)À partir du site Parisdata avec GoogleMap http://paris.mapize.com/
![Page 32: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/32.jpg)
Open Dapper : http://open.dapper.net/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 33: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/33.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 34: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/34.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Sélection des types de contenu à conserver et attribution de noms de « champ »
![Page 35: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/35.jpg)
Choix des « champs » à afficher dans le nouveau flux
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 36: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/36.jpg)
Transformer, fusionner, filtrer, échanger des flux
![Page 37: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/37.jpg)
Les agrégateurs de flux : Netvibes, Google Reader, FeedReader,
logiciels de veille.
Usage : lire tous les flux en 1 seul point. Veille.
+ de Netvibes : présentation agréable (outil de diffusion) avec possibilité de lecture globale (vue « lecteur)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
+ de Google Reader : moteur de recherche interne
![Page 38: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/38.jpg)
Echanger des flux : le format OPMLOutline Processor Markup Language
• C’est un fichier au format XML
• Adopté pour l’échange de listes
http://www.opml.org/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
l’échange de listes de flux (et aussi de podcasts, etc)
• Répond à des spécifications
• La plupart des agrégateurs de flux proposent l’export OPML
![Page 39: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/39.jpg)
X-Fruits
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Recevoir les flux par mailEnvoyer des informations sur une boîte mail Xfruits collaborative avec création d’un flux unique en sortieCréer un pdf à partir d’un flux
![Page 40: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/40.jpg)
FeedRinse
Filtrage de flux
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 41: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/41.jpg)
Un outil avancé : Yahoo PipesPrincipales fonctionnalités :
• fusionner des flux, les trier, les traduire, ajouter des filtres
• extraire et combiner des contenus, introduire des éléments de géolocalisation
• rediffuser sous différents, formats, widgets
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 42: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/42.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Après avoir sauvegardé le « pipe », les formats de sortie sont accessibles
Exemple réalisé avec l’aide (précieuse) de Marie-Colette Fauré)
![Page 43: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/43.jpg)
Exemple : à partir des pages « agenda / événements » de l’Inra et du Cirad � flux créé avec Page2Rss + ajout du flux Ifremer « dernières actualités »
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Prévisualisation du flux actualisé lors de sa création
![Page 44: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/44.jpg)
Microformats et web sémantique
![Page 45: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/45.jpg)
Linked Data – web de données
• L’objectif des données liées est de permettre aux gens de partager des données structurées sur le Web aussi facilement qu’ils peuvent partager des documents d’aujourd’hui.
Modèle de données RDFLiens RDF
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• Deux principes• Modèle de données pour publier des données structurées sur le Web• utiliser des liens de ce modèle pour interconnecter les données
provenant de sources différentes
Liens RDF
Source : Traduction : How to Publish Linked Data on the Web? « Blogabriel: http://bit.ly/igfKua
![Page 46: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/46.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
EXTRAIRE DES DONNÉES SÉMANTIQUES DE WIKIPEDIA
Extraire des données sémantiques de wikipedia
![Page 47: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/47.jpg)
• Wikipedia est de facto LE vocabulaire contrôlé du web
� définition pour l’ensemble des sites
• DBPEDIA est devenu l’ensemble des ressources
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• DBPEDIA est devenu l’ensemble des ressources D’URI partagée pour les concepts pour le web sémantique
• DBPEDIA est une brique importante pour lier entre eux différentes données sémantiques
![Page 48: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/48.jpg)
Link Open DATASETS 2007
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 49: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/49.jpg)
LOD DATASETS 2008
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 50: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/50.jpg)
LOD DATASETS 2010
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 51: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/51.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 52: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/52.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Voir page suivante
![Page 53: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/53.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 54: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/54.jpg)
infobox
Table préformatée de données dynamiquesqui présente sommairement des informations importantes sur un sujet dans un cartouche placé en général à droite de
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
un cartouche placé en général à droite de l‘article
� Différents modèles par domaines
http://fr.wikipedia.org/wiki/Aide:Infobox
![Page 55: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/55.jpg)
infobox infobox
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 56: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/56.jpg)
TaxoboxTaxobox
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 57: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/57.jpg)
Les microformatsmicroformats.org
• Ensemble de données très simples, ouvertes
• Construit avec les standards existants
• Permet de s’intégrer à l’existant (le web actuel)
• S’appuie sur des modèles simples
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• S’appuie sur des modèles simples
![Page 58: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/58.jpg)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : Travis Isaacs - microformats @ CE University 8/22/07
![Page 59: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/59.jpg)
RDFa
• syntaxe qui vise à inclure des triples RDF dans le code des pages Web en XHTML. (=microformats)
• Utilise la syntaxe de RDF
• Utilise les attributs du XHTML• Utilise les attributs du XHTML
href, content, rel, rev, and datatype ( XHTML 1) about, role and property ( XHTML 2)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa
![Page 60: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/60.jpg)
RDFa – exemple de code
Exemple 1 (en utilisant le Dublin Core)
<div xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics"><span property="dc:title">Wikinomics</span>
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa
<span property="dc:title">Wikinomics</span><span property="dc:creator">Don Tapscott</span>
<span property="dc:date">2006-10-01</span> </div>
![Page 61: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/61.jpg)
RDFa – exemple de codeExemple 2 RDFa peut aussi s'inscrire naturellement dans le flot du contenu :<p xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics">Dans son dernier livre <em property="dc:title"> Wikinomics</em>,<span property="dc:creator">Don Tapscott</span>
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa
<span property="dc:creator">Don Tapscott</span>explique les profonds changements technologiques, démographiques et économiques. Ce livre a été publiéen <span property="dc:date" content="2006-10-01">octobre 2006</span>. </p>
![Page 62: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/62.jpg)
Rdf-a pour les moteurs de recherche
Si dans une page web ont écrit le code
<span id="sartre" about="#sartre" rel="owl:sameAs" href="http://dbpedia.org/page/Jean-Paul_Sartre"> href="http://dbpedia.org/page/Jean-Paul_Sartre"> Jean-Paul Sartre </span>
Le moteur de recherche :
indexe la page Web, mais aussi la notice de Jean-Paul Sartre en RDF dans DBpedia
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://radar.oreilly.com/2009/05/google-announces-support-for-m.html
![Page 63: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/63.jpg)
Visualiser le web Sémantique
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
DBPEDIA – RELFINDER
SINDICE
![Page 64: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/64.jpg)
On peut ajouter des ressources « RDF »
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 65: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/65.jpg)
2- les différents objets
1- Recherche entre plusieurs termes
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
2- le graphe de relation
![Page 66: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/66.jpg)
http://sindice.com/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 67: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/67.jpg)
Rechercheclassique
Recherche
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Formats
RechercheSur triplet
RecherchePlus précise
![Page 68: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/68.jpg)
Recherche Oryza sativa sur tous les formats
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 69: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/69.jpg)
L’article dans Mendeley
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
![Page 70: Traiter des données peu structurées : pages Web, fichiers pdf](https://reader034.vdocuments.site/reader034/viewer/2022051610/548326b6b47959140d8b495b/html5/thumbnails/70.jpg)
Recherche Oryza sativa sur le format RDF uniquement
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala