seminario de extracción de información dapper: the data mapper rubén izquierdo beviá...
TRANSCRIPT
![Page 1: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/1.jpg)
Seminario de Extracción de Información
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos
![Page 2: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/2.jpg)
2
INDICE
1. Problemática2. ¿ Qué es DAPPER3. ¿ Cómo crear un Dapp?4. ¿ Cómo usar un Dapp?5. Dos ejemplos prácticos6. Características Interesantes7. Algunos problemas de DAPPER
![Page 3: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/3.jpg)
3
Problemática
En 2008, alrededor de 160 millones de webs
Estructura heterogénea y dinámica
Datos semi-estructurados
Desarrollo manual de wrappers◦ Especializado por web◦ Muy costoso de desarrollar◦ Todavía más de mantener
![Page 4: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/4.jpg)
4
¿Qué es DAPPER?
Herramienta de Extracción de Información desde Internet
![Page 5: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/5.jpg)
5
¿Qué es DAPPER?
Servicio web, gratuito (registro)No es necesario programar (entorno
visual)Fases:
◦1 desarrollo del Dapp para una web◦∞ usos del Dapp sobre diferentes webs
Nos permitirá:◦Extraer la información requerida de una web◦Utilizarla de diferentes modos
![Page 6: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/6.jpg)
6
¿Cómo crear un DAPP?
1. Varias muestras de webs con la misma estructura
![Page 7: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/7.jpg)
7
¿Cómo crear un DAPP?
![Page 8: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/8.jpg)
8
¿Cómo crear un DAPP?
1. Varias muestras de webs con la misma estructura
2. Definir información que queremos
![Page 9: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/9.jpg)
9
¿Cómo funciona DAPPER?TITULA
RSUBTITULAR
CUERPO
![Page 10: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/10.jpg)
10
¿Cómo crear un DAPP?
1. Varias muestras de webs con la misma estructura
2. Definir información que queremos
3. DAPPER aprende y propone automáticamente• Información estática / dinámica• Estructura y etiquetas HTML (XPATH)
4. Refinamos el Dapp5. Guardamos el Dapp
![Page 11: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/11.jpg)
11
¿Cómo usar un DAPP?
Suscribirnos mediante un lector◦ RSS Feed (formato de redifusión de fuentes
web)
◦ Atom Feed
Ponerlo en nuestra página web◦ Gadget Google◦ Módulo Netvibes◦ Widget en flash
![Page 12: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/12.jpg)
12
¿Cómo usar un DAPP?
Usarlo desde un lenguaje de programación
◦ XML◦ JSON◦ YAML, XSL, CSV …
Otros◦ iCal◦ Google Map
![Page 13: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/13.jpg)
13
Ejemplo Práctico IExtraer información de noticias
del diario MARCA◦Titular◦Subtitular◦Cuerpo
Crear un widget para mi página web
![Page 14: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/14.jpg)
14
Ejemplo Práctico IICrear un buscador que use yahoo
Crear un gadget para iGoogle
![Page 15: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/15.jpg)
15
Características Interesantes
Uso de variables de entrada◦ Query para un buscador
Creación de alertas◦ Email cuando en cuerpo de noticia aparezca
“Rubén Izquierdo”
Enlazar varios Dapp◦ Dapp buscador inglés Dapp traductor
Explotación de Dapp’s◦ API JAVA◦ Python…
![Page 16: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/16.jpg)
16
Algunos problemas de DAPPER
No funciona con flash
Algunas web bloquean al robot de DAPPER
Limitación hits/segundo
Se ejecuta en el servidor de Yahoo◦Dependencia de Yahoo◦Dependencia de la carga de la red
![Page 17: Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es](https://reader035.vdocuments.site/reader035/viewer/2022081414/54c6a0b949795990548b49c2/html5/thumbnails/17.jpg)
¿Sugerencias? ¿Preguntas?
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos