Open Social Data
Escuchamos para que sepas lo que pasa en Aragón
6 de febrero de 2014
Open Social Data - Escucha Activa 2
Qué es el BIFI
• Instituto de Biocomputación y Física de Sistemas Complejos de la Universidad de Zaragoza
• Multidisciplinariedad– Bioquímica– Física– Computación
6 de febrero de 2014
Open Social Data - Escucha Activa 3
Análisis de redes complejas
• Grafo con una serie de características especiales (estructura en comunidades, jerarquía, etc.)
• Las redes sociales (Facebook, Twitter, …)• Se pueden utilizar para extraer información
sobre la sociedad• Experimentos dilema del prisionero, análisis
del movimiento del 15m, Kampal, etc.
6 de febrero de 2014
Open Social Data - Escucha Activa 4
Escucha activa en Aragón
• ¿De qué se habla en Aragón?• ¿Qué es importante para los aragoneses?• ¿Qué puede resultar interesante para los
aragoneses?• ¿En qué se diferencian los aragoneses del resto de
España?• …
6 de febrero de 2014
Open Social Data - Escucha Activa 5
Redes sociales a capturar
• Microblogging– Twitter
• Vídeo– Youtube
• Imagen– Instagram
• Eventos– Facebook, otras webs de eventos
• Se irán añadiendo RSS, blogs, otras redes sociales…
6 de febrero de 2014
Open Social Data - Escucha Activa 6
Qué datos se capturan
• Siempre datos públicos• Cualquier usuario puede encontrar por sus
propios medios• Se puede eliminar contenido• Se puede solicitar que un usuario deje de ser
escuchado
6 de febrero de 2014
Open Social Data - Escucha Activa 7
Criterios de captura
• Geoposición– Dentro de Aragón– Zonas colindantes– Municipios
• Palabras/usuarios clave– Temas de interés– Usuarios relevantes para Aragón– Se realimentan y actualizan con los datos
geoposicionados
6 de febrero de 2014
Open Social Data - Escucha Activa 8
Criterios de captura II
6 de febrero de 2014
Open Social Data - Escucha Activa 9
Criterios de captura III
6 de febrero de 2014
6 de febrero de 2014
Open Social Data - Escucha Activa 11
Cómo se captura
• Normalmente el usuario ve la información a través de un navegador
• Necesitamos grandes volúmenes de información
• Filtrado por diferentes criterios• Herramientas que las redes sociales y otras
webs proveen• Límites
6 de febrero de 2014
Open Social Data - Escucha Activa 12
Cómo se captura II
• Robots llamados arañas, web crawlers, scrappers…
• Simulan las visitas que muchosusuarios harían
• Cada uno se ocupa de una tarea– Una red social– Cierta información
• Centralizan la información– Filtran y “uniformizan”
6 de febrero de 2014
Open Social Data - Escucha Activa 13
Cómo se filtra la información
• Se solicitan sólo los campos que nos interesan, se eliminan el resto
• 2 tipos: streaming o periódicas• Las arañas no saben qué contenido es bueno o
malo– Se captura mucho ruido, especialmente al buscar por
palabra clave– No se deben de usar palabras demasiado cortas o sin
significado (preposiciones, artículos…)– Hay que tener cuidado con otros idiomas. Ej: CAI, USJ
6 de febrero de 2014
Open Social Data - Escucha Activa 14
Cómo se almacena
• Todos los datos son guardados en una gran base de datos distribuida
• La cantidad de información capturada es importante
• En torno a 10 GB al mes, que se reducen a un 1 GB al filtrar
• Unas 250.000 entradas al mes entre vídeos, fotos, mensajes, etc.
6 de febrero de 2014
Open Social Data - Escucha Activa 15
Cómo se accede a la información
6 de febrero de 2014
API
……
Internet
• ¿Qué es una API?
Open Social Data - Escucha Activa 16
Cómo usar nuestra API
• Peticiones HTTP como las que hace cualquier navegador
• El usuario sólo tiene que indicar qué datos desea obtener y cómo los quiere filtrar– Dirección (/trendings o /data)– Parámetros (?source=twitter)
• Librerías en distintos lenguajes que hacen muy sencillo su uso
6 de febrero de 2014
Open Social Data - Escucha Activa 17
Qué información podemos obtener
• Temas relevantes• Contenido– Fuentes:• Twitter, Facebook, Youtube, Instagram, spain.info
– Tipos:• Texto• Eventos• Vídeo• Fotos
6 de febrero de 2014
Open Social Data - Escucha Activa 18
Cómo podemos filtrarla
• Por geoposición– Centro y radio– Bounding box– Municipio y distancia
• Por período– Fecha de publicación– Fecha del evento
• Por palabras clave• Por tipo de conversación6 de febrero de 2014
Open Social Data - Escucha Activa 19
Qué formato tienen los resultados
• Actualmente en formato JSON, próximamente en XML, CSV, …
• Los resultados aparecen paginados• Ordenados cronológicamente• Se pueden extraer los datos en crudo
6 de febrero de 2014
Open Social Data - Escucha Activa 20
Ejemplo de resultados
6 de febrero de 2014
Open Social Data - Escucha Activa 21
Qué puedo hacer con estos datos
6 de febrero de 2014
Open Social Data - Escucha Activa 22
Cómo va a evolucionar
• Se van a añadir nuevas fuentes de datos (Google+, Vimeo, Flickr, Pinterest, Wikipedia, Foursquare, Linked-in…)
• Mayor volumen de datos, mayor precisión, y mayor calidad
• Nuevos formatos de salida• Estadísticas• … (Abiertos a sugerencias de los ciudadanos)
6 de febrero de 2014