introducció a les dades obertes i altres hypes

75

Upload: julia-minguillon

Post on 06-Apr-2017

172 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: introducció a les dades obertes i altres hypes
Page 2: introducció a les dades obertes i altres hypes

introducció a lesDADES OBERTES

i altres hypes

J. MinguillónEIMT / UOC

Page 3: introducció a les dades obertes i altres hypes

què és Open Data?

Page 4: introducció a les dades obertes i altres hypes

què és Open?

Page 5: introducció a les dades obertes i altres hypes

què es Data?

Page 6: introducció a les dades obertes i altres hypes

plural de "datum" (cosa donada)

idea: la mesura / quantitat / ...d'alguna cosa

"Qualsevol informació que facilita laformació d'una idea, d'un judici,

d'una conclusió."

Page 7: introducció a les dades obertes i altres hypes

piràmide D-I-K-W

Page 8: introducció a les dades obertes i altres hypes

"42" és una dada

"la temperatura del pacient és de42 ºC" és informació

"una febre de 42 ºC pot causardanys cerebrals" és coneixement

la saviesa és usar aquestconeixement pel bé comú

Page 9: introducció a les dades obertes i altres hypes

les dadesno són només

números

font: https://flic.kr/p/5A9X6P

Page 10: introducció a les dades obertes i altres hypes

taules, documents

wikipedia: pàgines / articles

flickr, instagram: imatges

twitter: tweets

metadades

Page 11: introducció a les dades obertes i altres hypes

font: https://flic.kr/p/87P3sc

Page 12: introducció a les dades obertes i altres hypes

Locals and Tourists

Eric Fischer

metadades de flickr

Page 13: introducció a les dades obertes i altres hypes

dades

=

estructura interna

x

valors possibles

Page 14: introducció a les dades obertes i altres hypes

atòmiques

estructurades

semi-estructurades

Page 15: introducció a les dades obertes i altres hypes

atòmiques

enters, reals, complexos

vectors (RGB, ...)

caràcters, cadenes

Page 16: introducció a les dades obertes i altres hypes

dades estructurades

tabulars: 1D, 2D, 3D, ...

jeràrquiques: tweets

relacions: grafs

Page 17: introducció a les dades obertes i altres hypes

dades semi-estructurades

documents (text)

pàgines web (HTML)

Page 18: introducció a les dades obertes i altres hypes

en resum

conèixer com són lesdades facilita la seva

manipulació posterior

Page 19: introducció a les dades obertes i altres hypes

què és Open?

Page 20: introducció a les dades obertes i altres hypes

obert com a

llibertat

font: https://flic.kr/p/6p2kFa

Page 21: introducció a les dades obertes i altres hypes

model de les 5 Rs

ReuseReviseRemix

Redistribute

Retain

Page 22: introducció a les dades obertes i altres hypes
Page 23: introducció a les dades obertes i altres hypes

lliure vs gratuït

https://theodi.org/blog/when-data-is-free-but-not-open

Page 24: introducció a les dades obertes i altres hypes

obert és una combinacióde la manca de

barreres tecnològiques

barreres legals

Page 25: introducció a les dades obertes i altres hypes

barrerestecnològiques

font: https://flic.kr/p/ad8i3

Page 26: introducció a les dades obertes i altres hypes

barreres tecnològiques

les dades han de ser

accessiblesdescarregablesmanipulables

Page 27: introducció a les dades obertes i altres hypes

el model de 5 estrelles

* no manipulables: pdf, tiff** propietàries: doc, ppt, xls*** formats oberts: txt, csv, json**** enllaçades: xml, rdf***** contextualitzades: xml, rdf

http://5stardata.info/en/

Page 28: introducció a les dades obertes i altres hypes

per ser obertes calen 3 estrelles

formats oberts

programari lliure

Page 29: introducció a les dades obertes i altres hypes
Page 30: introducció a les dades obertes i altres hypes

linked data

Page 31: introducció a les dades obertes i altres hypes

linked data

usar URIs per identificarusar HTTP per accedir

descriure dades amb metadadesenllaçar a dades relacionades

pensat per a màquines

Page 32: introducció a les dades obertes i altres hypes

exemple

<perfil id="jminguillona"> <website> https://ca.wikipedia.org/wiki/Usuari:Julià_Minguillón </website> <twitter> https://twitter.com/jminguillona </twitter> <orcid> https://orcid.org/0000-0002-0080-846X </orcid> <institució> http://www.uoc.edu </institució> ...</perfil>

Page 33: introducció a les dades obertes i altres hypes

perquè linked data?

extracció de dades de la webintercanvi / enriquiment de dades

construcció de coneixementcerques semàntiques

Page 34: introducció a les dades obertes i altres hypes

exemple: wikidata

quins són els municipisconfrontants amb Reus?

https://ca.wikipedia.org/wiki/Reus

https://www.wikidata.org/wiki/Q487096

Page 35: introducció a les dades obertes i altres hypes

accés a les dades

Page 36: introducció a les dades obertes i altres hypes

accés "estàtic"

dades en fitxers"fotografies" del passat

no definits pels usuaris finalsrepositoris de dades

consumides per humans

http://dadesobertes.gencat.cat/ca/cercador/detall-cataleg/?id=5

Page 37: introducció a les dades obertes i altres hypes

accés "dinàmic"

dades com un flux"fotografies" del presentparametritzades (API)

serveis onlineconsumides per aplicacions

Page 38: introducció a les dades obertes i altres hypes

ApplicationProgramming

Interface

https://www.programmableweb.com/category/all/apis

Page 39: introducció a les dades obertes i altres hypes

exemple: el Tecnoparc de Reus

equipaments (Generalitat de Catalunya)↓

geolocalització↓

API de flickr

Page 40: introducció a les dades obertes i altres hypes

<?xml version="1.0" encoding="UTF-8"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:v="http://www.w3.org/2006/vcard/ns#" xml:base="http://opendata.gencat.cat/recursos/equipaments/vcard">

<v:VCard rdf:about="49176"><v:fn xml:lang="ca"><![CDATA[Tecnoparc Reus]]></v:fn><v:nickname xml:lang="ca"><![CDATA[Tecnoparc]]></v:nickname><v:adr><rdf:Description><v:street-address><![CDATA[ Av. de la Cambra de Comerç]]></v:street-address><v:locality><![CDATA[Reus]]></v:locality><v:postal-code><![CDATA[43204]]></v:postal-code><v:region><![CDATA[Baix Camp]]></v:region><v:country-name>Spain</v:country-name><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/></rdf:Description></v:adr><v:geo><rdf:Description><v:latitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">41.1591820489808</v:latitude><v:longitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">1.118734064933219</v:longitude></rdf:Description></v:geo><v:tel><rdf:Description><rdf:value><![CDATA[977 276977]]></rdf:value><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Tel"/><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Pref"/><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/></rdf:Description></v:tel><v:category xml:lang="ca">Recerca</v:category><v:category xml:lang="ca">Parcs científics i tecnològics</v:category></v:VCard>

Page 41: introducció a les dades obertes i altres hypes

barreres legals

font: https://flic.kr/p/dQeTEq

Page 42: introducció a les dades obertes i altres hypes

barreres legals

accessible no vol dir obert

llicènciescondicions d'ús

EULAs

Page 43: introducció a les dades obertes i altres hypes

llicències per dades obertes

per fitxers / bases de dades

els fets no es poden registrar......però les col·leccions sí!

http://opendatacommons.org/licenses/

Page 44: introducció a les dades obertes i altres hypes

condicions d'ús

per dades de la webllenguatge legal

http://www.coca-colacompany.com/our-company/the-coca-cola-company-terms-of-use

Page 45: introducció a les dades obertes i altres hypes

EULA

End-User License Agreement

per aplicacions i serveis onlinellenguatge legal

poden ser absurdes!

https://www.eff.org/wp/dangerous-terms-users-guide-eulas

Page 46: introducció a les dades obertes i altres hypes

aspectes ètics

privacitatseguretat

transparència

Page 48: introducció a les dades obertes i altres hypes

altres aspectes a vigilar

qualitattraçabilitat

actualització

Page 49: introducció a les dades obertes i altres hypes

en resum

abans de publicar /reutilizar dades cal serconscients dels límits

Page 50: introducció a les dades obertes i altres hypes

per què open data?

Page 51: introducció a les dades obertes i altres hypes

per què no?

Page 52: introducció a les dades obertes i altres hypes

a qui pertanyen les dades?qui es/són els productors?

en molts casos, els usuaris!promouen la participació

redueixen el fraupermeten generar valor afegit

"data is the new oil" (C. Humby)

"data is the new soil" (D. McCandless)

Page 53: introducció a les dades obertes i altres hypes

RISP(reutilització informació sector públic)

lleis, normatives, ...certes incoherències

context legal

Page 54: introducció a les dades obertes i altres hypes

fonts de dades obertes

xarxes socialsscraped web data

repositorisadministració

organitzacions

Page 55: introducció a les dades obertes i altres hypes

exemples de repositoris

http://dadesobertes.gencat.cat

http://datos.gob.es

http://opendataday.cat/directori-portals-open-data

https://www.europeandataportal.eu

Page 56: introducció a les dades obertes i altres hypes

cicle de vida de lesdades obertes

Page 57: introducció a les dades obertes i altres hypes

les dades es...

generencapturen

emmagatzemenpreprocessen

analitzenvisualitzenpubliquen

Page 58: introducció a les dades obertes i altres hypes

generació

per humans / sensors / serveisen qualsevol moment / lloc

persistents / volàtilscaptura

emmagatzemamentpublicació

Page 59: introducció a les dades obertes i altres hypes

captura

repositorisAPIs

xarxes socialsdases de dades / logs

web scrappinghumans (captcha)

Page 60: introducció a les dades obertes i altres hypes

preprocessament

filtrat / selecciófusió (enriquiment)

extracció de característiquesconversió

resums / agregats

Page 61: introducció a les dades obertes i altres hypes

anàlisi

descriptors estadísticsinferència

no supervisat (clustering)supervisat (classificació)

importància de les variables...

Page 62: introducció a les dades obertes i altres hypes

visualització

anàlisi visualresums

informesdashboards

mapes / grafsinteractivitat

Page 64: introducció a les dades obertes i altres hypes

big data

Page 65: introducció a les dades obertes i altres hypes

big data

3 Vs

volumvarietatvelocitat

Page 66: introducció a les dades obertes i altres hypes

volum ésel nombre d'elements

mida de la mostra / població

Page 67: introducció a les dades obertes i altres hypes

varietat ésel nombre de valors diferents

dimensionalitat

Page 68: introducció a les dades obertes i altres hypes

velocitat éscom de ràpid es genera o canvia

longitudinal

Page 69: introducció a les dades obertes i altres hypes

altres Vs

veracitatvalor

variabilitatvisibilitat

...

Page 70: introducció a les dades obertes i altres hypes

exemple: Wal-Mart

(2015) 37 millions de clientscompren a Wal-Mart cada diad'una llista de 140,000 ítems

qui compra què i quan?per què?

Page 71: introducció a les dades obertes i altres hypes

exemple

incloure dades de contexttargetes de punts

inspecció dels productes (RFID)ús de càmeres i sensors

xarxes socials...

Page 72: introducció a les dades obertes i altres hypes

iniciativesopen data

Page 73: introducció a les dades obertes i altres hypes

sectors

turismeoci

educacióadministració

Page 74: introducció a les dades obertes i altres hypes

agenda oberta

civio

15mpedia

wheredoesmymoneygo?

...

Page 75: introducció a les dades obertes i altres hypes

contacte

jminguillona[at]uoc[dot]edu

@jminguillona

webpage

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.