introducció a les dades obertes i altres hypes
TRANSCRIPT
introducció a lesDADES OBERTES
i altres hypes
J. MinguillónEIMT / UOC
què és Open Data?
què és Open?
què es Data?
plural de "datum" (cosa donada)
idea: la mesura / quantitat / ...d'alguna cosa
"Qualsevol informació que facilita laformació d'una idea, d'un judici,
d'una conclusió."
piràmide D-I-K-W
"42" és una dada
"la temperatura del pacient és de42 ºC" és informació
"una febre de 42 ºC pot causardanys cerebrals" és coneixement
la saviesa és usar aquestconeixement pel bé comú
les dadesno són només
números
font: https://flic.kr/p/5A9X6P
taules, documents
wikipedia: pàgines / articles
flickr, instagram: imatges
twitter: tweets
metadades
font: https://flic.kr/p/87P3sc
Locals and Tourists
Eric Fischer
metadades de flickr
dades
=
estructura interna
x
valors possibles
atòmiques
estructurades
semi-estructurades
atòmiques
enters, reals, complexos
vectors (RGB, ...)
caràcters, cadenes
dades estructurades
tabulars: 1D, 2D, 3D, ...
jeràrquiques: tweets
relacions: grafs
dades semi-estructurades
documents (text)
pàgines web (HTML)
en resum
conèixer com són lesdades facilita la seva
manipulació posterior
què és Open?
obert com a
llibertat
font: https://flic.kr/p/6p2kFa
model de les 5 Rs
ReuseReviseRemix
Redistribute
Retain
lliure vs gratuït
https://theodi.org/blog/when-data-is-free-but-not-open
obert és una combinacióde la manca de
barreres tecnològiques
barreres legals
barrerestecnològiques
font: https://flic.kr/p/ad8i3
barreres tecnològiques
les dades han de ser
accessiblesdescarregablesmanipulables
el model de 5 estrelles
* no manipulables: pdf, tiff** propietàries: doc, ppt, xls*** formats oberts: txt, csv, json**** enllaçades: xml, rdf***** contextualitzades: xml, rdf
http://5stardata.info/en/
per ser obertes calen 3 estrelles
formats oberts
programari lliure
linked data
linked data
usar URIs per identificarusar HTTP per accedir
descriure dades amb metadadesenllaçar a dades relacionades
pensat per a màquines
exemple
<perfil id="jminguillona"> <website> https://ca.wikipedia.org/wiki/Usuari:Julià_Minguillón </website> <twitter> https://twitter.com/jminguillona </twitter> <orcid> https://orcid.org/0000-0002-0080-846X </orcid> <institució> http://www.uoc.edu </institució> ...</perfil>
perquè linked data?
extracció de dades de la webintercanvi / enriquiment de dades
construcció de coneixementcerques semàntiques
exemple: wikidata
quins són els municipisconfrontants amb Reus?
https://ca.wikipedia.org/wiki/Reus
https://www.wikidata.org/wiki/Q487096
accés a les dades
accés "estàtic"
dades en fitxers"fotografies" del passat
no definits pels usuaris finalsrepositoris de dades
consumides per humans
http://dadesobertes.gencat.cat/ca/cercador/detall-cataleg/?id=5
accés "dinàmic"
dades com un flux"fotografies" del presentparametritzades (API)
serveis onlineconsumides per aplicacions
ApplicationProgramming
Interface
https://www.programmableweb.com/category/all/apis
exemple: el Tecnoparc de Reus
equipaments (Generalitat de Catalunya)↓
geolocalització↓
API de flickr
<?xml version="1.0" encoding="UTF-8"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:v="http://www.w3.org/2006/vcard/ns#" xml:base="http://opendata.gencat.cat/recursos/equipaments/vcard">
<v:VCard rdf:about="49176"><v:fn xml:lang="ca"><![CDATA[Tecnoparc Reus]]></v:fn><v:nickname xml:lang="ca"><![CDATA[Tecnoparc]]></v:nickname><v:adr><rdf:Description><v:street-address><![CDATA[ Av. de la Cambra de Comerç]]></v:street-address><v:locality><![CDATA[Reus]]></v:locality><v:postal-code><![CDATA[43204]]></v:postal-code><v:region><![CDATA[Baix Camp]]></v:region><v:country-name>Spain</v:country-name><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/></rdf:Description></v:adr><v:geo><rdf:Description><v:latitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">41.1591820489808</v:latitude><v:longitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">1.118734064933219</v:longitude></rdf:Description></v:geo><v:tel><rdf:Description><rdf:value><![CDATA[977 276977]]></rdf:value><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Tel"/><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Pref"/><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/></rdf:Description></v:tel><v:category xml:lang="ca">Recerca</v:category><v:category xml:lang="ca">Parcs científics i tecnològics</v:category></v:VCard>
barreres legals
font: https://flic.kr/p/dQeTEq
barreres legals
accessible no vol dir obert
llicènciescondicions d'ús
EULAs
llicències per dades obertes
per fitxers / bases de dades
els fets no es poden registrar......però les col·leccions sí!
http://opendatacommons.org/licenses/
condicions d'ús
per dades de la webllenguatge legal
http://www.coca-colacompany.com/our-company/the-coca-cola-company-terms-of-use
EULA
End-User License Agreement
per aplicacions i serveis onlinellenguatge legal
poden ser absurdes!
https://www.eff.org/wp/dangerous-terms-users-guide-eulas
aspectes ètics
privacitatseguretat
transparència
males pràctiques
AOL's searcher 4417749Ashley Madison hackejat AEMET de pagament
altres aspectes a vigilar
qualitattraçabilitat
actualització
en resum
abans de publicar /reutilizar dades cal serconscients dels límits
per què open data?
per què no?
a qui pertanyen les dades?qui es/són els productors?
en molts casos, els usuaris!promouen la participació
redueixen el fraupermeten generar valor afegit
"data is the new oil" (C. Humby)
"data is the new soil" (D. McCandless)
RISP(reutilització informació sector públic)
lleis, normatives, ...certes incoherències
context legal
fonts de dades obertes
xarxes socialsscraped web data
repositorisadministració
organitzacions
exemples de repositoris
http://dadesobertes.gencat.cat
http://datos.gob.es
http://opendataday.cat/directori-portals-open-data
https://www.europeandataportal.eu
cicle de vida de lesdades obertes
les dades es...
generencapturen
emmagatzemenpreprocessen
analitzenvisualitzenpubliquen
generació
per humans / sensors / serveisen qualsevol moment / lloc
persistents / volàtilscaptura
emmagatzemamentpublicació
captura
repositorisAPIs
xarxes socialsdases de dades / logs
web scrappinghumans (captcha)
preprocessament
filtrat / selecciófusió (enriquiment)
extracció de característiquesconversió
resums / agregats
anàlisi
descriptors estadísticsinferència
no supervisat (clustering)supervisat (classificació)
importància de les variables...
visualització
anàlisi visualresums
informesdashboards
mapes / grafsinteractivitat
eines
...
big data
big data
3 Vs
volumvarietatvelocitat
volum ésel nombre d'elements
mida de la mostra / població
varietat ésel nombre de valors diferents
dimensionalitat
velocitat éscom de ràpid es genera o canvia
longitudinal
altres Vs
veracitatvalor
variabilitatvisibilitat
...
exemple: Wal-Mart
(2015) 37 millions de clientscompren a Wal-Mart cada diad'una llista de 140,000 ítems
qui compra què i quan?per què?
exemple
incloure dades de contexttargetes de punts
inspecció dels productes (RFID)ús de càmeres i sensors
xarxes socials...
iniciativesopen data
sectors
turismeoci
educacióadministració
agenda oberta
civio
15mpedia
wheredoesmymoneygo?
...
contacte
jminguillona[at]uoc[dot]edu
@jminguillona
webpage
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.