poggi analytics - intro - 1c

56
Buenos Aires, marzo de 2016 Eduardo Poggi

Upload: gaston-liberman

Post on 15-Apr-2017

33 views

Category:

Business


0 download

TRANSCRIPT

Page 1: Poggi   analytics - intro - 1c

Buenos Aires, marzo de 2016Eduardo Poggi

Page 2: Poggi   analytics - intro - 1c

Analytics

Datos eran los de antes! Aclarando el panorama Oportunidades y desafíos ¿Y ahora?

Page 3: Poggi   analytics - intro - 1c

Evolución de los SI - Usuarios internos

Intranet

Usuario interno: conocido, capacitado, acreditado, identificado, autenticado y autorizado

Usuario externo

Datos

SI

LAN/WANprotegida y administrada

Cliente (PC) bajo controlDiálogo

personal, intercambio de papeles

Org.Usuario

Page 4: Poggi   analytics - intro - 1c

Evolución de los SI - Usuarios externos

Internet

Org.

Usuario externo: ¿capacitado, acreditado, identificado, autenticado y autorizado?

Intranet

Bajo nivel de control del cliente (PC).

Red insegura y no confiable, administrada por Nadie. (sin SLA)

Usuario

Page 5: Poggi   analytics - intro - 1c

Evolución de los SI - Usuarios y servicios externos

Internet

Org.A

Intranet

Org.B

Intranet

Infraestructura, procesos, aplicaciones, datos y seguridad administrados por otro organismo para dar respuesta a un usuario propio.(Sin SLA)

Usuario

Representado

EMPRESA

Usuario externo que actúa en nombre de un tercero.

Page 6: Poggi   analytics - intro - 1c

Evolución de los SI – Externalización

Internet

Org.A

Intranet

Org.B

Intranet

Infraestructura, procesos, aplicaciones, datos y seguridad administrados por fuera del organismo.

Usuario

DC

Intranet

Org.C

Intranet

Datos y servicios provistos por terceros.

Page 7: Poggi   analytics - intro - 1c

Datos

Page 8: Poggi   analytics - intro - 1c

Datos

Page 9: Poggi   analytics - intro - 1c

Datos

Orden 0: sólo constantes (24/06, Eduardo Poggi, M, Docente)

Orden 1: variables cuantificadas x y ∃z : x,y,z ∈ N / igual(suma(X,Y),Z)

Orden 2: predicados cuantificados S x : (x ∈ S) v (x ∉ S) (principio de bivalencia).

abuelo(X,Z) <- padre(X,Y), padre(Y,Z) abuelo(X,Z) <- padre(X,Y), madre(Y,Z) padre(homero, bart) <- padre(abraham, homero) <-

Page 10: Poggi   analytics - intro - 1c

Datos

Page 11: Poggi   analytics - intro - 1c

Datos

11

Page 12: Poggi   analytics - intro - 1c

Erik Kessels24 hours in photos

Datos

Page 13: Poggi   analytics - intro - 1c

Datos

https://www.openhub.net

Page 14: Poggi   analytics - intro - 1c

Datos

Page 15: Poggi   analytics - intro - 1c

Datos

Page 16: Poggi   analytics - intro - 1c

Datos

politicacomunicada.com/costa-rica-da-a-conocer-el-anteproyecto-de-ley-de-gobierno-abierto/ blogthinkbig.com/open-data-aportar-valor/

Page 17: Poggi   analytics - intro - 1c

Datos Compleción: se libera el acceso a todos los datos públicos, es decir, aquellos que no

estén sujetos a restricciones de privacidad, seguridad o privilegio regidos por alguna norma.

Fuente primaria: los datos se publican tal como son recolectados en la fuente, con el mayor nivel de precisión y detalle, no en formas agregadas o modificadas.

Oportunidad: los datos se publican tan pronto como sea posible para preservar su valor.

Accesibilidad: los datos están accesibles para las más amplias gamas de usuarios y de propósitos.

Procesabilidad: los datos están en formatos apropiados y razonablemente estructurados para permitir su tratamiento automatizado.

No discriminación: los datos están disponibles para todos, sin necesidad de registrarse para obtenerlos.

No restricción: los datos están accesibles en un formato sobre el que ninguna entidad tiene control exclusivo.

Libertad: los datos no están sujetos a derechos de autor, patentes, marcas ni a regulaciones de secreto industrial o comercial. Tampoco están sujetos a restricciones de privacidad, seguridad o privilegio reguladas por otras normas.

Documentación: los datos están documentados de forma que puedan ser correctamente interpretados. Idealmente la semántica asociada a los datos debería cumplir también con los restantes principios, por lo que debería ser publicada de forma estandarizada y procesable, sin perjuicio de la documentación tradicional que lo complemente.

Permanencia: los datos se mantienen accesibles de forma permanente. Interoperabilidad: los distintos conjuntos de datos son relacionables entre sí sin

mayor esfuerzo, gracias a la estandarización sintáctica y semántica. Garantía de procedencia: los conjuntos de datos están publicados con

mecanismos que provean confianza sobre: las fechas de creación y publicación, la identidad, autenticidad y no repudio de la fuente y su integridad.

Page 18: Poggi   analytics - intro - 1c

Datos

Page 19: Poggi   analytics - intro - 1c

Datos

Page 20: Poggi   analytics - intro - 1c

Datos - ¿Quién consume?

Page 21: Poggi   analytics - intro - 1c

Datos - ¿Quién consume?

digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5351_Lenton.pdf

Page 22: Poggi   analytics - intro - 1c

Datos - ¿Quién consume?

https://thevizcorner.wordpress.com/2015/11/16/desigualdad-y-crecimiento-economico-en-argentina/

Page 23: Poggi   analytics - intro - 1c

Datos - ¿Quién consume?

MySociety desarrolló hace años este proyecto que ilustra perfectamente la utilidad de cruzar datos urbanos con la localización física. La herramienta Mapumental permite visualizar el tiempo de transporte para llegar a un punto de determinado desde cualquier lugar de la ciudad, ayudando con ello a entender la distancia temporal de movilidad, mucho más útil y práctica que la distancia física.

www.ateneonaider.com

Page 24: Poggi   analytics - intro - 1c

Datos - ¿Quién consume?

La población de nueva York durante el día y durante la noche, reflejando la densidad de las diferentes zonas.

www.ateneonaider.com

Page 25: Poggi   analytics - intro - 1c

¿Oportunidades?

www.lanacion.com

Más allá de su impacto potencial en la vida urbana, los datos podrían tener un enorme valor económico:

• Los valores de propiedad podrían subir en cuadras con bajos niveles de polución.

• Las ciudades podrían recaudar más ingresos por violaciones a ordenanzas de ruido y emisiones.

• Los minoristas podrían usar datos del tránsito de peatones para elegir ubicaciones más rentables para sus tiendas.

Page 26: Poggi   analytics - intro - 1c

¿Oportunidades?

www.buenosaires.gob.ar

Page 27: Poggi   analytics - intro - 1c

¿Oportunidades?

Page 28: Poggi   analytics - intro - 1c

¿Oportunidades?

1 millón km2

Page 29: Poggi   analytics - intro - 1c

¿Desafíos?

Todo lo que se puede sacar de un celular www.zeit.de/datenschutz/malte-spitz-data-retention

https://vimeo.com/43765286

• SUBE• Tarjetas de pago• Banca electrónica• Tarjetas de fidelidad• Servicios públicos y cuasi-públicos• …

Page 30: Poggi   analytics - intro - 1c

¿Desafíos?

https://www.technologyreview.com/s/601051/machine-learning-algorithm-identifies-tweets-sent-under-the-influence-of-alcohol/

Page 31: Poggi   analytics - intro - 1c

¿Desafíos?

Page 32: Poggi   analytics - intro - 1c

¿Desafíos?

www.youtube.com/embed/F7pYHN9iC9I?rel=0

Page 33: Poggi   analytics - intro - 1c

¿Desafíos?

Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.

Page 34: Poggi   analytics - intro - 1c

¿Desafíos?

Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.

Page 35: Poggi   analytics - intro - 1c

¿Desafíos?

Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.

Page 36: Poggi   analytics - intro - 1c

¿Desafíos?

Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.

Page 37: Poggi   analytics - intro - 1c

¿Y ahora? Artículo 3°.- Los organismos que integran el Sistema Estadístico Nacional

deben servir con objetividad los fines de su creación con sometimiento pleno al derecho y deben actuar de acuerdo con los siguientes principios generales: secreto estadístico, pertinencia, transparencia, rigurosidad, autonomía, técnica, comparabilidad, eficiencia, centralización normativa, descentralización operativa, legalidad objetiva y motivación de la decisión. El secreto estadístico obliga a tratar los datos individuales proporcionados por la

fuente de información con la más absoluta confidencialidad, de forma tal de no revelar la identificación de dichas fuentes.

La pertinencia es el vínculo que debe existir entre los datos solicitados a la fuente de información y los objetivos de la actividad estadística para la cual dichos datos, son recabados.

La transparencia es el derecho de las fuentes de información de conocer los objetivos de la actividad estadística para la cual se solicitan los datos, y si los mismos estarán amparados por el secreto estadístico.

La rigurosidad consiste en la aplicación sistemática de los principios, métodos y procedimientos generalmente aceptados por la técnica y la ciencia estadística.

La autonomía técnica consiste en el desarrollo de las actividades estadísticas con independencia y objetividad, basándose exclusivamente en los principios estadísticos.

La comparabilidad a nivel internacional, es el adaptar en lo pertinente las definiciones, clasificaciones y procedimientos recomendados por los organismos internacionales especializados en estadística y las prácticas más extendidas en la materia.

La eficiencia es la relación entre el valor de los resultados de la actividad estadística y el costo generado para obtenerlos, teniendo en cuenta el uso adecuado de los recursos disponibles.

La centralización normativa consiste en la adopción, por parte de todas las oficinas de estadística, de las normas sobre conceptos, definiciones, clasificadores y metodologías propuestas por el organismo rector.

La descentralización operativa consiste en asignar la producción estadística a las respectivas oficinas de estadística, según su competencia por áreas temáticas.

La legalidad objetiva implica ajustar la actividad estadística al orden normativo vigente. La motivación de la decisión consiste en la obligación de fundamentar las decisiones que se adopten en el área estadística.

Page 38: Poggi   analytics - intro - 1c

¿Y ahora?

Las tareas relacionadas al Consumo de Datos tienen ciertas consideraciones no triviales:

Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades que requiere seguramente debe ser desarrollada por un equipo.

Requiere de competencias propias de: Ciencias de la computación, Data Mining, Estadística, Diseño Gráfico y Visualización, Periodismo, Ciencias Políticas, Sociología, … y conocimiento del negocio.

Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una de las etapas para lograr un resultado interesante.

La secuencia no es lineal, las etapas no se encadenan secuencialmente uniendo el fin de una con el inicio de la otra. Se superponen, se cruzan y se reordenan hasta encontrar –o no- el camino correcto.

No son triviales ya que cada una requiere de rigurosidad, como lo exigen los trabajos periodísticos o académicos serios con sus correspondientes prácticas profesionales.

El “rol del periodista” o “líder de negocio” es el que le da ilación y sentido al resto para que todo el proceso finalice en un producto interesante para el público objetivo.

Page 39: Poggi   analytics - intro - 1c

¿Y ahora? Desde Ciencias de la Computación (IA, DM, …):

Elaborar o fortalecer los algoritmos de búsqueda, linking, TM, …

Fortalecer los modelos sobre Big Data Establecer estándares –viables- para “Linked Data” Estandarizar formatos Facilitar las búsquedas Mejorar la metadata, estandarizar vocabularios,

ontologías, … Fortalecer los métodos de etiquetado automático Fortalecer los métodos de linking automático Elaborar IDEs Participar en DDJ para incorporar algoritmos más

elaborados Fortalecer los métodos de packing, garbage collector y

forgetting Mejorar los métodos de preparación de datos

Page 40: Poggi   analytics - intro - 1c

¿Y ahora?

Desde la informática Incorporar la publicación como una etapa más en los

procesos institucionales y adoptar los estándares correspondientes.

Disponibilizar los reservorios corporativos y externos como una única fuente de datos.

Desde la industria de TI Proveer plataformas robustas y facilidades para la

persistencia masiva de datos. Desde la matemática y la estadística

Aportar …

Page 41: Poggi   analytics - intro - 1c

¿Y ahora?

Desde la Academia en general: Pensar antes de actuar Ordenar Conceptualizar Advertir Cooperar …

Page 42: Poggi   analytics - intro - 1c

¿Y ahora?

Desde la Academia en general: Investigación: aportar a la conceptualización y el

entendimiento de la temática Extensión: difundir y brindar asistencia técnica Formación: impulsar la apropiación en los estudiantes

Monitorear lo que hace el mundo Motivar la apropiación y el consumo de OD en la

sociedad Exigir a las autoridades que cumplan con los principios Oponernos al retroceso necio o al avance insensato Advertir sobre los perjuicios potenciales

• Identidad• Privacidad• Propiedad• Reputación

• Seguridad vs Privacidad

Page 43: Poggi   analytics - intro - 1c

¿Y ahora?

Page 44: Poggi   analytics - intro - 1c

¿Y ahora?

Fuente propia

Page 45: Poggi   analytics - intro - 1c

¿Y ahora?

digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5351_Lenton.pdf

Las técnicas para procesar los datos que usa DDJ son muy básicas, se pueden utilizar

algoritmos mucho más “productivos” propios del DM.

Page 46: Poggi   analytics - intro - 1c

¿Y ahora?

Page 47: Poggi   analytics - intro - 1c

¿Y ahora?

Page 48: Poggi   analytics - intro - 1c

¿Y ahora?

Page 49: Poggi   analytics - intro - 1c

¿Y ahora?

Page 50: Poggi   analytics - intro - 1c

¿Y ahora?

Gartner

Page 51: Poggi   analytics - intro - 1c

¿Y ahora?

www.pagina12.com.ar/diario/elpais/subnotas/286669-75373-2015-11-22.html www.tumblr.com/register/follow/7puentes/2

Page 52: Poggi   analytics - intro - 1c

Ejercicio

... En aquel imperio, el arte de la cartografía logró tal perfección que el mapa de una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda una provincia. Con el tiempo, esos mapas desmesurados no satisficieron y los colegios de cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él. Menos adictas al estudio de la cartografía, las generaciones siguientes entendieron que …

Qué entendieron las generaciones siguientes?

Quién escribió el texto?

Page 53: Poggi   analytics - intro - 1c

12 common problems in Data Mining

1. Poor data quality such as noisy data, dirty data, missing values, inexact or incorrect values, inadequate data size and poor representation in data sampling.

2. Integrating conflicting or redundant data from different sources and forms: multimedia files (audio, video and images), geo data, text, social, numeric, etc…

3. Proliferation of security and privacy concerns by individuals, organisations and governments.

4. Unavailability of data or difficult access to data.5. Efficiency and scalability of data mining algorithms to effectively extract the

information from huge amount of data in databases.6. Dealing with huge datasets that require distributed approaches.7. Dealing with non-static, unbalanced and cost-sensitive data.8. Mining information from heterogeneous databases and global information

systems.9. Constant updation of models to handle data velocity or new incoming data.10. High cost of buying and maintaining powerful softwares, servers and storage

hardwares that handle large amounts of data.11. Processing of large, complex and unstructured data into a structured format.12. Sheer quantity of output from many data mining methods.

Page 54: Poggi   analytics - intro - 1c

Del rigor en la ciencia

... En aquel imperio, el arte de la cartografía logró tal perfección que el mapa de una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda una provincia. Con el tiempo, esos mapas desmesurados no satisficieron y los colegios de cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él. Menos adictas al estudio de la cartografía, las generaciones siguientes entendieron que ese dilatado mapa era inútil y no sin impiedad lo entregaron a las inclemencias del sol y de los inviernos. En los desiertos del Oeste perduran despedazadas ruinas del Mapa, habitadas por animales y por mendigos; en todo el País no hay otra reliquia de las disciplinas geográficas.

Jorge Luis Borges, El Hacedor. BA, 31 de octubre de 1960

Page 55: Poggi   analytics - intro - 1c

[email protected]

eduardo-poggi

http://ar.linkedin.com/in/eduardoapoggi

https://www.facebook.com/eduardo.poggi

@eduardoapoggi

Page 56: Poggi   analytics - intro - 1c

Para pensar

Bilinkis, Santiago (2014): Pasaje al futuro. Lanier, Jaron (2013): ¿Quién controla el futuro? Silver, Nate (2011): The signal and the noise. Why so many predictions fail but some

don’t..