big data — oportunidades y desaf´ıos · el algoritmo de recomendaci´on ademas deja de recibir...

35
Big data — oportunidades y desaf´ ıos Big data — oportunidades y desaf´ ıos Elisa Schaeffer FIME UANL 01/11/2017

Upload: dinhnguyet

Post on 15-Oct-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Big data mdash oportunidades y desafıos

Big data mdash oportunidades y desafıos

Elisa Schaeffer

FIME UANL

01112017

Big data mdash oportunidades y desafıos

Agradecimientos

Lo de hoy esta principalmente basada en el artıculoiquestDatos Grandes o Datos Correctos de Ricardo

Baeza-Yates (httpwwwbaezacl) que es unatraduccion que hicimos de su artıculo en ingles1

para la revista de la SMIA Komputer Sapiens

7(2) 5ndash10 httpsmiamxkomputersapiens

1R Baeza-Yates (2013) ldquoBig Data or Right Datardquo En Proc of the 7th Alberto

Mendelzon International Workshop on Foundations of Data Management Ed porLoreto Bravo y Maurizio Lenzerini Vol 1087 CEUR Workshop Proceedings urlhttpceur-wsorgVol-1087

Big data mdash oportunidades y desafıos

Introduccion

Definicion

Conjuntos de datos que por su tamano y complejidad resultandifıciles de procesar con herramientas tradicionales

Tambien depende del contexto ldquogranderdquo en el ambito delcomputo movil es de menor tamano que ldquogranderdquo paracomputadoras y lo imposible para computadoras de escritorio essencillo para centros de supercomputo

Big data mdash oportunidades y desafıos

Introduccion

httpdilbertcomstrip2012-07-29

Big data mdash oportunidades y desafıos

Introduccion

Campos de aplicacion

Se utilizan para busqueda extraccion de informacion y muchosotros problemas de minerıa de datos

La necesidad para todo esto surge en los negocios en lainvestigacion medica en desarrollo tecnologico entre otros areas

Los ejemplos de hoy tendran que ver mayormente con la web unarea de expertise de Ric

Big data mdash oportunidades y desafıos

Introduccion

Fuentes de datos

Muchas veces los datos procesados son logs (es decir registros deacceso consulta o compra por ejemplo) generados por sistemascomputacionales

En ciencias naturales una fuente comun son equipos cientıficos demedicion o analisis

Cuando los datos provienen de la gente esto se llama sabidurıa de

la gente (ldquowisdom of the crowdsrdquo en ingles)2

2J Surowiecki (2004) The Wisdom of Crowds Why the Many Are Smarter Than the

Few and How Collective Wisdom Shapes Business Economies Societies and NationsRandom House

Big data mdash oportunidades y desafıos

Introduccion

iquestBusqueda versus la minerıa de datos

En la primera se sabe lo que se busca mientras que el segundocaso el objetivo es el descubrimiento de algo inusual iquestque tiene deinteresante un nuevo conjunto de datos

Tıpicamente el buen uso de la minerıa de datos surge a partir deun problema y se fundamenta en preguntas tales como

iquestQue datos se necesitan

iquestCuantos y de que manera de recolectaran

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Agradecimientos

Lo de hoy esta principalmente basada en el artıculoiquestDatos Grandes o Datos Correctos de Ricardo

Baeza-Yates (httpwwwbaezacl) que es unatraduccion que hicimos de su artıculo en ingles1

para la revista de la SMIA Komputer Sapiens

7(2) 5ndash10 httpsmiamxkomputersapiens

1R Baeza-Yates (2013) ldquoBig Data or Right Datardquo En Proc of the 7th Alberto

Mendelzon International Workshop on Foundations of Data Management Ed porLoreto Bravo y Maurizio Lenzerini Vol 1087 CEUR Workshop Proceedings urlhttpceur-wsorgVol-1087

Big data mdash oportunidades y desafıos

Introduccion

Definicion

Conjuntos de datos que por su tamano y complejidad resultandifıciles de procesar con herramientas tradicionales

Tambien depende del contexto ldquogranderdquo en el ambito delcomputo movil es de menor tamano que ldquogranderdquo paracomputadoras y lo imposible para computadoras de escritorio essencillo para centros de supercomputo

Big data mdash oportunidades y desafıos

Introduccion

httpdilbertcomstrip2012-07-29

Big data mdash oportunidades y desafıos

Introduccion

Campos de aplicacion

Se utilizan para busqueda extraccion de informacion y muchosotros problemas de minerıa de datos

La necesidad para todo esto surge en los negocios en lainvestigacion medica en desarrollo tecnologico entre otros areas

Los ejemplos de hoy tendran que ver mayormente con la web unarea de expertise de Ric

Big data mdash oportunidades y desafıos

Introduccion

Fuentes de datos

Muchas veces los datos procesados son logs (es decir registros deacceso consulta o compra por ejemplo) generados por sistemascomputacionales

En ciencias naturales una fuente comun son equipos cientıficos demedicion o analisis

Cuando los datos provienen de la gente esto se llama sabidurıa de

la gente (ldquowisdom of the crowdsrdquo en ingles)2

2J Surowiecki (2004) The Wisdom of Crowds Why the Many Are Smarter Than the

Few and How Collective Wisdom Shapes Business Economies Societies and NationsRandom House

Big data mdash oportunidades y desafıos

Introduccion

iquestBusqueda versus la minerıa de datos

En la primera se sabe lo que se busca mientras que el segundocaso el objetivo es el descubrimiento de algo inusual iquestque tiene deinteresante un nuevo conjunto de datos

Tıpicamente el buen uso de la minerıa de datos surge a partir deun problema y se fundamenta en preguntas tales como

iquestQue datos se necesitan

iquestCuantos y de que manera de recolectaran

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

Definicion

Conjuntos de datos que por su tamano y complejidad resultandifıciles de procesar con herramientas tradicionales

Tambien depende del contexto ldquogranderdquo en el ambito delcomputo movil es de menor tamano que ldquogranderdquo paracomputadoras y lo imposible para computadoras de escritorio essencillo para centros de supercomputo

Big data mdash oportunidades y desafıos

Introduccion

httpdilbertcomstrip2012-07-29

Big data mdash oportunidades y desafıos

Introduccion

Campos de aplicacion

Se utilizan para busqueda extraccion de informacion y muchosotros problemas de minerıa de datos

La necesidad para todo esto surge en los negocios en lainvestigacion medica en desarrollo tecnologico entre otros areas

Los ejemplos de hoy tendran que ver mayormente con la web unarea de expertise de Ric

Big data mdash oportunidades y desafıos

Introduccion

Fuentes de datos

Muchas veces los datos procesados son logs (es decir registros deacceso consulta o compra por ejemplo) generados por sistemascomputacionales

En ciencias naturales una fuente comun son equipos cientıficos demedicion o analisis

Cuando los datos provienen de la gente esto se llama sabidurıa de

la gente (ldquowisdom of the crowdsrdquo en ingles)2

2J Surowiecki (2004) The Wisdom of Crowds Why the Many Are Smarter Than the

Few and How Collective Wisdom Shapes Business Economies Societies and NationsRandom House

Big data mdash oportunidades y desafıos

Introduccion

iquestBusqueda versus la minerıa de datos

En la primera se sabe lo que se busca mientras que el segundocaso el objetivo es el descubrimiento de algo inusual iquestque tiene deinteresante un nuevo conjunto de datos

Tıpicamente el buen uso de la minerıa de datos surge a partir deun problema y se fundamenta en preguntas tales como

iquestQue datos se necesitan

iquestCuantos y de que manera de recolectaran

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

httpdilbertcomstrip2012-07-29

Big data mdash oportunidades y desafıos

Introduccion

Campos de aplicacion

Se utilizan para busqueda extraccion de informacion y muchosotros problemas de minerıa de datos

La necesidad para todo esto surge en los negocios en lainvestigacion medica en desarrollo tecnologico entre otros areas

Los ejemplos de hoy tendran que ver mayormente con la web unarea de expertise de Ric

Big data mdash oportunidades y desafıos

Introduccion

Fuentes de datos

Muchas veces los datos procesados son logs (es decir registros deacceso consulta o compra por ejemplo) generados por sistemascomputacionales

En ciencias naturales una fuente comun son equipos cientıficos demedicion o analisis

Cuando los datos provienen de la gente esto se llama sabidurıa de

la gente (ldquowisdom of the crowdsrdquo en ingles)2

2J Surowiecki (2004) The Wisdom of Crowds Why the Many Are Smarter Than the

Few and How Collective Wisdom Shapes Business Economies Societies and NationsRandom House

Big data mdash oportunidades y desafıos

Introduccion

iquestBusqueda versus la minerıa de datos

En la primera se sabe lo que se busca mientras que el segundocaso el objetivo es el descubrimiento de algo inusual iquestque tiene deinteresante un nuevo conjunto de datos

Tıpicamente el buen uso de la minerıa de datos surge a partir deun problema y se fundamenta en preguntas tales como

iquestQue datos se necesitan

iquestCuantos y de que manera de recolectaran

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

Campos de aplicacion

Se utilizan para busqueda extraccion de informacion y muchosotros problemas de minerıa de datos

La necesidad para todo esto surge en los negocios en lainvestigacion medica en desarrollo tecnologico entre otros areas

Los ejemplos de hoy tendran que ver mayormente con la web unarea de expertise de Ric

Big data mdash oportunidades y desafıos

Introduccion

Fuentes de datos

Muchas veces los datos procesados son logs (es decir registros deacceso consulta o compra por ejemplo) generados por sistemascomputacionales

En ciencias naturales una fuente comun son equipos cientıficos demedicion o analisis

Cuando los datos provienen de la gente esto se llama sabidurıa de

la gente (ldquowisdom of the crowdsrdquo en ingles)2

2J Surowiecki (2004) The Wisdom of Crowds Why the Many Are Smarter Than the

Few and How Collective Wisdom Shapes Business Economies Societies and NationsRandom House

Big data mdash oportunidades y desafıos

Introduccion

iquestBusqueda versus la minerıa de datos

En la primera se sabe lo que se busca mientras que el segundocaso el objetivo es el descubrimiento de algo inusual iquestque tiene deinteresante un nuevo conjunto de datos

Tıpicamente el buen uso de la minerıa de datos surge a partir deun problema y se fundamenta en preguntas tales como

iquestQue datos se necesitan

iquestCuantos y de que manera de recolectaran

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

Fuentes de datos

Muchas veces los datos procesados son logs (es decir registros deacceso consulta o compra por ejemplo) generados por sistemascomputacionales

En ciencias naturales una fuente comun son equipos cientıficos demedicion o analisis

Cuando los datos provienen de la gente esto se llama sabidurıa de

la gente (ldquowisdom of the crowdsrdquo en ingles)2

2J Surowiecki (2004) The Wisdom of Crowds Why the Many Are Smarter Than the

Few and How Collective Wisdom Shapes Business Economies Societies and NationsRandom House

Big data mdash oportunidades y desafıos

Introduccion

iquestBusqueda versus la minerıa de datos

En la primera se sabe lo que se busca mientras que el segundocaso el objetivo es el descubrimiento de algo inusual iquestque tiene deinteresante un nuevo conjunto de datos

Tıpicamente el buen uso de la minerıa de datos surge a partir deun problema y se fundamenta en preguntas tales como

iquestQue datos se necesitan

iquestCuantos y de que manera de recolectaran

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

iquestBusqueda versus la minerıa de datos

En la primera se sabe lo que se busca mientras que el segundocaso el objetivo es el descubrimiento de algo inusual iquestque tiene deinteresante un nuevo conjunto de datos

Tıpicamente el buen uso de la minerıa de datos surge a partir deun problema y se fundamenta en preguntas tales como

iquestQue datos se necesitan

iquestCuantos y de que manera de recolectaran

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

httpsxkcdcom1838

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

Recopilacion transferencia y almacenaje

Por lo general son multiples fuentes de datos que generan entradasde manera simultanea y esto hay que meterlo todo en algun clasede base de datos

Se acumula mucho y no conviene analizarlo ahı mismo sino en unacomputadora aparte

La transferencia de un petabyte sobre una conexion de Internetrapida a 100 Mbps por segundo necesita iexclmas de dos anos

Ademas ocupamos disco para los datos su preprocesamiento ytodos nuestros resultados intermedios y finales

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

Antes de iniciar la minerıa

iquestSon datos unicos o hay que filtrar por duplicados

iquestSon datos confiables o hay spam

iquestCuanto ruido hay en los datos

iquestHay sesgos que afectan la interpretacion de los datos

iquestHay datos privados que se deben anonimizar

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

iquestComo y con que procesar

iquestEs factible procesar todos los datos

iquestSera capaz el algoritmo de escalar

Si debo limitarme a un subconjunto iquestcuales son los datoscorrectos

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Introduccion

Nuestro temario hoy

El manejo de esas cantidades de datos plantea muchos retos

1 escalabilidad

2 privacidad

3 redundancia

4 sesgo

5 dispersion

6 ruido

7 basura

8 complejidad

9 heterogeneidad

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Escalabilidad

Broncas causadas por excesos

Puede resultar poco factible la transferencia almacenamiento yprocesamiento de cantidades elevadas de datos por

las limitaciones del ancho de banda de los canales decomunicacion

el espacio disponible en los dispositivos de almacenamientodigital y

el desempeno de los algoritmos utilizados

Ademas contar con mas datos puede resultar en un aumento delnivel de ruido dentro de los mismos lo que se discutira masadelante

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Escalabilidad

Desempeno algorıtmico

Los algoritmos utilizados para el analisis de datos nonecesariamente escalan de forma adecuada

Si un algoritmo es O(n) un conjunto de doble tamano implica quesu procesamiento va a tardar dos veces el tiempo original

Para algoritmos con comportamiento superlineal casi nunca espractico

Soluciones tıpicas incluyen la paralelizacion yo la distribucion delprocesamiento

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Escalabilidad

Diseno algorıtmico

Una opcion mas barata pero que requiere bastante talento yconocimiento es disenar algoritmos mas rapidos (posiblementeaproximados en vez de exactos)

Esto es fructıfero cuando los beneficios de poder incorporar unamayor cantidad de datos son mayores que la perdida de calidaddebida al nuevo algoritmo las ganancias en terminos de ahorro detiempo de computacion permite procesar mas datos que ojalacontraponga la disminucion en la calidad

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Escalabilidad

Ejemplo de etiquetado lexico

Chamba = reconocer las entidades nombradas dentro de un textoLos mejores algoritmos en existencia tienen una complejidadsuperlineal Ciaramita y Altun3 presentan un algoritmo O(n) conalta calidad

La idea es esta supongamos que se puede obtener un resultado demayor calidad con un algoritmo O(n log n) Denotemos el aumentoen la calidad por ∆q y la calidad obtenida por un algoritmo linealpor Q Para que convenga el numero de entidades correctamenteetiquetadas por unidad de tiempo debe ser mayor Si ejecutamosambos por la misma cantidad de tiempo habra un n = O(β∆qQ)con β gt 1 para el cual el numero de entidades correctamenteetiquetadas sera mayor

3M Ciaramita e Y Altun (2006) ldquoBroad-Coverage Sense Disambiguation and In-formation Extraction with a Supersense Sequence Taggerrdquo En EMNLPrsquo08 urlhttpsourceforgenetprojectssupersensetag

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Escalabilidad

Paradigmas de procesamiento

El grado de paralelizacion alcanzable depende del problema que seesta resolviendo

No todos los problemas se adaptan bien al conocido paradigma deldquomap-reducerdquo4

Se necesita mas investigacion para crear paradigmas mas potentes

Ademas hay que considerar la naturaleza dinamica de los datos yaque se puede presentar la necesidad de procesar los datos en lıneaexiste una iniciativa llamada SAMOA5 para el procesamientoescalable de flujos de datos

4J Dean y S Ghemawat (2004) ldquoMapReduce Simplified Data Processing on LargeClustersrdquo En OSDIrsquo04 pags 137-149

5A Bifet (2013) SAMOA Scalable Advanced Massive Online Analysis urlhttp20samoa-projectnet

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Elementos redundantes

En cualquier red sensora que rastrea multiples objetos enmovimiento todos los nodos sensores cercanos a un objetoproducen datos redundantes

En la web la situacion es peor ya que se estima que laredundancia lexica (es decir plagiarismo de contenido) es del256 y la redundancia semantica (lo mismo significado expresadoen diferentes palabras o lenguajes) es un porcentaje aun mayor delcontenido de la web7

6F Radlinski PN Bennett y E Yilmaz (2011) ldquoDetecting duplicate web documentsusing click-through datardquo En Proceedings of the fourth ACM international conference

on Web search and data mining pags 147-1567A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en la busqueda

Uno de los ejemplos conocidos de sesgo son las selecciones querealizan los usuarios en las paginas de resultados de buscadoresweb mdash sus decisiones estan afectadas tanto por el ordenamientode los resultados como por la interfaz de usuario8

Hay evidencia de que algunos proveedores de contenido en la webgeneran nuevo contenido seleccionando material conseguido atraves de busquedas9

8O Chapelle e Y Zhang (2009) ldquoA dynamic bayesian network click model for websearch rankingrdquo En WWWrsquo09 pags 1-10 G Dupret y B Piwowarski (2008) ldquoA userbrowsing model to predict search engine click data from past observationsrdquo En Procof the 31st annual international ACM SIGIR conference on Research and development

in information retrieval pags 331-3389A Pereira Jr R Baeza-Yates y N Ziviani (2008) ldquoGenealogical trees on the Web asearch engine user perspectiverdquo En WWWrsquo08 pags 367-376

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Redundancia y sesgo

Sesgo en etiquetado

Imagine que en el momento de compartir contenido (por ejemploimagenes) se le proporcione al usuario etiquetas recomendadaspara asociar a dicho contenido

Al rato la mayorıa de las etiquetas asociadas al contenido serangeneradas por el sistema de recomendacion y en realidad no poruna contribucion explıcita de los usuarios

El espacio de etiquetas resultante ya no se puede considerar unafolksonomıa sino mas bien un producto combinado de la gente y elalgoritmo que genera las recomendaciones

El algoritmo de recomendacion ademas deja de recibir nuevasentradas generadas por los usuarios

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Leyes de potencia

Muchos conjuntos de datos siguen leyes de potencia (ldquopower lawrdquoen ingles)

Para la ldquocabezardquo de la distribucion la minerıa de datos funcionamuy bien pero apesta para la cola larga

La atencion adecuada a estas colas largas es una tarea crıtica yaque todas las personas tienen sus comportamientos regulares yespeciales (es decir todas las personas tienen tambien una colalarga)10

10S Goel y col (2010) ldquoAnatomy of the long tail ordinary people with extraordinarytastesrdquo En WSDMrsquo10 pags 201-210

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Binning to the rescue

Al juntar datos a nivel de usuario sin embargo frecuentementeocurre que no hay suficientes datos disponibles en la cola largapara personalizar la experiencia de este usuario mdash en esos casos esmejor agrupar a personas y contextualizar la experiencia de usuario

A veces la cabeza llega a ahogar la cola cuando una consultapuede referir a dos cosas diferentes una de ellos muy popular yfrecuentemente consultada11 discuten estos temas ademas deotros como la privacidad con respecto a la dispersion de los datos

11R Baeza-Yates e Y Maarek (2012) ldquoUsage Data in Web Search Benefits and Limita-tionsrdquo En SSDBMrsquo12 Ed por A Ailamaki y S Bowers Vol 7338 LNCS Springerpags 495-506

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Dispersion ruido y basura

Spam wonderful spam

Un empeoramiento de los resultados puede ser causado por lapresencia de contenido o accion cuyo proposito es de manipular

Casos tıpicos son los intentos de mejorar el posicionamiento de unsitio web dentro de los resultados de un buscador12 aunque yaexisten una multitud de tecnicas para combatirlos13

Aun ası este tipo de manipulacion sigue sucediendo a todos losniveles desde calificaciones de hoteles hasta los conteos de citas enGoogle Scholar14

12R Baeza-Yates y B Ribeiro-Neto (2011) Modern Information Retrieval The Concepts

and Technology behind Search 2a ed Addison-Wesley13N Spirin y J Han (2011) ldquoSurvey on web spam detection principles and algorithmsrdquoEn ACM SIGKDD Explorations Newsletter 132 pags 50-64

14E Delgado Lopez-Cozar N Robinson-Garcıa y DTorres-Salinas (2012) Manipulating

Google Scholar Citations and Google Scholar Metrics simple easy and tempting Inftec arXivorg url httparxivorgabs12120638

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

Proteccion de datos privados

Por ley las instituciones que manejan datos personales debengarantizar que no se compartan con terceros

Se han formulado polıticas de retencion de datos para asegurar alegisladores los medios de comunicacion y naturalmente a sususuarios que cumplen con todos los reglamentos legales sobre elmanejo de informacion personal

Por ejemplo los logs de busqueda se anonimizan a los seis meses yse des-identifican en un ano y medio

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

k-anonimizacion

Introducida por15 propone la supresion o generalizacion deatributos hasta que cada valor del conjunto es identico a por lomenos k minus 1 otras personas

Los proponentes demuestran que pocos atributos son suficientespara identificar caracterısticas principales de la mayorıa de laspersonas por ejemplo cruzando bases de datos publicamentedisponibles se podıa identificar al 87 de los ciudadanosestadounidenses a nivel de su codigo postal fecha de nacimiento ygenero

15L Sweeney (2001) ldquok-anonymity a model for protecting privacyrdquo En InternationalJournal on Uncertainty Fuzziness and Knowledge-based Systems 105 pags 557-570

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

Desafıos de anonimizacion

No es suficiente anonimizar los datos

Por ejemplo los patrones de consulta puedan exponer algunosaspectos de la vida privada intereses o personalidad de los usuariosque preferirıan no compartir preferencias sexuales problemas desalud o hasta detalles que parecen carecer de importancia como suspasatiempos o su gusto en pelıculas

Las consultas realizadas y los enlaces activados en los resultadosespecıficos proveen tanta informacion que gran parte del negociode mercadotecnia computacional se basa en su analisis

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

El famoso incidente de America Online

En el verano del 2006 AOL el proveedor mas grande de Internetde Estados Unidos en ese momento decidio publicar un registroanonimo de consultas en su sitio web

Usando estos datos dos periodistas del New York Times lograronidentificar un usuario especıfico a partir de este registro anonimode consultas16

Los periodistas rentabilizaron multiples consultas hechas por unmismo usuario mdash que incluıan un apellido especıfico y ubicacionesparticulares ademas de otros datos publicos que les permitieronconectar el usuario anonimo con una senora que les confirmo queesas consultas habıan sido hechas por ella

16M Barbaro y T Z Jr (2006) ldquoA face is exposed for AOL searcher no 4417749rdquo EnThe New York Times

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

Leccion aprendida

No basta con reemplazar el usuario con un numero ldquoanonimordquopara ocultar la identidad de una persona

Se pueden determinar con bastante precision atributos tales comoel sexo o la edad a partir de registros de consulta anonimizados17Ademas todo el mundo googlea a si mismo de vez en cuando

17R Jones y col (2007) ldquoldquoI know what you did last summerrdquo query logs and userprivacyrdquo En CIKMrsquo07 pags 909-914

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

Complejidad

Sin importar la cantidad de datos que uno tenga esos datospueden ser sencillos o complejos El segundo refiere a situacionesdonde se cuenta con diversos fuentes de datos con tasas variadasen multiples tipos de dato a distintos niveles de detalle lo quecomplica su recoleccion el procesamiento el modelado y el analisis

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Aun cuando todos losdatos vienen de un mismo fuenteen un mismo formato a una mismatasa lo que representan esos datossuele contener subpoblacionescon caracterısticas distintas

Datos18 sobre la propensidad dehacer retweet en Twitter parecentener una tendencia logarıtmica

httpwpsigmodorgwp-contentuploads201310figure1jpg

18K Lerman (2013) THe curses of heterogeneity in big data ACM SIGMOD Blog urlhttpwpsigmodorgp=960

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Privacidad

Heterogeneidad

Analizando lo mismo pero por subpoblaciones es obvio que nadieen realidad se porta como el promedio

httpwpsigmodorgwp-contentuploads201310figure21jpg

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Conclusiones

iquestEntonces

Hemos explorado preguntas fundamentales que hay que atender altratar grandes conjuntos de datos

Hay muchos problemas a resolver tanto sobre la preparacion de losdatos como su procesamiento

Los problemas de escalabilidad y privacidad tienen relacion con elprocesamiento de los datos mientras que todos los otros temastratados conciernen a la preparacion de ellos

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Conclusiones

Aun esta de moda el concepto de datos grandes

Busqueda realizada en httpstrendsgooglecom

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Conclusiones

Mas informacion

Para aprender que tecnologıas existenhttpspixelasticgithubiopokemonorbigdata

Para mantenerse al tanto de lo que sucedehttpstwittercombigdatabatman

Para aprender hacer cosas uno mismohttpanalyticscosmcomhow-to-become-a-data-scientist-2

(necesitas saber matematicas estadıstica programacion bases dedatos visualizacion cientıfica inteligencia artificial y mucho mas)

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones

Big data mdash oportunidades y desafıos

Conclusiones

Contacto

elisaschaeffergmailcom

  • Introduccioacuten
  • Escalabilidad
  • Redundancia y sesgo
  • Dispersioacuten ruido y basura
  • Privacidad
  • Conclusiones